景源机械精密加工设备:贝叶斯神经网络(系列
  • 作者:dede58.com
  • 发布时间:19-03-24 14:01
  • 点击数:98

本文是由人工智能学习学会编辑的技术博客,原标题为:

贝叶斯神经网络系列文章1 :贝叶斯神经网络的需求

作者| Kumar Shridharfollow

翻译| mashagua

校对|酱制梨评论|约翰逊·李的加薪安排|鱼之王

原始链接:

http : / / medium 。 com / neural space / Bayesian - neural - network - series - post - 1 - need - Bayesian - networks - e 209 e 66 b 70 b 2


无花果。 1 :以点估计为权重的神经网络与以概率分布为权重的神经网络。

本文是八个贝叶斯卷积网络系列中的第一篇。。 这些博客的总体结构如下:

贝叶斯网络的应用场景

为了更好地理解贝叶斯网络所需的背景知识

贝叶斯神经网络的一些最新成果

基于变分推理的贝叶斯卷积神经网络

使用PyTorch构建自己的贝叶斯卷积神经网络

贝叶斯神经网络的不确定性估计

贝叶斯神经网络中的模型修剪

在其他领域(超分辨率、氮化镓等)的应用。)。 )

让我们通过这个博客了解贝叶斯神经网络的需求场景来开始这个系列。。

问题陈述

深层神经网络是通过学习例子来学习执行任务的连接系统,而不需要事先知道任务。。 它们可以很容易地扩展到数百万个数据点,并且可以通过随机梯度下降进行优化。。

卷积神经网络是数字神经网络的一种变体,在图像分类领域已经超越了人类的精度。。 有线电视网络能够适应各种非线性数据点,因此需要大量的训练数据。 这将导致有线电视新闻网和普通神经网络经常用少量的训练样本过度拟合每一个类。 神经网络模型可以很好地适应训练集,但不能预测不太好的数据。这种情况通常会导致神经网络无法正确评估训练数据中的不确定性,从而导致对正确的类别、预测或动作过于自信。

如果博客的这一部分比你提前一点,我建议你从这里回顾一下深入学习的基本知识。

为了理解这一部分,让我们考虑一个猫和狗的图像分类训练任务。现在,当一张豹的照片出现在测试集中时,模型应该理想地预测它既不是狗也不是猫(狗50 %,猫50 % )。然而,因为输出层的软最大函数可以获得概率分数,所以它将调整一个类的输出概率分数,并最大化另一个类的输出概率分数,从而导致一个类的置信水平过高。这是点估计神经网络的主要问题之一。

请注意,点估计应用于神经网络,其中权重由单个节点表示。另一方面,贝叶斯神经网络的权重由它的分布来表示,如图1所示。。

但是我们真的需要贝叶斯神经网络吗? 在工程实践中,我们使用各种正则化技术来控制过拟合,例如迭代的提前终止、权重衰减、L1或L2正则化以及最近流行的和经验上非常有效的技术,丢弃一些神经网络节点。

如果我们能够通过对模型进行正则化来解决决策的高置信度问题,防止模型过度拟合,那么问题仍然存在:为什么我们需要贝叶斯神经网络?

简而言之,答案是:当前的神经网络体系结构缺乏预景源机械精密加工设备测的不确定性度量,但贝叶斯神经网络包含了它。

发展状况

深度神经网络已成功应用于许多领域,包括一些非常敏感的领域,如医疗、安全、欺诈交易等。这些领域严重依赖于模型预测的准确性,甚至过于自信的决策也会导致大问题。此外,这些字段中的数据集非常不平衡(一百万个欺诈交易,近5 %的癌症阳性,不到1 %的垃圾邮件),这将导致模型在抽样类别中的过度拟合。

从概率论的角度来看,使用点估计作为基于任何分类的权重是不合理的。另一方面,贝叶斯神经网络对过拟合现象更具鲁棒性,能够很好地从小数据集学习。贝叶斯方法还通过其参数以概率分布的形式提供不确定性估计(见图。1 )。同时,通过使用先验概率分布对参数进行积分,在训练过程中在许多模型上计算平均值,为网络提供正则化效果,从而防止过度拟合。

贝叶斯神经网络的实用性

贝叶斯神经网络是一种通过参数的后验推断来防止过度拟合的有吸引力的理论方法。然而,有线电视新闻网内核(也称为过滤器)的分布建模以前从未成功过,这可能是由于在实际应用中通常使用大量的参数和最大模型。

即使对于极少量的参数集,利用贝叶斯神经网络进行推理后验估计也是一项非常困难的任务。变分推理是一种流行的方法,通常使用模型的后验逼近。这里,人们将使用简单的变分分布(如高斯分布)来建模后验,并试图使分布的参数尽可能接近真实后验。这是通过最小化简单变分分布和真实后验分布之间的库尔巴克-莱布勒差来实现的。过去许多人使用这种方法来处理标准的神经网络模型。

然而,用变分法估计贝叶斯网络的后验估计需要大量的计算。使用高斯近似分布将大大增加模型参数的数量,而不会大大增加模型容量。例如,布伦德尔等人。 ( 2015 ),使用贝叶斯神经网络后验近似高斯分布,模型参数的数量加倍,但是报告具有与丢弃一些节点的传统方法相同的预测性能。这使得该方法在实践中不适用于有线电视新闻网,因为参数数量的增加成本太高。

下一步我们该怎么办?

有很多方法可以建立贝叶斯神经网络(我们将在第三篇博客中考虑很多)。然而,在本系列中,我们将着重于使用贝叶斯方法构造贝叶斯有线电视新闻网。神经网络权重的贝叶斯精确推理很难处理,因为参数数量很大,神经网络的功能形式不适合精确集成。因此,我们将把难以处理的真实后验估计概率分布p(w|D )近似为随变化的概率分布q_θ(w|D ),它符合高斯分布μ∑。? d和σ∑? d的性质用N(θ |μ,σ2 )表示,其中d是定义概率分布的参数总数。这些高斯变分后验分布的形状由它们的方差σ2决定,方差σ2表示每个模型参数估计的不确定性。

格雷夫斯( 2011 )提出的上述图形直觉。

如果你不能准确理解我们之前的段落,那也没关系。在下一篇博客中,我们将介绍所有用于理解贝叶斯神经网络的基础知识。

接下来几周我们预计要做的事情:

我们将看到反向投影方法如何有效地将贝叶斯应用于有线电视新闻网。我们将介绍应用两个卷积运算的想法,一个用于平均值,一个用于方差。

我们将看到该模型如何从几个简单模型的平均值中学习更丰富的表达式和预测结果。

我们将看到贝叶斯有线电视新闻网提出的通用和可靠的变分推理方法可以应用于各种有线电视新闻网架构,而对它们的性能没有任何限制。我们将在PyTorch中对模型进行编码,并将结果与点估算网络进行比较。

我们将估计贝叶斯神经网络中的任意和认知不确定性。此外,我们将通过经验证明如何减少不确定性,使网络做出的决策随着训练精度的提高而变得更加自信。

我们将了解到,我们的方法通常会使模型的参数加倍,并且我们可以通过无偏的蒙特卡罗梯度模拟方法来训练无限集合。

我们申请L1号。此外,我们将使用预先训练的模型来微调模型,以便在不改变模型精度的情况下减少模型参数。

最后,我们将贝叶斯网络应用于图像超分辨率和反网络生成任务。我们将把结果与相应领域的其他重要体系结构进行比较。

我想继续查看这篇文章的相关链接和参考资料。?

单击[贝叶斯神经网络(系列)第一]或按下以下地址:

http : / / ai。 燕舍。com / page / TextTranslation / 1465

人工智能学习学会今天推荐:雷锋网雷锋网

卡内基梅隆大学( Carnegie Mellon U niversity ) 2019年春季的“神经网络自然语言处理”是CMU语言技术学院和计算机学院的联合班。其主要内容是教学生如何使用神经网络进行自然语言处理。神经网络可以被称为语言建模任务的强大新工具。同时,神经网络可以改进许多任务中的最新技术,使过去不容易解决的问题变得简单易行。

加入群组,免费观看视频: http://ai。燕舍。com / page / GrouP Detail / 33

  • 友情链接:
分享到: