1200字范文 > 优化概率神经网络_Bayesian Neural Networks：贝叶斯神经网络

优化概率神经网络_Bayesian Neural Networks：贝叶斯神经网络

时间：2020-05-11 08:23:25

贝叶斯神经网络，简单来说可以理解为通过为神经网络的权重引入不确定性进行正则化（regularization），也相当于集成（ensemble）某权重分布上的无穷多组神经网络进行预测。

本文主要基于 Charles et al. [1]。

FBI WARNING：本文讨论的是贝叶斯神经网络，而非贝叶斯网络。FBI WARNING：鉴于近期知乎上一些睿智发言，本文将所有术语翻译成了中文，请谨慎食用。

题图来源

0. 神经网络的概率模型

众所周知，一个神经网络模型可以视为一个条件分布模型

：输入，输出预测值的分布，为神经网络中的权重。在分类问题中这个分布对应各类的概率，在回归问题中一般认为是（标准差固定的）高斯（Gaussian）分布并取均值作为预测结果。相应地，神经网络的学习可以视作是一个最大似然估计（Maximum Likelihood Estimation, MLE）：

其中

对应我们用来训练的数据集（dataset）。回归问题中我们代入高斯分布就可以得到平均平方误差（Mean Squared Error, MSE），分类问题则代入逻辑函数（logistic）可以推出交叉熵（cross-entropy）。求神经网络的极小值点一般使用梯度下降，基于反向传播（back-propagation， BP）实现。

MLE 中不对

的先验概率作假设，也就是认为取什么值的机会都均等。如果为引入先验，那就变成了最大后验估计（Maximum Posteriori, MAP）：

代入高斯分布可以推出 L2 正则化（倾向于取小值），代入拉普拉斯分布（Laplace）可以推出 L1 正则化（倾向于取 0 使权重稀疏）。