BP神经网络权值、阈值更新公式推导

这里记录一下BP神经网络的误差逆向传播算法：
1.针对特殊的一种激活函数: $sigmoid(x)=\frac{1}{1+e^{-x}}$ 来推导BP神经网络的权值和阈值更新公式：
给定训练集: $D=\left \{ \left ( x_1,y_1{} \right ),\left ( x_2,y_2 \right )...,\left ( x_m,y_m \right )\right \},x_i\in\mathbb{R}^{d},y_i\in \mathbb{R}^{l}$ ,即输入属性序列由 ${d}$ 个属性描述，输出 ${l}$ 维实值向量。为了方便讨论，图1给出了拥有 ${d}$ 个输入神经元， ${l}$ 个输出神经元， ${q}$ 个隐层神经元的多层前馈网络结构，其中输出层为第 ${j}$ 个神经元的阈值用 ${\theta }$ 表示，隐层第 ${h}$ 个神经元用 ${\varphi _h}$ 表示。输入层第 ${i}$ 个神经元与隐层第 ${h}$ 个神经元之间的连接权为 ${v_{ih}}$ ,隐层第 ${h}$ 个神经元与输出层第 ${j}$ 个神经元之间的连接权为 ${\omega _{hj}}$ 。
这里写图片描述
图1 BP神经网络即算法中的符号变量
记隐层第 ${h}$ 个神经元接收到的输入为 ${\alpha _h=\sum _{i=1}^{d}v_{ih}x_i}$ ,输出层的第 ${j}$ 个神经元接收到的输入为: $\beta _j=\sum _{h=1}^{q}\omega _{hj}b_h$ ,其中 ${b_h}$ 为隐层第 ${h}$ 个神经元的输出。现在假设隐层和输出层都使用Sigmoid函数：
对训练例 ${(x_k,y_k)}$ ,假定神经网络的输出为： ${\widehat{y_k}=(\widehat{y_1},\widehat{y_2},......\widehat{y_l})}$ ,即：

${\widehat{y_k}=(\beta _j-\theta _j)}$ (1)
则网络在 ${(x_k,y_k)}$ 上的均方误差为：
$E_k=\frac{1}{2}\sum_{j=1}^{l}(\widehat{y_{j}^{k}}-y_{j}^{k})$ (2)
图1中的网络中有 ${(d+l+1)}q+l$ 个参数需要确定。BP是一个迭代学习算法，在迭代的每一轮采用广义的感知机学习规则对参数进行更新估计。下面我们以图1中的隐层到输出层的连接权值 ${\omega _{hj}}$ 为例来进行推导：
BP算法基于梯度下降(gradient descent)策略,以目标的负梯度方向对参数进行调整，对公式2中的误差 $E_k$ ,给定学习率 $\eta$ ,有：
$\Delta w_{hj}=-\eta \frac{\partial E_k}{\partial w_{hj} }$ (3)
注意到 $w_{hj}$ 先影响到第 $j$ 个输出神经元的输入值 $\beta _j$ ,再影响到其输出值 $\widehat{y_{j}^{k}}$ ,然后影响到 $E_k$ ,有：
$\frac{\partial E_k}{\partial w_{hj}}=\frac{\partial E_k}{\partial \widehat{y_{j}^{k}}}\cdot \frac{\partial \widehat{y_{j}^{k}}}{\partial \beta _j}\cdot \frac{\partial \beta _j}{\partial w_{hj}}$ (4)
根据 $\beta _j$ 的定义有： $\frac{\partial \beta _j}{\partial w_{hj}}=b_h$ ,并且Sigmoid函数有一个很好的性质： ${f(x)}'=f(x)(1-f(x)$ ，于是根据公式(1)和(2)，有：
$g_j=\frac{\partial E_k}{\partial \widehat{y_{j}^{k}}}\cdot \frac{\partial \widehat{y_{j}^{k}}}{\partial \beta _j} =-(\widehat{y_{j}^{k}}-y_{j}^{k}){f}’(\beta_j -\alpha_j )=(y_{j}^{k}-\widehat{y_{j}^{k}})\widehat{y_{j}^{k}}(1-\widehat{y_{j}^{k}})$ (5)
将公式(5)带入到公式(4)，再带入到公式(3)中，就得到了BP算法中关于 $w_{hj}$ 的更新公式：
$\Delta w_{hj}=\eta g_jb_h$ (6)
而 ${\Delta\theta_j }$ 的更新公式为：
${\Delta\theta_j }=-\eta \frac{\partial E_k}{\partial \theta_j}=-\eta \frac{\partial E_k}{\partial \widehat{y_{j}^{k}}}\cdot \frac{\partial \widehat{y_{j}^{k}}}{\partial \theta _j}=-\eta (y_{j}^{k}-\widehat{y_{j}^{k}})\cdot \widehat{y_{j}^{k}}\cdot (1-\widehat{y_{j}^{k}})=-\eta g_j$ (7)
BP神经网络的输出层到隐层的连接权值 ${\Delta v_{ih} }$ 的更新估计式为：
$\Delta v_{ih}=-\eta \frac{\partial E_k}{\partial v_{ih}}=-\eta \frac{\partial E_k}{\partial b_h}\cdot \frac{\partial b_h}{\partial \alpha _h}\cdot \frac{\partial \alpha _h}{\partial v_{ih}}$
$=-\eta \sum _{j=1}^{l}\frac{\partial E_k}{\partial \beta _j}\cdot \frac{\partial \beta _j}{\partial b_h}{f}'(\alpha _h-\gamma _h)x_i=\eta b_h(1-b_h))\sum _{j=1}^{l}\omega _{hj}g_j$
$=\eta e_hx_i$
BP神经网络的隐层第 $h$ 个神经元的阈值 $\gamma _h$ 的更新公式为：
$\Delta \gamma _h=-\eta \frac{\partial E_k}{\partial \gamma _h}=-\eta \sum _{j=i}^{l}\frac{\partial E_k}{\partial \beta _i}\cdot \frac{\partial \beta _i}{\partial b_h}\cdot \frac{\partial b_h}{\partial \gamma _h}=-\eta e_h$
学习率 $\eta \in (0,1)$ 控制着算法每一轮迭代中的更新步长；

原文链接：https://blog.csdn.net/pcb931126/article/details/81046905