基于误差反传的多层感知器——BP神经网络

郑重声明：以下内容，完全参考韩力群编著的《人工神经网络理论，设计及应用》

BP算法的基本思想是，学习过程由信号的正向传播与误差的反向传播两个过程组成。

1. BP网络模型

我们以单隐层感知器为例进行BP网络模型的说明，一般习惯将单隐层感知器称为三层感知器，所谓三层包括了输入层，隐层和输出层。
三层感知器中，输入向量为 $\bm X=(x_1,x_2,\cdots,x_i,\cdots,x_n)^T$ ，图中 $x_0=-1$ 是为隐层神经元引入阈值而设置的；隐层输出向量为 $\bm Y=(y_1,y_2,\cdots,y_j,\cdots,y_m)^T$ ，图中 $y_0=-1$ 是为输出层神经元引入阈值而设置的；输出层的向量为 $\bm O=(o_1,o_2,\cdots,o_k,\cdots,o_l)^T$ ；期望输出向量为 $\bm d=(d_1,d_2,\cdots,d_k,\cdots,d_l)^T$ 。

输入层到隐层之间的权值矩阵用 $\bm V$ 表示， $\bm V=(\bm V_1,\bm V_2,\cdots,\bm V_j,\cdots,\bm V_m)$ ，其中列向量 $\bm V_j$ 为隐层第 $j$ 个神经元对应的权向量，隐层到输出层之间的权值矩阵用 $\bm W$ 表示， $\bm W=(\bm W_1,\bm W_2,\cdots,\bm W_k,\cdots,\bm W_l)$ ，其中列向量 $\bm W_k$ 为输出层第 $k$ 个神经元对应的权向量。
下面分析各层信号之间的数学关系。

对于输出层，有：
$o_k=f({\rm net}_k)\quad\quad k=1,2,\cdots,l \tag{1.1}$ ${\rm net}_k=\sum^m_{j=0}w_{jk}y_j\quad k=1,2,\cdots,l \tag{1.2}$ 对于隐层，有：
$y_i=f({\rm net}_j)\quad\quad j=1,2,\cdots,m\tag{1.3}$ ${\rm net}_j=\sum^n_{i=0}v_{ij}x_i\quad j=1,2,\cdots,m\tag{1.4}$ 以上两式中，激活函数（转移函数） $f (x)$ 均为单极性Sigmoid函数：

$f(x)=\frac{1}{1+{\rm e}^{-x}}\tag{1.5}$ $f (x)$ 具有连续、可导的特点，且有：
$f'(x)=f(x)(1-f(x))\tag{1.6}$ 根据需要，也可以采用双极性Sigmoid函数（或称双曲线正切函数）：
$f(x)=\frac{1-{\rm e}^{-x}}{1+{\rm e}^{-x}}\tag{1.7}$ 式(1.1) ~ (1.5)共同构成了三层感知器的数学模型。

2. BP学习算法

下面一三层感知器为例介绍BP学习算法，然后将所得结论推广到一般多层感知器的情况。

2.1 网络误差定义和权值调整思路

在进行下面推导的过程中，我们必须要重视以下符号的含义:

$w_{jk}^h$ ：表示第 $h - 1$ 隐层第 $j$ 个神经元的输出值 传递到第 $h$ 隐层第 $k$ 个神经元时的缩放比例，称之为权值。
$y^h_j$ ：表示第 $h$ 隐层第 $j$ 个神经元的输出值，也是 $h + 1$ 层神经元d 输入值经过权重 $w_{jk}^{h+1}$ 缩放后的一部分。
${\rm net}_j^h$ ：表示第 $h$ 隐层第 $j$ 个神经元的集结输入值， ${\rm net}_j^h=\sum^m_{j=0}w^h_{ij}y^{h-1}_i$ 。
$f({\rm net}_j^h)$ ：表示第 $h$ 隐层第 $j$ 个神经元的激活函数（转移函数）,即： $y_j^h=f({\rm net}_j^h)$
$\delta^h_j$ ：表示第 $h$ 隐层第 $j$ 个神经元的输出误差信号，也称为学习信号，这是因为网络误差函数 $E$ 对第 $h$ 隐层第 $j$ 个神经元的 ${\rm net}_j^h$ 求偏导、并取反，即： $\delta^h_j=-\frac{\partial E}{{\rm net}_j^h}=-\frac{\partial E}{\partial y^h_j}\frac{\partial y^h_j}{\partial {\rm net}^h_j}=-\frac{\partial E}{\partial y^h_j}f'({\rm net}^h_j)$
$\Delta w^h_{ij}$ ：表示经过一些列计算，确定当前第 $h - 1$ 隐层第 $i$ 个神经元到第 $h$ 隐层第 $j$ 个神经元的权值要调整的具体数值 $\Delta w^h_{ij}=\eta\delta^h_jy^{h-1}_i$
理解BP算法的核心是要懂得，所有的推导铺垫都是在为某一隐层或输出层的权值函数 $v_{ij}$ 或 $w_{jk}$ 做铺垫的。
如果把某一隐层或输出层的权值数看作是矩阵，则应该是这样的： $V^{(n+1)\times m}=(V_1,V_2,\cdots,V_m)=\begin{pmatrix}v_{11}&v_{12}&\cdots&v_{1m}\\ v_{21}&v_{22}&\cdots&v_{2m}\\ \vdots& &\ddots&\vdots\\ v_{(n+1)1}&v_{(n+1)2}&\cdots&v_{(n+1)m} \end{pmatrix}$
理解这个矩阵构造的关键在于理解：
- 列数代表当前隐藏层的神经元个数，当前矩阵显示本隐藏层有 $m$ 个神经元；
- 当前隐藏层的权值矩阵的每一列代表相应的一个神经元所对应于上一层隐藏层(或输入层)神经元的一系列权值，例如上式中 $V_1$ 表示该隐藏层第一个神经元对应于上一隐藏层各神经元的权值，假设上一层有 $n$ 个神经元，由于还要考虑将阈值引入到当前隐藏层中，故上一层隐藏层还要加一个输出值固定为"-1"的神经元，因此上一层共有 $n + 1$ 个神经元,因此 $V_1=(v_{11},v_{21},v_{31},\cdots,v_{(n+1)1})^T$
  ——————————————————————————————————————————
还要理解好学习信号 $\delta^h_{j}$ ，他表示第 $h$ 个隐藏层中第 $j$ 个神经元的学习信号，注意， $\delta^h_{j}$ 是标量，但他将负责参与求出权值 $V_j$ 列向量的一系列列权值，因为 $\delta^h_{j}=-\frac{\partial E}{\partial net^h_j}=-\frac{\partial E}{\partial y^h_j}f'(net^h_j)$ $y^h_j=f(net^h_j)=f\left(\sum^n_{i=0}y^{h-1}v_{ij}\right)$ 所以权值 $\Delta V_j^h=\Delta v^h_{ij}=\eta\delta^h_jy^{h-1}_i\quad i=0,1,2,\cdots,n$
对于同一条训练数据而言，不同的神经元有不同的 $\delta^h_j$ ；对于同一层的同一位置的神经元，不同的训练数据有不同的 $\delta^h_j$ 。

以上说明中多写了一部分结论，具体推导请看下文。

网络误差定义
当网络输出与期望输出不等时，存在输出误差 $E$ ，定义如下：
$E=\frac{1}{2}||\bm d-\bm O||_2^2=\frac{1}{2}\sum^l_{k=1}(d_k-o_k)^2\tag{2.1}$ 将以上误差定义是展开至隐层，有：
$\begin{aligned}E&=\frac{1}{2}\sum^l_{k=1}[d_k-f({\rm net}_k)]^2\\ &=\frac{1}{2}\sum^l_{k=1}[d_k-f(\sum^m_{j=0}w_{jk}y_j)]^2 \tag{2.2}\end{aligned}$ 进一步展开至输入层，有：
$\begin{aligned}E&=\frac{1}{2}\sum^l_{k=1}\{d_k-f[\sum^m_{j=0}w_{jk}f({\rm net}_j)]\}^2\\ &=\frac{1}{2}\sum^l_{k=1}\{d_k-f[\sum^m_{j=0}w_{jk}f(\sum^n_{i=0}v_{ij}x_i)]\}^2 \tag{2.3}\end{aligned}$
权值调整思路
从上式可以看出，网络误差是关于各层权值 $w_{jk}、v_{ij}$ 的函数，因此调整权值可以改变误差 $E$ 。
调整权值的原则是使误差不断地减小，因此，应使权值的调整量与误差的梯度下降成正比，即：
$\Delta w_{jk}=-\eta\frac{\partial E}{\partial w_{jk}}\quad\quad j=0,1,2,\cdots,m;\quad k=1,2,\cdots,l\tag{2.4a}$ $\Delta v_{ij}=-\eta\frac{\partial E}{\partial v_{ij}}\quad\quad i=0,1,2,\cdots,n;\quad j=1,2,\cdots,m\tag{2.4b}$ 式中，符号表示梯度下降，常数 $\eta\in(0,1)$ 表示比例系数，在训练中反映学习速率。

2.2 BP算法的推导

式 $(2.4)$ 仅是对权值调整思路的数学表达式，而不是具体的权值调整计算式。下面推导三层BP算法权值调整的计算式。事先约定，在全部推导过程中，对输出层均有 $j=0,1,2,\cdots,m$ ， $k=1,2,\cdots,l$ ；对隐层均有 $i=0,1,2,\cdots,n$ ， $j=1,2,\cdots,m$ 。这是因为如果把当前隐层当成是相对于下一层的输入层，则必须要夹带 $y_0=-1$ 的一个当前层神经元作为引入下一层的阈值的设置；而如果仅仅是求取当前隐层的输出值，则无须考虑“为下一隐层引入阈值而设置的当前隐层中的 $y_0=-1$ ”，因为作为下一层的输入值，他永远是等于“-1”。

对于输出层，式 $(2.4 a)$ 可写为： $\Delta w_{jk}=-\eta\frac{\partial E}{\partial w_{jk}}=-\eta\frac{\partial E}{\partial {\rm net}_k}\frac{\partial {\rm net}_k}{\partial w_{jk}}\tag{2.5a}$ 对于隐层，式 $(2.4 b)$ 可写为：
$\Delta v_{ij}=-\eta\frac{\partial E}{\partial v_{ij}}=-\eta\frac{\partial E}{\partial {\rm net}_j}\frac{\partial {\rm net}_j}{\partial v_{ij}}\tag{2.5b}$

对于输出层和隐层各定义一个误差信号，令： $\delta^o_k=-\frac{\partial E}{\partial {\rm net}_k}\tag{2.6a}$ $\delta^y_j=-\frac{\partial E}{\partial {\rm net}_j}\tag{2.6b}$ 综合应用式 $(1.2)$ 和式 $(2.6 a)$ ，可将式 $(2.5 a)$ 的权值调整式改写为：
$\Delta w_{jk}=\eta\delta^o_ky_j\tag{2.7a}$ $\Delta v_{ij}=\eta\delta^y_jx_i\tag{2.7b}$ 可以看出，只要计算出式 $(2.7)$ 中的误差信号 $\delta^o_k$ 和 $\delta^y_j$ ，权值调整量的计算推导即可完成。

对于输出层， $\delta^o_k$ 可展开为：
$\delta^o_k=-\frac{\partial E}{\partial {\rm net}_k}=-\frac{\partial E}{\partial o_k}\frac{\partial o_k}{\partial {\rm net}_k}=-\frac{\partial E}{\partial o_k}f'({\rm net}_k)\tag{2.8a}$ 对于隐层， $\delta^y_j$ 可展开为： $\delta^y_j=-\frac{\partial E}{\partial {\rm net}_j}=-\frac{\partial E}{\partial y_j}\frac{\partial y_j}{\partial {\rm net}_j}=-\frac{\partial E}{\partial y_j}f'({\rm net}_j)\tag{2.8b}$
下面求式 $(2.8)$ 中网络误差 $E$ 对各层输出的偏导.
对于输出层，利用式 $(2.1)$ ，可得： $\frac{\partial E}{\partial o_k}=-(d_k-o_k)\tag{2.9a}$ 对于隐层，利用式 $(2.2)$ ，可得： $\frac{\partial E}{\partial y_j}=-\sum^l_{k=1}(d_k-o_k)f'({\rm net}_k)w_{jk}\tag{2.9b}$

利用以上结果代入式 $(2.8)$ ，如果激活函数全部利用单极性Sigmoid函数，即式 $(1.6)$ ，可得：
$\delta^o_k=(d_k-o_k)o_k(1-o_k)\tag{2.10a}$ $\begin{aligned} \delta^y_j&=-\left[\sum^l_{k=1}(d_k-o_k)f'({\rm net}_k)w_{jk}\right]f'({\rm net}_j)\\ &=\left(\sum^l_{k=1}\delta^o_kw_{jk}\right)y_j(1-y_j)\tag{2.10b} \end{aligned}$

至此，两个误差信号已经推到完成，将式 $(2.10)$ 带回到式 $(2.7)$ ，便得到了三层感知器的利用单隐层Sigmoid函数作激活函数的BP学习算法权值调整计算公式，即
$\left\{\begin{matrix}\Delta w_{jk}=\eta\delta^o_ky_j=\eta(d_k-o_k)o_k(1-o_k)y_j\tag{2.11}\\ \Delta v_{ij}=\eta\delta^y_jx_i=\eta\left(\sum^l_{k=1}\delta^o_kw_{jk}\right)y_j(1-y_j)x_i \end{matrix}\right.$

对于一般的多层感知器，设共有 $h$ 个隐层，按前向顺序各隐层神经元数分别记为 $m_1,m_2,\cdots,m_h$ ，各隐层输出分别记为 $y^1,y^2,\cdots,y^h$ ，各层权值矩阵分别记为 $\bm W^1,\bm W^2,\cdots,\bm W^h,\bm W^{h+1}$ ，则各层的权值调整计算公式为：

输出层 $\Delta w_{jk}^{h+1}=\eta\delta^o_ky^h_j\quad j=0,1,2,\cdots,m_h;\quad k=1,2,\cdots,l$ 第 $h$ 隐层
$\Delta w_{ij}^h=\eta\delta^h_jy^{h-1}_i=\eta\left(\sum^l_{k=1}\delta^o_kw_{jk}^{h+1}\right)f'({\rm net}_j^h)y^{h-1}_i\quad i=0,1,2,\cdots,m_{h-1}；j=1,2,\cdots,m_h$ 按以上规律逐层类推，则第一隐层权值调整计算公式：
$\Delta w_{pq}^1=\eta\delta^1_qx_p=\eta\left(\sum^{m_2}_{r=1}\delta^2_{r}w^2_{qr}\right)f'({\rm net}_q^1)x_p\quad p=0,1,2,\cdots,n；q=1,2,\cdots,m_1$

三层感知器的BP学习算法也可以写成向量形式。
对于输出层而言，设最后一隐层的输出 $\bm Y=(y_0,y_1,y_2,\cdots,y_i,\cdots,y_m)^T，\bm \delta^o=(\delta^o_1,\delta^o_2,\cdots,\delta^o_k,\cdots,\delta^o_l)^T$ ，则：

$\Delta \bm W=\eta(\bm Y (\bm\delta^o)^T)\tag{2.12a}$ 对于隐层而言，设输入层的输入 $\bm X=(x_0,x_1,x_2,\cdots,x_i,\cdots,x_n)^T，\bm\delta^y=(\delta^y_1,\delta^y_2,\cdots,\delta^y_j,\cdots,\delta^y_m)^T$ ，则：
$\Delta\bm V=\eta(\bm X(\bm\delta^y)^T)$

容易看出，在BP学习算法中，各层权值调整公式形式上是一样的，均有3各因素决定，即：学习率 $\eta$ 、本层输出的误差信号 $\bm\delta$ 以及本层输入信号 $\bm Y(或\bm X)$ 。

原文链接：https://blog.csdn.net/qq_35866736/article/details/96146536