深层神经网络

浅层神经网络和深层神经网络的主要区别在于隐藏层的多少。隐藏层的层数越多，神经网络越深。

深层神经网络的一些符号定义：
$L$ : 神经网络的层数
$n^{[l]}$ : 第 $l$ 层的神经单元个数
$a^{[l]} = g^{[l]}(z^{[l]})$ : 第 $l$ 层的激活函数
$W^{[l]}$ : 第 $l$ 层 $z^{[l]}$ 的权重
$x = a^{[0]}$ ， $\hat{y} = a^{[L]}$

深层神经网络的前向传播

下图是有3层隐藏层的神经网络

一个样本x在这个神经网络中进行前向传播的过程是

z [1] a [1] z [2] a [2] z [3] a [3] z [4] y^= a [4] = W [1] a [0] + b [1] = g [1] (z [1]) = W [2] a [1] + b [2] = g [2] (z [2]) = W [3] a [2] + b [3] = g [3] (z [3]) = W [4] a [3] + b [4] = g [4] (z [4])

$\begin{aligned} z^{[1]} & = W^{[1]} a^{[0]} + b^{[1]} \\ a^{[1]} & = g^{[1]}(z^{[1]}) \\ z^{[2]} & = W^{[2]} a^{[1]} + b^{[2]} \\ a^{[2]} & = g^{[2]}(z^{[2]}) \\ z^{[3]} & = W^{[3]} a^{[2]} + b^{[3]} \\ a^{[3]} & = g^{[3]}(z^{[3]}) \\ z^{[4]} & = W^{[4]} a^{[3]} + b^{[4]} \\ \hat{y} = a^{[4]} & = g^{[4]}(z^{[4]}) \\ \end{aligned}$

从中可以总结到规律：

z [l] a [l] = W [l] a [l - 1] + b [l] = g [l] (z [l])

$\begin{aligned} z^{[l]} & = W^{[l]} a^{[l-1]} + b^{[l]} \\ a^{[l]} & = g^{[l]}(z^{[l]}) \end{aligned}$

多个样本X在这个神经网络中进行前向传播的过程：

Z [1] A [1] Z [2] A [2] Z [3] A [3] Z [4] y^= A [4] = W [1] A [0] + b [1] = g [1] (Z [1]) = W [2] A [1] + b [2] = g [2] (Z [2]) = W [3] A [2] + b [3] = g [3] (Z [3]) = W [4] A [3] + b [4] = g [4] (Z [4])

$\begin{aligned} Z^{[1]} & = W^{[1]} A^{[0]} + b^{[1]} \\ A^{[1]} & = g^{[1]}(Z^{[1]}) \\ Z^{[2]} & = W^{[2]} A^{[1]} + b^{[2]} \\ A^{[2]} & = g^{[2]}(Z^{[2]}) \\ Z^{[3]} & = W^{[3]} A^{[2]} + b^{[3]} \\ A^{[3]} & = g^{[3]}(Z^{[3]}) \\ Z^{[4]} & = W^{[4]} A^{[3]} + b^{[4]} \\ \hat{y} = A^{[4]} & = g^{[4]}(Z^{[4]}) \\ \end{aligned}$

从中可以总结到规律：

Z [l] A [l] = W [l] A [l - 1] + b [l] = g [l] (Z [l])

$\begin{aligned} Z^{[l]} & = W^{[l]} A^{[l-1]} + b^{[l]} \\ A^{[l]} & = g^{[l]}(Z^{[l]}) \end{aligned}$
因此在实现时可以使用for循环来实现。检查代码是否正确，可以检查上述的公式得到的矩阵的维度是否正确。比如，

W[l] W [ l ] $W^{[l]}$ 的维度是

(n[l],n[l−1]) ( n [ l ] , n [ l − 1 ] ) $(n^{[l]}, n^{[l-1]})$ ，

b[l] b [ l ] $b^{[l]}$ 的维度是

(n[l],1) ( n [ l ] , 1 ) $(n^{[l]}, 1)$ ，

Z[l] Z [ l ] $Z^{[l]}$ 的维度是

(n[l],m) ( n [ l ] , m ) $(n^{[l]}, m)$ 。确保这些参数的维度没有问题，公式运算一般没问题。

为什么使用深层表示

神经网络越深，表现效果越好，为什么呢？下面举一些直观的例子：
人脸识别的深层网络的层数大概可以分成4组，第1组的层主要负责识别图像的边缘部分，可以称为边缘识别器。第2组的层根据第1组的层识别的边缘部分识别人脸的某些部位，如眼睛，鼻子等，可以称为人脸部位识别器。第3组的层根据第2组能够识别出人脸。神经网络中的隐藏层的层数越深，隐藏层的功能就越复杂。
人脸识别的深层网络
对于语音识别也是一样的，浅层的隐藏层识别某种声音，深一点的隐藏层识别单词，更深一点的隐藏层识别语音的意思。

另外一种解释是，某些函数的功能只需要简单的L层神经网络就可以实现，如果使用层数更少的神经网络，隐藏层就需要更多的隐藏单元。比如求n个数字的异或结果，深层的神经网络需要 $O(logn)$ 个神经元，如果使用2层神经网络，可能需要 $O(2^n)$ 个神经元，如下图所示：
异或问题神经网络

搭建深层神经网络块

整个深层神经网络的学习过程就是不断地进行前向传播、反向传播和梯度下降，如下图所示
深层神经网络的前向传播和反向传播

把前向传播和反向传播两个过程使用前向函数和反向函数表示，第 $l$ 层的前向函数的输入是 $a^{[l-1]}$ ，输出是 $a^{[l]}$ ，第 $l$ 层的反向函数的输入是 $da^{[l]}$ 和 $z^{[l]}$ ，输出是 $da^{[l-1]}$ 、 $dW^{[l]}$ 和 $db^{[l]}$ 。在前向函数计算过程中，记得把 $z^{[l]}$ 保存起来，然后传递给反向函数。

前向和反向传播

这里详细介绍在每一层中前向和反向传播的具体运算过程。

前向函数

输入： $a^{[l-1]}$
输出： $a^{[l]}$

z [l] a [l] = W [l] a [l - 1] + b [l] = g [l] (z [l])

$\begin{aligned} z^{[l]} & = W^{[l]} a^{[l-1]} + b^{[l]} \\ a^{[l]} & = g^{[l]}(z^{[l]}) \end{aligned}$

矢量化实现：

Z [l] A [l] = W [l] A [l - 1] + b [l] = g [l] (Z [l])

$\begin{aligned} Z^{[l]} & = W^{[l]} A^{[l-1]} + b^{[l]} \\ A^{[l]} & = g^{[l]}(Z^{[l]}) \end{aligned}$
注意

Z[l] Z [ l ] $Z^{[l]}$ 要缓存起来。

反向函数

输入： $da^{[l]}$
输出： $da^{[l-1]}$ ， $dW^{[l]}$ ， $db^{[l]}$

d z [l] d W [l] d b [l] d a [l - 1] = d a [l] * g' [l] (z [l]) = d z [l] a [l - 1] T = d z [l] = W [l] T d z [l]

$\begin{aligned} dz^{[l]} & = da^{[l]} * g'^{[l]}(z^{[l]}) \\ dW^{[l]} & = dz^{[l]} a^{[l - 1]T} \\ db^{[l]} & = dz^{[l]} \\ da^{[l-1]} & = W^{[l]T} dz^{[l]} \end{aligned}$

矢量化实现：

d Z [l] d W [l] d b [l] d A [l - 1] = d A [l] * g' [l] (Z [l]) = 1 m d Z [l] A [l - 1] T = 1 m np.sum (d Z [l], a x i s = 1, k e e p d i m s = T r u e) = W [l] T d Z [l]

$\begin{aligned} dZ^{[l]} & = dA^{[l]} * g'^{[l]}(Z^{[l]}) \\ dW^{[l]} & = \frac{1}{m}dZ^{[l]} A^{[l - 1]T} \\ db^{[l]} & = \frac{1}{m}\text{np.sum}(dZ^{[l]}, axis=1, keepdims=True) \\ dA^{[l-1]} & = W^{[l]T} dZ^{[l]} \end{aligned}$

总结

不同的层，可能使用不同的激活函数，例如隐藏层使用ReLU函数，输出层使用sigmoid函数。反向传播开始的梯度是通过成本函数的导数来求的。成本函数的导数是

d a [L] = - y a + 1 - y 1 - a

$da^{[L]} = -\frac{y}{a} + \frac{1-y}{1-a}$

参数和超参数

参数： $W^{[1]}$ ， $b^{[1]}$ ， $W^{[2]}$ ， $b^{[2]}$ $\cdots$
超参数：

学习率 $\alpha$
梯度下降的迭代次数
隐藏层的层数
每层的隐藏单元 $n^{[1]}$ ， $n^{[2]}$ $\cdots$
激活函数的选择
还有其他一些，比如minibatch

超参数之所以称为超参数，是因为超参数的值确定了之后，参数的值才确定。超参数的值需要自己决定，比如学习率 $\alpha$ 的最优值可能是0.01，也可能是0.05，寻找最优的超参数是一个参数调优的过程。超参数的最优值不是一成不变的，根据数据的不同，最优值也会不同。

原文链接：https://blog.csdn.net/qq_24548569/article/details/80891250