Dropout详解

算法背景

过拟合的原因：
在使用深度学习算法进行预测时，为了训练出powerful的神经网络，通常需要设计带有大量参数的神经网络。

常用解决过拟合现象的方法：

dropout算法就是在训练过程中，随机移除部分隐藏层的神经元，同时移除掉对应的所有输入与输出。但只是暂时移除，在下一次训练时，又在所有的神经元中随机移除固定比例的神经元。

若隐藏层含有N个神经元，总共有2^N种可能的组合，但由于所有的神经网络共享参数，因此参数数量与原来相同，甚至更少。

优点：

dropout结构：
在这里插入图片描述

在训练时，只对未移除的部分采用随机梯度下降进行前向与反向传播，更行未移除部分的参数，而移除部分的参数保持不变。

原始前向传播：
在这里插入图片描述
添加dropout之后的前向传播：

对比图：

p值的选取：

r服从伯努利分布: x~B(1,p)

隐藏层会以概率p移除部分神经元，p在整个训练过程中都是固定的， 一般通过验证集确定p值的大小。

通常，p取值为0.5，最优的取值通常在0~0.5。

在这里插入图片描述
在训练与测试阶段，使用的神经网络不同：

神经网络在训练过程中使用stochastic gradient descent（SGD），使用mini-batch进行训练，前馈与反馈过程均不使用丢弃的参数，所有丢弃的参数的梯度都为0，最后每一个参数的梯度都是每一次mini-batch训练的值取平均值。

提升dropout神经网络的方法：

max-norm regularization
将每个隐藏单元的输入权向量的范数约束为由固定常数c限定的上界。
如果w表示任意隐藏单元上的权值向量，则神经网络在约束条件 ||w||₂ ≤ c 下得到最优。
c是一个可调超参数，有验证集确定其值大小。

在MNIST数据集上：
在这里插入图片描述
参考文献：《Dropout: A Simple way to prevent neural networks from overfitting》