
深度学习中的正则化
一、L2参数正则化
L2参数范数惩罚通常又被称为权重衰减,这个正则化策略通过向目标函数添加一个正则项
加入L2正则化后的损失函数:
加入L2正则化后的梯度:
加入L2正则化后的权重更新:
其中
从权重更新可以看出,每步执行梯度更新之前,先收缩权重向量。
附:令
将目标函数
注:只有在显著减小目标函数方向上的参数会保留的相对完好,在无助于目标函数梯度减小的方向(对应海森矩阵上较小的特征值)上改变参数不会显著增加梯度。下图可解释:

在
关于图中
注:通常只对权重惩罚而不对偏置做正则惩罚的原因:
- 精确拟合偏置所需的数据通常比拟合权重少很多。
- 每个权重会指定两个变量
如何相互作用,需要在各种条件下观察这两个变量如何才能良好拟合。而每个偏置只控制一个单变量,意味着不对其进行正则化也不会导致太大的方差。
- 正则化偏置参数可能会导致明显的欠拟合。
二、L1参数正则化
L1正则化策略通过向目标函数添加一个正则化项
加入L1正则化的目标函数:
加入L1正则化的梯度:
与L2正则化相比,L1正则化对梯度的影响不再是线性地缩放每个
相比L2正则化,L1正则化会产生更稀疏的解,解释可以把上图中的L2正则化等值换成L1正则化的等值线。
L1正则化导出的稀疏性可广泛用于特征选择,特征选择出有意义的特征,化简机器学习问题。L1回归也称为Lasso回归。
三、数据集增强
让机器学习模型泛化能力更好的一个方法是使用更多的数据进行训练。实际中拥有的数据集是有限的,解决方法可以是创建假数据添加到训练集中。
数据增强对对象识别图像分类问题十分有效。数据增强对语音识别任务也是很有效的,向输入层注入噪声。
四、噪声鲁棒性
注入噪声:
第一种,向输入中增加噪声,即上面提到的数据增强,向输入增加噪声相当于对权重施加范数惩罚。
第二种:向权重中增加噪声,鼓励要学习的函数保持稳定,主要用于循环神经网络。
第三种是向输出目标注入噪声,大多数数据集的y标签都有一定错误,对于一个小的常数
任务共享相同输入但涉及不同目标随机变量。对于不同的监督任务,共享相同的输入x以及一些中间层,该模型可分为两类参数:具体到各个任务的参数,多个任务共享的参数。当模型的一部分被多个额外的任务共享时,这部分将被约束为良好的值。

顶层的
六、提前停止
经常训练过程可以观察到,训练误差会随着时间的推移逐渐降低但验证集上的误差会再次上升。因此,当验证集上的误差在事先指定的训练次数内没有进一步改善时,算法就停止。
- 优点:非常高效的超参数选择算法,无需破坏学习动态就能使用,几乎不需要改变训练的基本过程,目标函数或一组允许的参数值。可以和其他正则化策略结合使用。
- 缺点:必须把数据分出来一部分当做验证集,必须在完成提前终止的首次训练后,进行额外的训练。第一种是使用全部数据,并使用首次训练的轮数。第二种是继承首次的权重,继续训练,但可能不能达到之前目标值,甚至无法终止,因此表现不太好,但是避免了重新训练模型的高成本。
提前结束具有正则化效果的原因:

提前停止, 不会达到损失函数等值线最中心处,就会停止,相当于加了范数惩罚。七、集成方法
Baggging通过几个模型结合来降低泛化误差,也被称为模型平均。原因是不同的模型通常不会在测试集上产生完全相同的误差。
Boosting构建比单个模型容量更高的集成模型。
八、Dropout
可以被认为是集成大量深层神经网络的Bagging方法。一种廉价的Bagging近似集成。在Dropout情况下,所有模型共享参数,其中每个模型继承父神经网络参数的不同子集。在单个步骤中,训练一小部分的子网络,参数共享会使得其余的子网络也能有好的参数设定。隐藏层的采样概率通常为0.5,输入的采样概率通常为0.8。
Dropout过程:在前向传播到指定层时,层中每个单元乘以相应的掩码,是否被去掉这个单元,然后继续向前传播,后续更新参数等,然后更新完一次参数,恢复所有未更新单元,重复这个过程。
只有极少的训练样本时,Dropout可能不会很有效。
九、参数共享
某些任务足够相似(或许具有相同的输入和输出分布),因此可以认为模型的参数应该足够靠近。参数范数惩罚是正则化参数使其彼此接近的一次方式,更流行的一种方法是使用约束:迫使某些参数相等。
参数共享:将各种模型或模型组件解释为共享唯一的一组参数。
和正则化参数相比优势:只有参数的子集需要被存储在内存中,对特定模型,如卷积神经网络,可以显著减少所占用的内存。
参考:深度学习-花书