正则化_深度学习中的正则化

深度学习中的正则化

一、L2参数正则化
L2参数范数惩罚通常又被称为权重衰减，这个正则化策略通过向目标函数添加一个正则项

，L2正则化也被称为岭回归或Tikhonov正则。

加入L2正则化后的损失函数：

加入L2正则化后的梯度：

加入L2正则化后的权重更新：

其中

是权衡正则化项和标准损失函数相对贡献的超参数，

是学习率(learning rate)。

从权重更新可以看出，每步执行梯度更新之前，先收缩权重向量。
附：令

为未正则化的目标函数取得最小训练误差时的权重向量，此时近似得：

。

将目标函数

在

处计算的Hessian矩阵进行分解：

，可以得到权重的衰减效果是由

的特征向量所定义的轴缩放

，得到一个缩放比例

，根据这个比例因子缩放与

第

个特征向量对齐的

分量。沿着

特征值较大的方向

，正则化影响小，而

的分量将会收缩到0。

注：只有在显著减小目标函数方向上的参数会保留的相对完好，在无助于目标函数梯度减小的方向(对应海森矩阵上较小的特征值)上改变参数不会显著增加梯度。下图可解释：

在

处是L2正则化项和原始损失函数等值线的竞争平衡点，从图中可以看到，正则化项将

拉向0，对

的变化不是很明显。对应损失函数中，沿

方向(横轴方向)较平缓，朝这个方向移动

时，目标函数增加不是很多，目标函数对其不敏感，所以正则化该项对该轴有强烈的影响。而目标函数对沿着y轴的第二维移动非常敏感，对应特征值大，表示高曲率，因此权重衰减对

位置影响较小。

关于图中

的解释：因为实线椭圆和虚线园分别代表的未正则化损失函数和正则化项的等值线，所以两圆相切时，此时这点代表这两个损失函数项具有相同的

和

，此时两者之和构成了一个完整的损失函数，当两者不相切时，可能会是相交(2个交点)，此时两者和也相等，但此时的两者之和即总损失函数不如相切的时候小，因为相切圆肯定比相交圆半径更小，此时不满足损失函数最小化。因为两类等值圆有无数个，所以切点也会存在无数个，但是切点的位置代表了两者在损失函数中的权重(即谁更大一点)。

注：通常只对权重惩罚而不对偏置做正则惩罚的原因：

1. 精确拟合偏置所需的数据通常比拟合权重少很多。
2. 每个权重会指定两个变量
  如何相互作用，需要在各种条件下观察这两个变量如何才能良好拟合。而每个偏置只控制一个单变量，意味着不对其进行正则化也不会导致太大的方差。
3. 正则化偏置参数可能会导致明显的欠拟合。

二、L1参数正则化
L1正则化策略通过向目标函数添加一个正则化项

，即各个参数的绝对值之和。L1正则化和L2正则化相似，也可以通过缩放惩罚项的超参数

来控制L1权重衰减的程度。

加入L1正则化的目标函数：

加入L1正则化的梯度：

与L2正则化相比，L1正则化对梯度的影响不再是线性地缩放每个

，而是添加了一项与

同号的常数。

相比L2正则化，L1正则化会产生更稀疏的解，解释可以把上图中的L2正则化等值换成L1正则化的等值线。
L1正则化导出的稀疏性可广泛用于特征选择，特征选择出有意义的特征，化简机器学习问题。L1回归也称为Lasso回归。

三、数据集增强
让机器学习模型泛化能力更好的一个方法是使用更多的数据进行训练。实际中拥有的数据集是有限的，解决方法可以是创建假数据添加到训练集中。
数据增强对对象识别图像分类问题十分有效。数据增强对语音识别任务也是很有效的，向输入层注入噪声。

四、噪声鲁棒性
注入噪声：

第一种，向输入中增加噪声，即上面提到的数据增强，向输入增加噪声相当于对权重施加范数惩罚。

第二种：向权重中增加噪声，鼓励要学习的函数保持稳定，主要用于循环神经网络。

第三种是向输出目标注入噪声，大多数数据集的y标签都有一定错误，对于一个小的常数

，训练集标记y正确的概率就是

，例如标签平滑就能把确切分类目标从0和1替换成

和

，正则化具有k个输出的softmax模型。标签平滑的优势是防止模型追求而确切的概率而不影响模型学习的正确分类。

五、多任务学习
任务共享相同输入但涉及不同目标随机变量。对于不同的监督任务，共享相同的输入x以及一些中间层，该模型可分为两类参数：具体到各个任务的参数，多个任务共享的参数。当模型的一部分被多个额外的任务共享时，这部分将被约束为良好的值。

顶层的

和

分别是用于任务1,2的参数，中间层

在所有任务间共享，

代表这些因素在输入x和

，

不相关。因为共享参数，其统计强度可以大大提高，并能改善泛化和泛化误差的范围。能解释数据变化的因素中，某些因素是跨两个或更多任务共享的。

六、提前停止
经常训练过程可以观察到，训练误差会随着时间的推移逐渐降低但验证集上的误差会再次上升。因此，当验证集上的误差在事先指定的训练次数内没有进一步改善时，算法就停止。

优点：非常高效的超参数选择算法，无需破坏学习动态就能使用，几乎不需要改变训练的基本过程，目标函数或一组允许的参数值。可以和其他正则化策略结合使用。
缺点：必须把数据分出来一部分当做验证集，必须在完成提前终止的首次训练后，进行额外的训练。第一种是使用全部数据，并使用首次训练的轮数。第二种是继承首次的权重，继续训练，但可能不能达到之前目标值，甚至无法终止，因此表现不太好，但是避免了重新训练模型的高成本。

提前结束具有正则化效果的原因：

提前停止，不会达到损失函数等值线最中心处，就会停止，相当于加了范数惩罚。七、集成方法
Baggging通过几个模型结合来降低泛化误差，也被称为模型平均。原因是不同的模型通常不会在测试集上产生完全相同的误差。
Boosting构建比单个模型容量更高的集成模型。

八、Dropout
可以被认为是集成大量深层神经网络的Bagging方法。一种廉价的Bagging近似集成。在Dropout情况下，所有模型共享参数，其中每个模型继承父神经网络参数的不同子集。在单个步骤中，训练一小部分的子网络，参数共享会使得其余的子网络也能有好的参数设定。隐藏层的采样概率通常为0.5，输入的采样概率通常为0.8。
Dropout过程：在前向传播到指定层时，层中每个单元乘以相应的掩码，是否被去掉这个单元，然后继续向前传播，后续更新参数等，然后更新完一次参数，恢复所有未更新单元，重复这个过程。
只有极少的训练样本时，Dropout可能不会很有效。

九、参数共享
某些任务足够相似(或许具有相同的输入和输出分布)，因此可以认为模型的参数应该足够靠近。参数范数惩罚是正则化参数使其彼此接近的一次方式，更流行的一种方法是使用约束：迫使某些参数相等。
参数共享：将各种模型或模型组件解释为共享唯一的一组参数。
和正则化参数相比优势：只有参数的子集需要被存储在内存中，对特定模型，如卷积神经网络，可以显著减少所占用的内存。

参考：深度学习-花书

原文链接：https://blog.csdn.net/weixin_39875503/article/details/111683438