背景

解决过拟合问题

原理

引入正则化实现对参数的约束，有效选择特征

问题：
1，数学上如何解释正则化过程？
答：可以从两个角度来理解正则化，一种是贝叶斯角度，另一种是最优化角度[5]。
可以看出加入权重衰减后会引起学习规则的修改[4]，在每步梯度更新之前都会先收缩权重向量——将权重向量前边乘上一个小于1的权重因子(1−ϵα)，也就是说，正则化惩罚系数α升高会将权重w拉向0。可以从两个角度进一步理解一下这个操作：
a.在神经网络中，当一些权重趋近于0时，则可以理解为去掉了一些逻辑单元，简化后的网络虽然小但深度很大。从而将高方差的模型往高偏差的方向拉，直到获取一个恰到好处的模型。
b.假设神经网络每层的激活函数为g(z)=tanh(z)
，z=w[l]ε[l−1]+b，正则化惩罚系数α升高→w减小→z减小，从而使得g(z)从①③的非线性状态区域进入②接近于线性状态的区域，导致每层几乎是线性的（线性函数叠加仍然为线性），起到抑制过拟合的效果。
2，L1如何做到稀疏化；
答：参考视频[3]，但是L1是怎么做到有选择性的将部分参数约束到零，这一点还不能很好的结束清楚，花书中的公式推导有一定的难度，还不能够完全理解。

参考文章

[1]在线测试：Tinker With a Neural Network Right Here in Your Browser.
Don’t Worry, You Can’t Break It. We Promise.
[2]参考视频：【吴恩达机器学习】08 正则化
[3]参考视频：【机器学习面试题】为什么正则化可以防止过拟合？为什么L1正则化具有稀疏性？
[4]参考文章：从范数到正则化
[4]参考文章：正则化背后的数学原理

原文链接：https://blog.csdn.net/boy854456187/article/details/115659580