背景
解决过拟合问题
原理
引入正则化实现对参数的约束,有效选择特征
问题:
1,数学上如何解释正则化过程?
答:可以从两个角度来理解正则化,一种是贝叶斯角度,另一种是最优化角度[5]。
可以看出加入权重衰减后会引起学习规则的修改[4],在每步梯度更新之前都会先收缩权重向量——将权重向量前边乘上一个小于1的权重因子(1−ϵα),也就是说,正则化惩罚系数α升高会将权重w拉向0。可以从两个角度进一步理解一下这个操作:
a.在神经网络中,当一些权重趋近于0时,则可以理解为去掉了一些逻辑单元,简化后的网络虽然小但深度很大。从而将高方差的模型往高偏差的方向拉,直到获取一个恰到好处的模型。
b.假设神经网络每层的激活函数为g(z)=tanh(z)
,z=w[l]ε[l−1]+b,正则化惩罚系数α升高→w减小→z减小,从而使得g(z)从①③的非线性状态区域进入②接近于线性状态的区域,导致每层几乎是线性的(线性函数叠加仍然为线性),起到抑制过拟合的效果。
2,L1如何做到稀疏化;
答:参考视频[3],但是L1是怎么做到有选择性的将部分参数约束到零,这一点还不能很好的结束清楚,花书中的公式推导有一定的难度,还不能够完全理解。
参考文章
[1]在线测试:Tinker With a Neural Network Right Here in Your Browser.
Don’t Worry, You Can’t Break It. We Promise.
[2]参考视频:【吴恩达机器学习】08 正则化
[3]参考视频:【机器学习 面试题】为什么正则化可以防止过拟合?为什么L1正则化具有稀疏性?
[4]参考文章:从范数到正则化
[4]参考文章:正则化背后的数学原理
版权声明:本文为boy854456187原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。