1、L1 loss 在零点不平滑,用的较少
2、Smooth L1 Loss 修改零点不平滑问题
3、L2 loss:对离群点比较敏感,如果feature 是 unbounded的话,需要好好调整学习率,防止出现梯度爆炸的情况[fast rcnn]
4、一般来说,L1正则会制造稀疏的特征,大部分无用特征的权重会被置为0。 L2正则会让特征的权重不过大,使得特征的权重比较平均。
5、The L1-smooth norm is more robust to outliers than the classic L2 norm