l1和l2正则化
1、作用
损失函数一般为经验风险加上结构风险,其中结构风险最小化即正则化,减少过拟合
正则化可以看做先验,
2、应用
线性回归中,lasso回归:正则项为λw的1范数
rige回归:正则项为λw的2范数
svm:0.5w的2范数,即间隔
决策树:α乘以叶子数
xgboost:
l1正则项,叶子节点的个数
L2正则项,平滑各叶子节点的预测值
机器学习篇——正则化
神经网络:
损失函数中引入正则项
CNN中的卷积和池化也是一种先验
3、l1正则化求梯度
使用sgn(符号函数)
proximal gradient descent近端梯度下降
机器学习篇——正则化
4、l1、l2区别
L1减少一个常量(sgn(w)为1或-1,故为常量),而L2减少的是权重的一个固定的比例;如果权重本身很大的话,L2减少的比L1减少的多,若权重小,则L1减少的更多。多以L1倾向于集中在少部分重要的连接上(w小)。这里要注意的是:sgn(w)在w=0时不可导,故要事先令sgn(w)在w=0时的导数为0。

相关文章:

  • 2022-12-23
  • 2021-04-29
  • 2021-08-22
  • 2021-07-18
猜你喜欢
  • 2021-05-30
  • 2022-01-17
  • 2022-01-02
  • 2021-10-08
  • 2021-09-13
相关资源
相似解决方案