机器学习篇——正则化

l1和l2正则化
1、作用
损失函数一般为经验风险加上结构风险，其中结构风险最小化即正则化，减少过拟合
正则化可以看做先验，
2、应用
线性回归中，lasso回归：正则项为λw的1范数
rige回归：正则项为λw的2范数
svm：0.5w的2范数，即间隔
决策树：α乘以叶子数
xgboost：
l1正则项，叶子节点的个数
L2正则项，平滑各叶子节点的预测值
机器学习篇——正则化
神经网络：
损失函数中引入正则项
CNN中的卷积和池化也是一种先验
3、l1正则化求梯度
使用sgn（符号函数）
proximal gradient descent近端梯度下降

4、l1、l2区别
L1减少一个常量（sgn（w）为1或-1，故为常量），而L2减少的是权重的一个固定的比例；如果权重本身很大的话，L2减少的比L1减少的多，若权重小，则L1减少的更多。多以L1倾向于集中在少部分重要的连接上（w小）。这里要注意的是：sgn（w）在w=0时不可导，故要事先令sgn（w）在w=0时的导数为0。