向量范数的定义:
具有“长度”概念的函数,是向量空间到实数的映射: ,并满足一下三个性质:
1)正定性: ;
2)齐次性:;
3)三角不等式:
范数:
在p范数下定义的单位球(unit ball)都是凸集(convex set,简单地说,若集合A中任意两点的连线段上的点也在集合A中,则A是凸集),但是当0<p<1时,在该定义下的unit ball并不是凸集(注意:我们没说在该范数定义下,因为如前所述,0<p<1时,并不是范数).下图展示了p取不同值时unit ball的形状:
当0<p<1时,上面类似p范数的定义不能对任意两点满足三角不等式. 另外,常见的L0范数,即向量中非零元素的个数,也不满足三角不等式。
常见Lp范数:
1) 范数:向量中非零元素的的个数;
2) 范数:向量元素绝对值之和,也就是曼哈顿距离;
3) 范数:向量各元素平方和开根号,欧几里得距离;
4)范数:所有向量元素中绝对值中的最大值;
5)范数:所有向量元素中绝对值中的最小值;
关于和正则化:
从带约束条件的优化求解(拉格朗日乘子法)角度:
以二维情况讨论,上图左边是 L2 正则化,右边是 L1 正则化。从另一个方面来看,满足正则化条件,实际上是求解蓝色区域与黄色区域的交点,即同时满足限定条件和目标函数最小化。对于 L2 来说,限定区域是圆,这样,得到的解 w1 或 w2 为 0 的概率很小,很大概率是非零的。
对于 L1 来说,限定区域是正方形,方形与蓝色区域相交的交点是顶点的概率很大,这从视觉和常识上来看是很容易理解的。也就是说,方形的凸点会更接近最优解对应的位置,而凸点处必有 w1 或 w2 为 0。这样,得到的解 w1 或 w2 为零的概率就很大了。所以,L1 正则化的解具有稀疏性。
扩展到高维,同样的道理,L2 的限定区域是平滑的,与中心点等距;而 L1 的限定区域是包含凸点的,尖锐的。这些凸点更接近的最优解位置,而在这些凸点上,很多 wj 为 0。
从最大后验概率角度解释:
L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。
L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。
参考资料:
【1】https://blog.csdn.net/red_stone1/article/details/80755144 正则化
【2】https://www.cnblogs.com/fstang/p/4197120.html 向量范数
【3】https://www.cnblogs.com/wjgaas/p/4523779.html 先验概率、似然函数与后验概率
【4】https://blog.csdn.net/m0_38045485/article/details/82147817 高斯先验和拉普拉斯先验