矩阵范数参考:矩阵范数矩阵范数推导

向量范数的定义:

具有“长度”概念的函数,是向量空间到实数的映射:RnRR^n\to R ,并满足一下三个性质:
1)正定性:x0,x=0iffx=0||x||\ge 0,\quad ||x||=0 \quad iff\quad x=0 ;
2)齐次性:cx=cx||cx||=|c|| |x||;
3)三角不等式:x+yx+y||x+y||\le ||x||+||y||

lpl_p范数:

xp=(i=1Nxip)1/p,p[1,inf)||x||_p = (\sum_{i=1}^N |x_i|^p)^{1/p}, \quad p\in[1,inf)
在p范数下定义的单位球(unit ball)都是凸集(convex set,简单地说,若集合A中任意两点的连线段上的点也在集合A中,则A是凸集),但是当0<p<1时,在该定义下的unit ball并不是凸集(注意:我们没说在该范数定义下,因为如前所述,0<p<1时,并不是范数).下图展示了p取不同值时unit ball的形状:
向量范数
当0<p<1时,上面类似p范数的定义不能对任意两点满足三角不等式. 另外,常见的L0范数,即向量中非零元素的个数,也不满足三角不等式。

常见Lp范数:

1)l0l_0 范数:向量中非零元素的的个数;
2)l1l_1 范数:向量元素绝对值之和,也就是曼哈顿距离;
3)l2l_2 范数:向量各元素平方和开根号,欧几里得距离;
4)ll_\infty范数:所有向量元素中绝对值中的最大值;
5)ll_{-\infty}范数:所有向量元素中绝对值中的最小值;

关于l1l_1l2l_2正则化:

向量范数
从带约束条件的优化求解(拉格朗日乘子法)角度:

以二维情况讨论,上图左边是 L2 正则化,右边是 L1 正则化。从另一个方面来看,满足正则化条件,实际上是求解蓝色区域与黄色区域的交点,即同时满足限定条件和目标函数最小化。对于 L2 来说,限定区域是圆,这样,得到的解 w1 或 w2 为 0 的概率很小,很大概率是非零的。

对于 L1 来说,限定区域是正方形,方形与蓝色区域相交的交点是顶点的概率很大,这从视觉和常识上来看是很容易理解的。也就是说,方形的凸点会更接近最优解对应的位置,而凸点处必有 w1 或 w2 为 0。这样,得到的解 w1 或 w2 为零的概率就很大了。所以,L1 正则化的解具有稀疏性。

扩展到高维,同样的道理,L2 的限定区域是平滑的,与中心点等距;而 L1 的限定区域是包含凸点的,尖锐的。这些凸点更接近的最优解位置,而在这些凸点上,很多 wj 为 0。

从最大后验概率角度解释:

L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。
L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。
参考资料:
【1】https://blog.csdn.net/red_stone1/article/details/80755144 正则化
【2】https://www.cnblogs.com/fstang/p/4197120.html 向量范数
【3】https://www.cnblogs.com/wjgaas/p/4523779.html 先验概率、似然函数与后验概率
【4】https://blog.csdn.net/m0_38045485/article/details/82147817 高斯先验和拉普拉斯先验

相关文章:

  • 2021-12-24
  • 2021-05-08
  • 2021-12-22
  • 2022-01-16
  • 2021-12-04
  • 2021-12-04
猜你喜欢
  • 2022-12-23
  • 2021-09-21
  • 2021-12-12
  • 2021-12-04
相关资源
相似解决方案