正则项动机

优化目标:minJ=J0+L=J(w)+αw\min J = J_0 + L = J(w) + \alpha |w|
其中,J0J_0是指本身的最小化目标,它是关于ww函数;LL控制参数,避免过拟合。

物理含义

如图1所示,蓝色圆表示J0J_0等值线(等高线),每往外多一个圈,其值就增加δ\delta;黑色棱型表示LL等值线,每往外多一层,其值就增加α\alpha. 二维平面上的每一点,对应的JJ值就是蓝色等值线与黑色等值线之和。

例1 极端例子

L1正则项极简例子

图1. J0J_0的最小值在45度上

如图1所示,所有蓝色圈的圆心都在45度方向。观察图中最外层蓝圈,在45度方向(w1=w2w_1 = w_2)上的切点,J=5δ+αJ = 5 \delta + \alpha,而与w1w1轴交点上,J=5δ+2αJ = 5 \delta + 2 \alpha. 从时可观察到,JJ最小值应在45度方向上取得。

例2 一般情况

L1正则项极简例子

图2. 一般情况

如图2所示,蓝色圈的圆心没那么规律,而是偏向了w2w2轴。在第2层圆圈上,JJ最小的值为2δ+5α2 \delta + 5 \alpha,对应的点在60度方向; 在第6层圆圈上,JJ的最小值为6δ+α6 \delta + \alpha, 对应的点在w2w2轴上。

这两个图也说明了两个系数的重要性。图1中w1w_1w2w_2同等重要,图2中w2w_2更加重要,甚至在某些情况下可以把w1w1设置为0,即删除相应的属性。

进一步分析

  1. α\alpha越大,使得JJ最小的坐标点(w1,w2)(w_1, w_2)越靠近坐标原点;α\alpha越小,使得JJ最小的坐标点越靠近最小的圆圈中心。
  2. JJ的最小值应在从坐标原点到最小的圆圈中心的一条路径上。图3描述了J0J_0LL的折中。
  3. 如果是 L2L_2正则化,则棱形换成圆圈,更容易在非坐标轴方向获得最小值。

L1正则项极简例子

图3. JJJ0J_0LL的折中, 横坐标对应于在该路径上从坐标原点到相应点的路程

参考文献
[1] https://blog.csdn.net/jinping_shi/article/details/52433975

相关文章:

  • 2021-08-28
  • 2021-11-15
  • 2021-07-21
  • 2021-12-19
  • 2021-07-28
  • 2021-05-01
猜你喜欢
  • 2021-10-13
  • 2021-12-18
  • 2022-12-23
  • 2022-01-18
  • 2021-12-29
  • 2021-07-20
  • 2021-04-27
相关资源
相似解决方案