regularization的目的是减少overfit的影响,如下图所示,
(LXTML笔记)正则化
H10的意思是假设用10次多项式去拟合数据,那么显然有H10H2,不过由于假设H10带来的解可能会有很多,所以我们可以约束一下,如加强假设为H2,这样就有可能能防止过拟合。

(LXTML笔记)正则化
继续用多项式的例子来看,如上图所示,实际上

H2H10+constraint:w3=w4=...w10=0,

不过即使将为题转换为这样的最优化问题,仍然不好解决,下面稍微放宽一点条件,如下图所示,假设我们不要求w3w10都是0,而是是仅仅要求只要有8个系数w是0就行了,那么就得到下面的问题:
(LXTML笔记)正则化
这个新的假设H2略强于H2不过,仍然有H10H2,然而由于constraint是q=010[wq0]3,这个被证实作为最优化问题将会是NP-hard的,所以这个问题仍然是困难的,下面将继续转换问题。

(LXTML笔记)正则化
接下来的转换并不是等价的,考虑一个与q=010[wq0]3类似的条件,即q=010wq2C,我们称这个条件为H(C),当+时候相当于没有约束,即H10,此时问题将会变成一个可以解决的问题。

总结一下现在的最优化问题变为了:(以线性回归为题为例)
(LXTML笔记)正则化
在学习最优化中有约束的非线性规划中我们学到了,可以将约束条件乘一个系数放在min中一起最小化(当然这是大致的,不是说每个都这样),那个时候都没有学得很明白,下面将给出一个直观的解释。

(LXTML笔记)正则化
实际上wTwC的限制的几何意义是将解w限制在一个“球”上,以二维为例的话就是如图所示的圆,图中蓝色椭圆表示的是解得空间,即Ein=const构成的集合,至于为什么是椭圆,考虑这个LR问题构成的Ein与二次型,这里用椭圆为例了。

图中所示的红色向量是w处的法向量,由之前最速下降法学习时候的结论,我们知道沿着Ein(w)方向走的话能找到更优(小)解,从图中可以看出,若向量Ein(w)和法向量(这里干脆用w来看,因为在圆时,法向量和w共线)有夹角,那么肯定有绿色的向量分量,使得搜索仍能继续,此时的w肯定不是最优解,所以只有在两者没有夹角的时候才有可能是最优解,即
(LXTML笔记)正则化

这里最后的一步和约束条件下的非线性规划问题的结论是一致的,以线性回归为例,我们可以很轻松得解出w(在λ给定的情况下),即:
(LXTML笔记)正则化

考虑一般问题,如果我们对

Ein(w)+2λNw=0,

中的w进行积分的话,问题就转换为最小化:
Ein(w)+λNwTw,

非线性函数的最小化问题还是有很多方法的,此时成功将最开始的问题转换为一个能够解决的问题了。

回溯一下,问题中的Cλ有什么关系呢?

(LXTML笔记)正则化
由于我们要最小化Ein(w)+λNwTw,所以越大的λ(惩罚力度大)会使得w很小,此时等价于有很小的半径C

下面是常见的两种正则化形式:

1.L1正则化:使得解稀疏
2.L2正则化:使得解逼近0

(LXTML笔记)正则化

比较如上图所示,现在来解释一下L1正则化,我们知道从二维上看L1正则化的图像是一个正方形,和L2类似得分析,一般情况下w不会和红色向量(法向量)共线,即一般都有夹角,所以w一般会被拉到正方形的角上,此时得到的w的分量有很多的0,即得到稀疏解。

相关文章:

  • 2021-08-08
  • 2021-10-04
  • 2022-01-21
  • 2021-10-26
  • 2021-10-10
  • 2021-05-13
猜你喜欢
  • 2021-07-31
  • 2021-09-19
  • 2021-12-18
  • 2021-05-26
  • 2021-12-11
  • 2021-09-17
  • 2021-09-08
相关资源
相似解决方案