regularization的目的是减少overfit的影响,如下图所示,
的意思是假设用10次多项式去拟合数据,那么显然有,不过由于假设带来的解可能会有很多,所以我们可以约束一下,如加强假设为,这样就有可能能防止过拟合。
继续用多项式的例子来看,如上图所示,实际上
不过即使将为题转换为这样的最优化问题,仍然不好解决,下面稍微放宽一点条件,如下图所示,假设我们不要求到都是0,而是是仅仅要求只要有8个系数是0就行了,那么就得到下面的问题:
这个新的假设略强于不过,仍然有,然而由于constraint是,这个被证实作为最优化问题将会是NP-hard的,所以这个问题仍然是困难的,下面将继续转换问题。
接下来的转换并不是等价的,考虑一个与类似的条件,即,我们称这个条件为,当时候相当于没有约束,即,此时问题将会变成一个可以解决的问题。
总结一下现在的最优化问题变为了:(以线性回归为题为例)
在学习最优化中有约束的非线性规划中我们学到了,可以将约束条件乘一个系数放在min中一起最小化(当然这是大致的,不是说每个都这样),那个时候都没有学得很明白,下面将给出一个直观的解释。
实际上的限制的几何意义是将解限制在一个“球”上,以二维为例的话就是如图所示的圆,图中蓝色椭圆表示的是解得空间,即构成的集合,至于为什么是椭圆,考虑这个LR问题构成的与二次型,这里用椭圆为例了。
图中所示的红色向量是处的法向量,由之前最速下降法学习时候的结论,我们知道沿着方向走的话能找到更优(小)解,从图中可以看出,若向量和法向量(这里干脆用来看,因为在圆时,法向量和共线)有夹角,那么肯定有绿色的向量分量,使得搜索仍能继续,此时的肯定不是最优解,所以只有在两者没有夹角的时候才有可能是最优解,即
这里最后的一步和约束条件下的非线性规划问题的结论是一致的,以线性回归为例,我们可以很轻松得解出(在给定的情况下),即:
考虑一般问题,如果我们对
中的进行积分的话,问题就转换为最小化:
非线性函数的最小化问题还是有很多方法的,此时成功将最开始的问题转换为一个能够解决的问题了。
回溯一下,问题中的和有什么关系呢?
由于我们要最小化,所以越大的(惩罚力度大)会使得很小,此时等价于有很小的半径。
下面是常见的两种正则化形式:
1.正则化:使得解稀疏
2.正则化:使得解逼近0
比较如上图所示,现在来解释一下正则化,我们知道从二维上看正则化的图像是一个正方形,和类似得分析,一般情况下不会和红色向量(法向量)共线,即一般都有夹角,所以一般会被拉到正方形的角上,此时得到的的分量有很多的0,即得到稀疏解。