（LXTML笔记）正则化

regularization的目的是减少overfit的影响，如下图所示，
（LXTML笔记）正则化
$H_{10}$ 的意思是假设用10次多项式去拟合数据，那么显然有 $H_{10} \supset H_{2}$ ，不过由于假设 $H_{10}$ 带来的解可能会有很多，所以我们可以约束一下，如加强假设为 $H_{2}$ ，这样就有可能能防止过拟合。

（LXTML笔记）正则化
继续用多项式的例子来看，如上图所示，实际上

H_{2} \Leftrightarrow H_{10} + c o n s t r a i n t : w_{3} = w_{4} = . . . w_{10} = 0,

不过即使将为题转换为这样的最优化问题，仍然不好解决，下面稍微放宽一点条件，如下图所示，假设我们不要求

w_{3}

到

w_{10}

都是0，而是是仅仅要求只要有8个系数

w

是0就行了，那么就得到下面的问题：
（LXTML笔记）正则化

这个新的假设

H_{2}^{'}

略强于

H_{2}

不过，仍然有

H_{10} \supset H_{2}^{'}

，然而由于constraint是

\sum_{q = 0}^{1} 0 [w_{q} \neq 0] \leq 3

，这个被证实作为最优化问题将会是NP-hard的，所以这个问题仍然是困难的，下面将继续转换问题。

（LXTML笔记）正则化
接下来的转换并不是等价的，考虑一个与 $\sum_{q = 0}^{1} 0 [w_{q} \neq 0] \leq 3$ 类似的条件，即 $\sum_{q = 0}^{10} w_{q}^{2} \leq C$ ，我们称这个条件为 $H (C)$ ，当 $才 \to + \infty$ 时候相当于没有约束，即 $H_{10}$ ，此时问题将会变成一个可以解决的问题。

总结一下现在的最优化问题变为了：（以线性回归为题为例）
（LXTML笔记）正则化
在学习最优化中有约束的非线性规划中我们学到了，可以将约束条件乘一个系数放在min中一起最小化（当然这是大致的，不是说每个都这样），那个时候都没有学得很明白，下面将给出一个直观的解释。

（LXTML笔记）正则化
实际上 $w^{T} w \leq C$ 的限制的几何意义是将解 $w$ 限制在一个“球”上，以二维为例的话就是如图所示的圆，图中蓝色椭圆表示的是解得空间，即 $E_{i n} = c o n s t$ 构成的集合，至于为什么是椭圆，考虑这个LR问题构成的 $E_{i n}$ 与二次型，这里用椭圆为例了。

图中所示的红色向量是 $w$ 处的法向量，由之前最速下降法学习时候的结论，我们知道沿着 $- \nabla E_{i n} (w)$ 方向走的话能找到更优（小）解，从图中可以看出，若向量 $- \nabla E_{i n} (w)$ 和法向量（这里干脆用 $w$ 来看，因为在圆时，法向量和 $w$ 共线）有夹角，那么肯定有绿色的向量分量，使得搜索仍能继续，此时的 $w$ 肯定不是最优解，所以只有在两者没有夹角的时候才有可能是最优解，即
（LXTML笔记）正则化