拟合与回归，最小二乘与极大似然

本文同时发表于我的个人博客http://xinyuwg.com，访问该链接以获得更详细信息与更好的阅读体验
本文为原创内容，未经允许请勿转载。

我们在数学分析中学习过多项式拟合，并使用最小二乘法估计多项式参数。也在统计学中学习过线性回归模型，其参数估计由最小化误差函数给出。然后深究后可以发现二者描述的都是同一件事，本文将详细介绍其中的联系。

多项式拟合

先回顾下多项式拟合.假设训练集 $X$ 由 $N$ 个观测点组成,记作 $X=\{x_1,x_2,...,x_N\}$ ;其对应观测值为 $t$ .我们的目标是通过训练集建立模型,对新的观测点 $\hat{x}$ 预测其对应的值 $\hat{t}$ .

最直观的想法便是使用多项式来拟合,其形式如下: $y(x,w)=w_0+w_1x+...+w_Mx^M=\sum_{n=0}^{M}{w_nx^n}$
其中多项式系数 $w_0,...,w_M$ 为多项式系数,记作向量 $w$ ,是该模型的待估参数. $M$ 为多项式的阶数.

最小二乘

对于误差的估计我们可以用最小化误差函数实现.在最小二乘中,误差函数定义为 $E(w)=\frac{1}{2} \sum_{n=1}^N\{y(x_n,w)-t_n\}^2$ 通过最小化误差函数我们便可以得到 $w$ 的估计值 $w=\arg\min E(x)$

岭回归

我们知道,多项式阶数 $M$ 控制了模型复杂度,越高的阶数能够在训练集上带来更好的拟合效果.但这降低了模型的泛化能力,这种行为叫做过拟合(over-fitting).另外随着 $M$ 增大,多项式系数 $w$ 也会迅速增大,这导致了拟合曲线出现剧烈震荡.书上对该现象的直观解释为:

What is happening is that the more flexible polynomials with larger values of $M$ are becoming increasingly tuned to the random noise on the target.

为了解决这个问题,我们引入正则化(regularization).简单来说,我们在误差函数中增加一个惩罚项,这种惩罚项的形式采用系数平方和,修改后的误差函数为:
$E(w)=\frac{1}{2} \sum_{n=1}^N\{y(x_n,w)-t_n\}^2+\frac{\lambda}{2}||w||^2$

概率角度

现在,我们从概率的角度来重新审视这个问题.还记不记得我们在建回归模型时经常假设模型具有以下形式: $f(x)=\sum_{j=1}^dw_jx_j+\epsilon,\epsilon\sim N(o,\sigma^2)$
也就是说给定观测点 $x$ ,我们假定对应的观测值 $t$ 服从正态分布,分布的均值为 $y(x,w)$ .因此有 $p(t|x,w,\sigma^2)=N(t|y(x,w),\sigma^2)$ 我们可以通过下图更直观地理解这一点:
拟合与回归，最小二乘与极大似然
如果数据点都从假定的分布中生成,那么似然函数为 $p(t|x,w,\sigma^2)=\prod_{n=1}^NN(t_n|y(x_n,w),\sigma^2)$
将正态分布的密度函数带入,其对数似然为 $\ln p(t|x,w,\sigma^2)=-\frac{\sigma}{2}\sum_{n=1}^N\{y(x_n,w)-t_n\}^2 +\frac{N}{2}\ln\sigma^2-\frac{N}{2}\ln(2\pi)$
于是现在我们便可以通过对上式对w求极值得到w的极大似然估计 $w=\arg\min \sum_{n=1}^N\{y(x_n,w)-t_n\}^2$ 注意上式后两项与w无关.观察下结果,是不是和最小二乘的误差函数一模一样呀.

更进一步,我们引入贝叶斯方法.假如我们希望控制多项式系数 $w$ 的大小,便假定多项式系数 $w$ 的先验分布为如下形式 $p(w|\alpha)=N(w|0,\alpha^{-1}I)=(\frac{\alpha}{2\pi})^{\frac{M+1}{2}}exp\{-\frac{\alpha}{2}w^Tw\}$
其中 $\alpha$ 称为分布的精度(precision).根据贝叶斯定理, $w$ 的后验正比于先验和似然函数的成绩
$p(w|x,t,\alpha,\sigma^2)\propto p(t|x,w,\sigma^2)p(w|\alpha)$

我们通过最大化后验概率来确定 $w$ .步骤与之前相似,结果如下式 $w=\arg\min\frac{1}{2 \sigma^2}\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{\alpha}{2}w^Tw$
于是我们看到最大化后验概率等价于最小化正则化平方和误差,即岭回归.