本文同时发表于我的个人博客http://xinyuwg.com,访问该链接以获得更详细信息与更好的阅读体验
本文为原创内容,未经允许请勿转载。
我们在数学分析中学习过多项式拟合,并使用最小二乘法估计多项式参数。也在统计学中学习过线性回归模型,其参数估计由最小化误差函数给出。然后深究后可以发现二者描述的都是同一件事,本文将详细介绍其中的联系。
多项式拟合
先回顾下多项式拟合.假设训练集X由N个观测点组成,记作X={x1,x2,...,xN};其对应观测值为t.我们的目标是通过训练集建立模型,对新的观测点x^预测其对应的值t^.
最直观的想法便是使用多项式来拟合,其形式如下:y(x,w)=w0+w1x+...+wMxM=n=0∑Mwnxn
其中多项式系数w0,...,wM为多项式系数,记作向量w,是该模型的待估参数.M为多项式的阶数.
最小二乘
对于误差的估计我们可以用最小化误差函数实现.在最小二乘中,误差函数定义为E(w)=21n=1∑N{y(xn,w)−tn}2通过最小化误差函数我们便可以得到w的估计值 w=argminE(x)
岭回归
我们知道,多项式阶数M控制了模型复杂度,越高的阶数能够在训练集上带来更好的拟合效果.但这降低了模型的泛化能力,这种行为叫做过拟合(over-fitting).另外随着M增大,多项式系数w也会迅速增大,这导致了拟合曲线出现剧烈震荡.书上对该现象的直观解释为:
What is happening is that the more flexible polynomials with larger values of M are becoming increasingly tuned to the random noise on the target.
为了解决这个问题,我们引入正则化(regularization).简单来说,我们在误差函数中增加一个惩罚项,这种惩罚项的形式采用系数平方和,修改后的误差函数为:
E(w)=21n=1∑N{y(xn,w)−tn}2+2λ∣∣w∣∣2
概率角度
现在,我们从概率的角度来重新审视这个问题.还记不记得我们在建回归模型时经常假设模型具有以下形式:f(x)=j=1∑dwjxj+ϵ,ϵ∼N(o,σ2)
也就是说给定观测点x,我们假定对应的观测值t服从正态分布,分布的均值为y(x,w).因此有p(t∣x,w,σ2)=N(t∣y(x,w),σ2)我们可以通过下图更直观地理解这一点:

如果数据点都从假定的分布中生成,那么似然函数为p(t∣x,w,σ2)=n=1∏NN(tn∣y(xn,w),σ2)
将正态分布的密度函数带入,其对数似然为lnp(t∣x,w,σ2)=−2σn=1∑N{y(xn,w)−tn}2+2Nlnσ2−2Nln(2π)
于是现在我们便可以通过对上式对w求极值得到w的极大似然估计w=argminn=1∑N{y(xn,w)−tn}2注意上式后两项与w无关.观察下结果,是不是和最小二乘的误差函数一模一样呀.
更进一步,我们引入贝叶斯方法.假如我们希望控制多项式系数w的大小,便假定多项式系数w的先验分布为如下形式p(w∣α)=N(w∣0,α−1I)=(2πα)2M+1exp{−2αwTw}
其中α称为分布的精度(precision).根据贝叶斯定理,w的后验正比于先验和似然函数的成绩
p(w∣x,t,α,σ2)∝p(t∣x,w,σ2)p(w∣α)
我们通过最大化后验概率来确定w.步骤与之前相似,结果如下式w=argmin2σ21n=1∑N{y(xn,w)−tn}2+2αwTw
于是我们看到最大化后验概率等价于最小化正则化平方和误差,即岭回归.