本文同时发表于我的个人博客http://xinyuwg.com,访问该链接以获得更详细信息与更好的阅读体验
本文为原创内容,未经允许请勿转载。

我们在数学分析中学习过多项式拟合,并使用最小二乘法估计多项式参数。也在统计学中学习过线性回归模型,其参数估计由最小化误差函数给出。然后深究后可以发现二者描述的都是同一件事,本文将详细介绍其中的联系。

多项式拟合

先回顾下多项式拟合.假设训练集XXNN个观测点组成,记作X={x1,x2,...,xN}X=\{x_1,x_2,...,x_N\};其对应观测值为tt.我们的目标是通过训练集建立模型,对新的观测点x^\hat{x}预测其对应的值t^\hat{t}.

最直观的想法便是使用多项式来拟合,其形式如下:y(x,w)=w0+w1x+...+wMxM=n=0Mwnxny(x,w)=w_0+w_1x+...+w_Mx^M=\sum_{n=0}^{M}{w_nx^n}
其中多项式系数w0,...,wMw_0,...,w_M为多项式系数,记作向量ww,是该模型的待估参数.MM为多项式的阶数.

最小二乘

对于误差的估计我们可以用最小化误差函数实现.在最小二乘中,误差函数定义为E(w)=12n=1N{y(xn,w)tn}2E(w)=\frac{1}{2} \sum_{n=1}^N\{y(x_n,w)-t_n\}^2通过最小化误差函数我们便可以得到ww的估计值 w=argminE(x)w=\arg\min E(x)

岭回归

我们知道,多项式阶数MM控制了模型复杂度,越高的阶数能够在训练集上带来更好的拟合效果.但这降低了模型的泛化能力,这种行为叫做过拟合(over-fitting).另外随着MM增大,多项式系数ww也会迅速增大,这导致了拟合曲线出现剧烈震荡.书上对该现象的直观解释为:

What is happening is that the more flexible polynomials with larger values of MM are becoming increasingly tuned to the random noise on the target.

为了解决这个问题,我们引入正则化(regularization).简单来说,我们在误差函数中增加一个惩罚项,这种惩罚项的形式采用系数平方和,修改后的误差函数为:
E(w)=12n=1N{y(xn,w)tn}2+λ2w2E(w)=\frac{1}{2} \sum_{n=1}^N\{y(x_n,w)-t_n\}^2+\frac{\lambda}{2}||w||^2

概率角度

现在,我们从概率的角度来重新审视这个问题.还记不记得我们在建回归模型时经常假设模型具有以下形式:f(x)=j=1dwjxj+ϵ,ϵN(o,σ2)f(x)=\sum_{j=1}^dw_jx_j+\epsilon,\epsilon\sim N(o,\sigma^2)
也就是说给定观测点xx,我们假定对应的观测值tt服从正态分布,分布的均值为y(x,w)y(x,w).因此有p(tx,w,σ2)=N(ty(x,w),σ2)p(t|x,w,\sigma^2)=N(t|y(x,w),\sigma^2)我们可以通过下图更直观地理解这一点:
拟合与回归,最小二乘与极大似然
如果数据点都从假定的分布中生成,那么似然函数为p(tx,w,σ2)=n=1NN(tny(xn,w),σ2)p(t|x,w,\sigma^2)=\prod_{n=1}^NN(t_n|y(x_n,w),\sigma^2)
将正态分布的密度函数带入,其对数似然为lnp(tx,w,σ2)=σ2n=1N{y(xn,w)tn}2+N2lnσ2N2ln(2π)\ln p(t|x,w,\sigma^2)=-\frac{\sigma}{2}\sum_{n=1}^N\{y(x_n,w)-t_n\}^2 +\frac{N}{2}\ln\sigma^2-\frac{N}{2}\ln(2\pi)
于是现在我们便可以通过对上式对w求极值得到w的极大似然估计w=argminn=1N{y(xn,w)tn}2w=\arg\min \sum_{n=1}^N\{y(x_n,w)-t_n\}^2 注意上式后两项与w无关.观察下结果,是不是和最小二乘的误差函数一模一样呀.

更进一步,我们引入贝叶斯方法.假如我们希望控制多项式系数ww的大小,便假定多项式系数ww的先验分布为如下形式p(wα)=N(w0,α1I)=(α2π)M+12exp{α2wTw}p(w|\alpha)=N(w|0,\alpha^{-1}I)=(\frac{\alpha}{2\pi})^{\frac{M+1}{2}}exp\{-\frac{\alpha}{2}w^Tw\}
其中α\alpha称为分布的精度(precision).根据贝叶斯定理,ww的后验正比于先验和似然函数的成绩
p(wx,t,α,σ2)p(tx,w,σ2)p(wα)p(w|x,t,\alpha,\sigma^2)\propto p(t|x,w,\sigma^2)p(w|\alpha)

我们通过最大化后验概率来确定ww.步骤与之前相似,结果如下式w=argmin12σ2n=1N{y(xn,w)tn}2+α2wTww=\arg\min\frac{1}{2 \sigma^2}\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{\alpha}{2}w^Tw
于是我们看到最大化后验概率等价于最小化正则化平方和误差,即岭回归.

相关文章:

  • 2021-12-10
  • 2022-01-03
  • 2021-11-22
  • 2021-04-24
  • 2021-05-31
  • 2021-10-04
  • 2021-12-16
  • 2021-11-18
猜你喜欢
  • 2021-10-12
  • 2021-07-29
  • 2021-08-03
  • 2021-09-24
  • 2022-12-23
  • 2021-08-25
相关资源
相似解决方案