最大似然,最小二乘,最大后验
最大似然估计是需要有分布假设的,属于参数统计,如果连分布函数都不知道,又怎么能列出似然函数呢? 而最小二乘法则没有这个假设。 二者的相同之处是都把估计问题变成了最优化问题。但是最小二乘法是一个凸优化问题,最大似然估计不一定是。
那么为啥有这么多人把MLE和OLSE搞混,因为当likelihood用于gaussian的时候,由于gaussian kernel里有个类似于Euclidean distance的东西,一求log就变成square loss了,导致解和OLSE是一样的。而碰巧刚接触MLE的时候基本都是gaussian假设,这才导致很多人分不清楚。
看似最小二乘估计与最大似然估计在推导得到的结果很相似,但是其前提条件必须引起大家注意!!!
对于最小二乘估计,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小,其推导过程如下所示。其中Q表示误差,Yi表示估计值,Yi’表示观测值。
对于最大似然法,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,也就是概率分布函数或者说是似然函数最大。显然,这是从不同原理出发的两种参数估计方法。因此最大似然法需要已知这个概率分布函数,一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计是等价的,也就是说估计结果是相同的,但是原理和出发点完全不同。其推导过程如下所示
最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数,从概率统计的角度处理线性回归并在似然概率函数为高斯函数的假设下同最小二乘建立了的联系。
大部分回答都是用线性回归问题来举例说明的。
其实,就算不是线性回归问题,只要我们认为观察到的数据 Y是由模型的真实输出
叠加上高斯噪声
得到的,即:
那么对模型参数
的最大似然估计和最小二乘估计是等价的。
简单的推导
我们知道,模型的似然函数是
同时,有
, 那么可以得到
因此,去掉后面两项不包含
的常数项,模型参数
的最大似然估计
,就等价于最小二乘估计
。
-----------------有关其他答案提到的ridge,lasso正则----------------
用机器学习的语言来统一描述各种不同的正则项,那就是通常在参数估计的时候要防止出现过拟合。
假设你只有1000个数据点,但是有2000个特征,那直接做线性回归最小二乘估计,可以得到无穷种回归系数的组合(线性方程组有2000个未知数,但是只有1000个方程)。根据奥卡姆剃刀原则,我们希望取最简单的那个模型,也就是回归系数距离原点最近的那组解。
但是距离的定义不同,最优解就不同。
如果是欧式距离,那么最优解就是L2正则下的最小二乘估计,或者是ridge回归:
如果是曼哈顿距离,那么最优解就是L1正则下的最小二乘估计,或者是lasso回归:
高票答主解释过了,ridge是高斯先验下的最大后验估计,而lasso是拉普拉斯先验下的最大后验估计。我们换一种几何方法来理解,更加直观。
对于ridge回归的目标函数,看起来特别像带限制条件的凸优化问题进行拉格朗日变换之后的结果。因此我们反向变回去,还原成带限制条件的凸优化问题,那么就是
且
同理,lasso回归可以变化为
且
最大后验概率(MAP):
最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。
首先,我们回顾上篇文章中的最大似然估计,假设x为独立同分布的采样,θ为模型参数,f为我们所使用的模型。那么最大似然估计可以表示为:
现在,假设θ的先验分布为g。通过贝叶斯理论,对于θ的后验分布如下式所示:
最后验分布的目标为:
最大后验估计是根据经验数据,获得对难以观察的量的点估计。与最大似然估计不同的是,最大后验估计融入了被估计量的先验分布,即模型参数本身的概率分布。
估计过程中,需利用先验概率和贝叶斯定理得到后验概率,目标函数为后验概率的似然函数,求得该似然函数最大时的参数值,即MAP的目标结果(利用极大思想)。
求解过程中,可用梯度下降等方法进行。
最大似然估计(MLE):
最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。
最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。下面我们具体描述一下最大似然估计:
首先,假设
为独立同分布的采样,θ为模型参数,f为我们所使用的模型,遵循我们上述的独立同分布假设。参数为θ的模型f产生上述采样可表示为
回到上面的“模型已定,参数未知”的说法,此时,我们已知的为,未知为θ,故似然定义为:
在实际应用中常用的是两边取对数,得到公式如下:
其中称为对数似然,而称为平均对数似然。而我们平时所称的最大似然为最大的对数平均似然,即:
原理:设X1, X2…Xn是取自总体X的一个样本,样本的联合密度(连续型)或联合概率密度(离散型)为f(X1, X2…Xn; Θ)。当给定样本X1, X2…Xn时,定义似然函数为L(Θ)= f(X1,
X2…Xn; Θ)。
L(Θ)看作参数Θ的函数,极大似然估计使L(Θ)达到最大值的去估计真实值Θ。L()=,称为Θ的极大似然估计(MLE)。法就是用
最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。
基本思想:在已经得到试验结果(即样本)的情况下,估计满足这个样本分布的参数,将使这个样本出现的概率最大的那个参数Θ作为真参数Θ的估计。在样本固定的情况下,样本出现的概率与参数Θ之间的函数,称为似然函数。
一般步骤:
(1)由总体分布推导出样本的联合概率函数(或联合密度);
(2)将样本联合概率函数(或联合密度)中自变量看成一直常熟,把参数Θ看作自变量,得到似然函数L(Θ)。
(3)求似然函数L(Θ)的最大值点。
(4)计算过程中,为方便计算,常常先对似然函数取对数,再求导计算极大值点;若无法求导时,要用极大似然原则(即极大似然估计的定义:使L(Θ)最大)来求解。