假设有以下数据:
x服从该分布。
频率派
Θ 当做是一个未知的常量,X是随机变量
一般使用MLE,即最大似然估计:
因为每个样本都独立同部分iid,所以可以写成连乘的形式,加log变成累加的形式。
贝叶斯派
Θ 是随机变量,且服从某一个分布,也叫做先验概率。
参数估计方法MAP - 最大后验概率估计:
定义:后验概率的参数Θ服从某分布,在分布中找到使得后验概率最大的参数Θ,即MAP。
和Θ无关,所以最后写成如上图的形式。
但MAP不是标准的贝叶斯的方法。
标准的是贝叶斯估计:
那么用这个后验概率能做什么?
贝叶斯预测:
已知数据,假设来了新数据,预测问题就变成了要求的概率。
我们通过Θ来建立和的桥梁,如下图所示:
那么可以得到:
总结两派
贝叶斯派中,我们在求后验的时候,分母有积分,这个积分的计算是非常复杂的,或者说求不出来的。所以会引申出很多的计算方法。
从贝叶斯派本质来考虑其实就是求积分,比如MCMC采样方法(马尔可夫链蒙特卡罗算法)。
从贝叶斯派发展而来的有概率图模型。
频率派主要引申出来的即统计机器学习,本质是优化问题,一般包括:
- 定义模型
- 得到loss function
- 优化算法,如SGD等
频率派的观点导出了一系列的统计机器学习算法,而⻉叶斯派导出了概率图理论。
附赠-马尔可夫链蒙特卡罗算法一句话理解
MCMC方法是用来在概率空间,通过随机采样估算兴趣参数的后验分布。
NLPer知道有这个东西就够了。