机器学习复习0-频率派vs贝叶斯派

假设有以下数据：
机器学习复习0-频率派vs贝叶斯派
x服从该分布。

频率派

Θ 当做是一个未知的常量，X是随机变量
一般使用MLE，即最大似然估计：
机器学习复习0-频率派vs贝叶斯派
因为每个样本都独立同部分iid，所以可以写成连乘的形式，加log变成累加的形式。

贝叶斯派

Θ 是随机变量，且服从某一个分布 $P(Θ)$ ， $P(Θ)$ 也叫做先验概率。
机器学习复习0-频率派vs贝叶斯派
参数估计方法MAP - 最大后验概率估计：
定义：后验概率的参数Θ服从某分布，在分布中找到使得后验概率最大的参数Θ，即MAP。

$p(X)$ 和Θ无关，所以最后写成如上图的形式。

但MAP不是标准的贝叶斯的方法。

标准的是贝叶斯估计：
机器学习复习0-频率派vs贝叶斯派
那么用这个后验概率能做什么？
贝叶斯预测：
已知 $X$ 数据，假设来了新数据 $x'$ ，预测问题就变成了要求 $p(x'|X)$ 的概率。
我们通过Θ来建立 $X$ 和 $x'$ 的桥梁，如下图所示：

那么可以得到：
机器学习复习0-频率派vs贝叶斯派

总结两派

贝叶斯派中，我们在求后验的时候，分母有积分，这个积分的计算是非常复杂的，或者说求不出来的。所以会引申出很多的计算方法。

从贝叶斯派本质来考虑其实就是求积分，比如MCMC采样方法（马尔可夫链蒙特卡罗算法）。
从贝叶斯派发展而来的有概率图模型。

频率派主要引申出来的即统计机器学习，本质是优化问题，一般包括：

定义模型
得到loss function
优化算法，如SGD等

频率派的观点导出了一系列的统计机器学习算法，而⻉叶斯派导出了概率图理论。

附赠-马尔可夫链蒙特卡罗算法一句话理解

MCMC方法是用来在概率空间，通过随机采样估算兴趣参数的后验分布。
NLPer知道有这个东西就够了。