假设有以下数据:
机器学习复习0-频率派vs贝叶斯派
x服从该分布。

频率派

Θ 当做是一个未知的常量,X是随机变量
一般使用MLE,即最大似然估计:
机器学习复习0-频率派vs贝叶斯派
因为每个样本都独立同部分iid,所以可以写成连乘的形式,加log变成累加的形式。

贝叶斯派

Θ 是随机变量,且服从某一个分布P(Θ)P(Θ)P(Θ)P(Θ)也叫做先验概率。
机器学习复习0-频率派vs贝叶斯派
参数估计方法MAP - 最大后验概率估计
定义:后验概率的参数Θ服从某分布,在分布中找到使得后验概率最大的参数Θ,即MAP。
机器学习复习0-频率派vs贝叶斯派
p(X)p(X)和Θ无关,所以最后写成如上图的形式。

但MAP不是标准的贝叶斯的方法。

标准的是贝叶斯估计
机器学习复习0-频率派vs贝叶斯派
那么用这个后验概率能做什么?
贝叶斯预测
已知XX数据,假设来了新数据xx',预测问题就变成了要求p(xX)p(x'|X)的概率。
我们通过Θ来建立XXxx'的桥梁,如下图所示:
机器学习复习0-频率派vs贝叶斯派
那么可以得到:
机器学习复习0-频率派vs贝叶斯派

总结两派

贝叶斯派中,我们在求后验的时候,分母有积分,这个积分的计算是非常复杂的,或者说求不出来的。所以会引申出很多的计算方法。

贝叶斯派本质来考虑其实就是求积分,比如MCMC采样方法(马尔可夫链蒙特卡罗算法)。
从贝叶斯派发展而来的有概率图模型。

频率派主要引申出来的即统计机器学习,本质是优化问题,一般包括:

  1. 定义模型
  2. 得到loss function
  3. 优化算法,如SGD等

频率派的观点导出了一系列的统计机器学习算法,而⻉叶斯派导出了概率图理论。

附赠-马尔可夫链蒙特卡罗算法一句话理解

MCMC方法是用来在概率空间,通过随机采样估算兴趣参数的后验分布。
NLPer知道有这个东西就够了。

相关文章:

  • 2022-03-09
  • 2021-05-07
  • 2021-04-07
  • 2022-12-23
  • 2022-12-23
  • 2021-12-14
  • 2022-01-14
  • 2021-09-22
猜你喜欢
  • 2021-07-14
  • 2021-08-23
  • 2022-12-23
  • 2022-01-22
  • 2021-05-17
  • 2023-04-03
  • 2021-09-21
相关资源
相似解决方案