0、基石——贝叶斯推断

计算后验概率即为我们对参数的估计:

topic model

其中:

    topic model——输入数据

    topic model ——待估计的参数

    topic model——似然分布

    topic model ——参数的先验分布

 

对新样本的预测:我们要估计topic model的概率

topic model

1、常用的概率分布

Dirichlet Distribution

topic model

2、文本建模

2.1 基本模型——unigram model

最基本的一种文本模型。

我们做这样的假设:语料库是从词表topic model中独立的抽取的topic model个。有似然方程

topic model其中topic model是term[t]出现的次数。我们的目标是估计topic model,根据贝叶斯推断的方法,我们需要引入topic model的一个先验分布。

topic model计算后验概率

topic model

至此,我们就得到的参数topic model的在观测到输入语料库的条件下的概率分布。而这个参数topic model确定了语料库生成模型——Unigram model。我们认为语料库是这样生成的:每篇文档的每个词都从同一个二项分布模型中sample得到。显然,这是不靠谱的。

3 LDA建模

3.1 图模型

topic model

Lda的生成模型描述如下:模型随机出词的序列topic model,分为一个个以文档为单位的词向量topic model。对于每一个文档的每一个词,首先sample词的topictopic modeltopic model服从以topic model为参数的多项分布;接着,sample每一个词 topic modeltopic model服从以topic model为参数的多项分布,表示每一个topic下词的分布。

为了获得bayesian的生成模型,引入dirichlet分布, topic modeltopic model分别服从参数为topic modeltopic model的dirichlet分布。

3.2 模型的推导

根据图模型的条件独立性,我们首先推导联合概率分布。

topic model

其中,topic modeltopic model维参数,topic model 为topic model 维参数。

现在有两种方式进行推导,一种是采用变分的方法,另一种是采用gibbs采样。我们采用collapsed gibbs sampling方法来做这个问题。

首先对topic modeltopic model积分,得到topic model的联合分布:

topic model

topic model

上式将二重不定积分分离为两个不相关的子积分,现在分别求这两个积分。

小做变换:

topic model

引入有用的符号:

topic model表示第m篇文档中词汇r是由主题k生成的数量;

topic model表示第m篇文档中由主题k生成的词的数量;

topic model表示语料库中词汇r由主题k生成的数量;

求子积分式:

topic model 

topic model

topic modeltopic model另一式:

topic modeltopic model推导每一个子式

topic model

继续写下去,这里的意义有必要说明一下:由两个支路来产生我们的词,首先由topic model产生每一个文档的每一个词的topic,然后根据每个topic生成词。

topic model

topic model

topic model 上面的推导就相当于topic model,perfect!!我们就有了以下的式子:

topic model

 topic model

3.2 collapsed Gibbs sampling

在上述推导的分布中,topic model是隐变量,topic model是观测量。我们将topic model 和topic model两个变量积分掉,原因是我们可以从topic modeltopic model的相互关系中推导出topic modeltopic model

topic model

topic model

其中,topic model 表示其topic为K的词的集合。因此,我们易得

topic modeltopic model(MCMC的一种理解)为什么我们现在有资本用以上两式来估计参数,就像混合高斯模型一样,对于每一篇文档我们有个参数,对于每个词,我们还是有个分布。我们利用MCMC来采样出隐变量,而在EM算法中我们求隐变量的后验概率。为什么我们用MCMC,因为隐变量的后验概率不是那么好求的。当然,我们可以用变分的方法,那就复杂了。通过前面的图模型,当我们知道了complete data。我们的theta和fi都可以inference,因为theta有先验,当我们知道数据之后,当然可以inference,这是bayes的思路,不需要像em一样,去最优化一个问题。 

有必要先简介一下MCMC和gibbs方法

对于一个高维分布topic model,我们利用马尔科夫链的平稳性,经过一段“burn-in period”之后继续得到的数据服从这个分布。而gibbs方法是一种特例。

对于含有隐变量的联合分布topic model,我们为了得到后验分布topic model

a. 选择一个维度topic model

b. sampletopic model from topic model

topic model

topic model对采样结果计数,估计条件分布律,基于这样的假设,我们得到了真正的数据。

明白了上面的问题,涉及我们怎么去解这个图模型的基本方法,我们去制造数据来inference。

topic model其中,k=1,…,K,求这样一个分布律。

topic model

topic model

这一步,我们做的是将分子分母的公共项(不受topic model影响的)提出来。接下类是分离k,直接给sample的式子。

topic model其中,topic model ;topic model 表示计数中不能包含topic model。  

 

 

 

 

相关文章:

  • 2021-06-15
  • 2021-06-29
  • 2021-10-01
  • 2022-12-23
  • 2021-08-21
  • 2022-01-23
  • 2021-10-19
  • 2022-01-12
猜你喜欢
  • 2021-07-21
  • 2021-06-26
  • 2021-09-14
  • 2022-12-23
  • 2021-11-17
  • 2021-05-15
相关资源
相似解决方案