使用潜在狄利克雷分配的主题预测答案

【问题标题】：Topic prediction using Latent Dirichlet Allocation使用潜在狄利克雷分配的主题预测
【发布时间】：2011-07-31 18:30:30
【问题描述】：

我在文档语料库上使用了 LDA，并找到了一些主题。我的代码的输出是两个包含概率的矩阵。一个文档主题概率和另一个单词主题概率。但我实际上不知道如何使用这些结果来预测新文档的主题。我正在使用吉布斯采样。有谁知道怎么做？谢谢

【问题讨论】：

当我注意到您已经在那里交叉发布了问题时，我打算建议 stats.stackexchange.com。
你看过mblondel.org/journal/2010/08/21/…（有一个链接到示例代码的要点）和blog.josephwilk.net/projects/…
您的描述有点令人困惑，因为您写道您使用 LDA 在文档中查找主题。就我记得我的信息检索讲座而言，LDA 是一种高级平滑技术，可以根据某个单词生成的概率来预测查询中包含但文档中不存在的单词的概率主题模型。因此，如果您能提供更多关于您迄今为止实际完成的工作的信息，将会非常有用。
您想对新的测试文档做什么？找出它的主题概率？或者实际上找出每个单词是从哪个主题生成的？

【解决方案1】：

Java 实现http://www.arbylon.net/projects/lda-j/lda-j-src-20050325.zip 在 src\org\knowceans\lda\SearchEnglet.java 中有一个简短的示例程序。希望你对java有点熟悉，代码对你有帮助。

【讨论】：

抱歉，我无法理解这段代码，而使用 Java 则更加困难
lsa 的推理公式有点复杂，请查看关于 lsa 的英文维基百科页面。也许nlp.fi.muni.cz/projekty/gensim/# 的代码对你来说更易读。