【发布时间】:2011-07-31 18:30:30
【问题描述】:
我在文档语料库上使用了 LDA,并找到了一些主题。我的代码的输出是两个包含概率的矩阵。一个文档主题概率和另一个单词主题概率。但我实际上不知道如何使用这些结果来预测新文档的主题。我正在使用吉布斯采样。有谁知道怎么做? 谢谢
【问题讨论】:
-
当我注意到您已经在那里交叉发布了问题时,我打算建议 stats.stackexchange.com。
-
你看过mblondel.org/journal/2010/08/21/…(有一个链接到示例代码的要点)和blog.josephwilk.net/projects/…
-
您的描述有点令人困惑,因为您写道您使用 LDA 在文档中查找主题。就我记得我的信息检索讲座而言,LDA 是一种高级平滑技术,可以根据某个单词生成的概率来预测查询中包含但文档中不存在的单词的概率主题模型。因此,如果您能提供更多关于您迄今为止实际完成的工作的信息,将会非常有用。
-
您想对新的测试文档做什么?找出它的主题概率?或者实际上找出每个单词是从哪个主题生成的?
标签: python prediction topic-modeling