【发布时间】:2017-03-07 22:11:19
【问题描述】:
我在语料库上使用 LDA 模型来学习其中涵盖的主题。我正在使用 gensim 包(例如,gensim.models.ldamodel.LdaModel);如有必要,可以轻松使用其他版本的 LDA。
我的问题是使用参数化模型和/或主题词或主题 ID 来查找和检索包含该主题的新文档的最有效方法是什么?
具体来说,我想抓取一个媒体 API 来查找与我的原始语料库中包含的主题相关的新文章(样本外文档)。因为我正在做这个“盲搜索”,所以在每个新文档上运行 LDA 可能太麻烦了;大多数新文档将不包含该主题。
当然可以简单地检索包含 LDA 学习主题的最常用词中的一到 n 个的新文档;然后将 LDA 应用于返回的文档以进一步增强可信度。
我想知道是否有更复杂的方法可以更好地确定新的样本外文章实际上包含相同的主题;而不是巧合地包含一两个主题词。
正在研究主题平铺算法,但不确定它们是否适用于此。
【问题讨论】:
标签: text lda topic-modeling