【发布时间】:2015-06-27 09:09:41
【问题描述】:
我正在尝试在我训练有素的 lda 模型上实现主题平铺算法。 对于算法,我需要分配给未见过文档中单个单词的所有 ID。然后,我将计算给定单词的最常见主题 ID,并将其指定为该单词的模式。
我正在使用 gensim 库,因此很容易获得 topic->word dist,其中单词给出了它们的概率。但是我如何获得“哪些主题被分配给一个世界”,意思是单词->主题分布。
Example:
s = "Banks are closed on Sunday"
Topic -> Word Dist from Gensim:
TopicTag -> Prob*Word
Topic 0 -> 0,3*Bank, 0,2*are
Topic 1 -> 0,2*closed, 0,1*Sunday
Topic 2 -> 0,4*Sunday, 0,3*on
What I want:
word -> TopicTag(Frequency that given word was assigned with the specified topic tag)
Banks -> Topic1(2), Topic2(2)
Closed -> Topic0(1),Topic1 (4)
还请注意,我对解析来自 Gensim 的 Topic -> Word Dist 结果不感兴趣,我有兴趣找到一种准确的方式,让我的模型将(大量)主题分配给将出现的每个单词一个看不见的文件。
提前致谢。
【问题讨论】:
标签: python lda topic-modeling gensim