【问题标题】:Calculate coherence for non-gensim topic model计算非 gensim 主题模型的连贯性
【发布时间】:2021-03-30 20:02:56
【问题描述】:

我已经建立了一个主题模型,其中:

  • 输入:标记化列表列表
  • 输出:一个m x t矩阵(每个单元格表示单词i出现在主题k中的概率)。
  • 输出:一个k x n矩阵(每个单元格表示主题k在文档j中的概率)。李>

为了找到最佳主题数量,我想计算模型的连贯性。但是,我只知道GensimCoherencemodel,这似乎需要一个Gensim 模型作为输入。

是否有任何其他包/实现可用于计算计算主题模型的连贯性?或者,如果确实可以在不输入 LDA 模型的情况下使用 Coherencemodel,有人可以告诉我该怎么做吗?

【问题讨论】:

标签: python-3.x nlp package topic-modeling


【解决方案1】:

实际上,您可以使用 Gensim 包做到这一点。

input_data = 带有标记化文本的列表列表

topics = 每个主题前 N 个单词的列表

import gensim.corpora as corpora
from gensim.models.coherencemodel import CoherenceModel

id2word = corpora.Dictionary(input_data)
corpus = [id2word.doc2bow(text) for text in input_data]

cm = CoherenceModel(topics=topics,texts = input_data,corpus=corpus, dictionary=id2word, coherence='c_v')
coherence = cm.get_coherence()

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-06-27
    • 1970-01-01
    • 2013-11-06
    • 1970-01-01
    相关资源
    最近更新 更多