【问题标题】:empty topics in Mallet LDA topic modelingMallet LDA 主题建模中的空主题
【发布时间】:2015-11-17 05:14:52
【问题描述】:

当我运行具有更多主题(例如 T > 300)的 Mallet LDA 时,我会得到带有空主题词的主题(没有单个主题词)。

为什么会这样?这是 Mallet 中的错误吗?

我在 ubuntu 14.04 机器上使用 mallet 2.0.7。

编辑

mallet-2.0.7/bin/mallet import-dir --input $path/$posts --output $outputDir/$posts.mallet \
        --keep-sequence --remove-stopwords --token-regex "[\\p{Alpha}_]+"  #--save-text-in-source

  mallet-2.0.7/bin/mallet train-topics --input $outputDir/$posts.mallet \
        --num-topics $topics --output-state $outputDir/topic-state.gz \
        --output-topic-keys $outputDir/topics.txt --output-doc-topics $outputDir/document_composition.txt \
        --topic-word-weights-file $outputDir/topic_word_weights.txt --num-top-words $numtopwords \
        --optimize-interval 10 --word-topic-counts-file $outputDir/topic_counts.txt

关于语料库的详细信息,它包含大约 1000 个文件。每个文件可能包含一个或几个句子。语料库非常小,大约 1 MB。

【问题讨论】:

  • 你能给出完整的命令行吗?你能告诉我们一些关于你的语料库的事情吗?
  • 请查看编辑!谢谢
  • 我的猜测是对于语料库的大小来说主题太多了。
  • 是的,答案可能就是这样。

标签: java topic-modeling mallet


【解决方案1】:

我从 David Mimno 那里得到的答案:

这通常表明相对于语料库的大小,您有大量的主题。 Mallet 使用 Gibbs 抽样,因此主题基于当前分配给主题的令牌的实际计数。这些“空洞”的话题本身并没有错,只要你知道不要对它们过于信任。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-07-04
    • 1970-01-01
    • 1970-01-01
    • 2019-06-09
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多