如何使用槌获得词主题概率答案

【问题标题】：how to get word-topic probability using mallet如何使用槌获得词主题概率
【发布时间】：2013-10-29 14:30:23
【问题描述】：

我已经使用 mallet 制作了一个并行主题模型。

我想获得每个文档的热门词。

为此，我试图获得一个词-主题概率矩阵。

我将如何实现这一目标？

【问题讨论】：

标签： java mallet

【解决方案1】：

当您使用 MALLET 构建主题时，您有一个名为 --word-topic-counts-file 的选项。当您提供此选项并指定文件时，MALLET 会在文件中的每一行写入（主题、单词、概率）值。您可以稍后用 C、Java 或 R（当然，任何语言）读取此文件来创建您想要的矩阵。

【讨论】：

【解决方案2】：

就Praveen的回答提出一点。

使用--word-topic-counts-file，MALLET 将创建一个前几行如下所示的文件：

0 伊丽莎白 19:1
1 尼达姆 19:2 17:1
2 人于 19:2 死亡
3 妈妈 17:1 19:1 14:1

其中第一行表示单词 elizabeth 在主题 19 中出现过一次；第二行表示词needham与主题19关联两次，与主题17关联一次；等等...
虽然，这个文件没有给你明确的概率，但你可以用它来计算它们。

【讨论】：