【发布时间】:2013-10-29 14:30:23
【问题描述】:
我已经使用 mallet 制作了一个并行主题模型。
我想获得每个文档的热门词。
为此,我试图获得一个词-主题概率矩阵。
我将如何实现这一目标?
【问题讨论】:
-
你能展示一下你到目前为止尝试过的东西吗?
-
想要得到什么?您想要文档的热门主题、主题中的热门词,还是两者兼而有之?
我已经使用 mallet 制作了一个并行主题模型。
我想获得每个文档的热门词。
为此,我试图获得一个词-主题概率矩阵。
我将如何实现这一目标?
【问题讨论】:
当您使用 MALLET 构建主题时,您有一个名为 --word-topic-counts-file 的选项。当您提供此选项并指定文件时,MALLET 会在文件中的每一行写入(主题、单词、概率)值。您可以稍后用 C、Java 或 R(当然,任何语言)读取此文件来创建您想要的矩阵。
【讨论】:
就Praveen的回答提出一点。
使用--word-topic-counts-file,MALLET 将创建一个前几行如下所示的文件:
0 伊丽莎白 19:1
1 尼达姆 19:2 17:1
2 人于 19:2 死亡
3 妈妈 17:1 19:1 14:1
其中第一行表示单词 elizabeth 在主题 19 中出现过一次;第二行表示词needham与主题19关联两次,与主题17关联一次;等等...
虽然,这个文件没有给你明确的概率,但你可以用它来计算它们。
【讨论】: