【问题标题】:how to get word-topic probability using mallet如何使用槌获得词主题概率
【发布时间】:2013-10-29 14:30:23
【问题描述】:

我已经使用 mallet 制作了一个并行主题模型。

我想获得每个文档的热门词。

为此,我试图获得一个词-主题概率矩阵。

我将如何实现这一目标?

【问题讨论】:

  • 你能展示一下你到目前为止尝试过的东西吗?
  • 想要得到什么?您想要文档的热门主题、主题中的热门词,还是两者兼而有之?

标签: java mallet


【解决方案1】:

当您使用 MALLET 构建主题时,您有一个名为 --word-topic-counts-file 的选项。当您提供此选项并指定文件时,MALLET 会在文件中的每一行写入(主题、单词、概率)值。您可以稍后用 C、Java 或 R(当然,任何语言)读取此文件来创建您想要的矩阵。

【讨论】:

    【解决方案2】:

    就Praveen的回答提出一点。

    使用--word-topic-counts-file,MALLET 将创建一个前几行如下所示的文件:

    0 伊丽莎白 19:1
    1 尼达姆 19:2 17:1
    2 人于 19:2 死亡
    3 妈妈 17:1 19:1 14:1

    其中第一行表示单词 elizabeth 在主题 19 中出现过一次;第二行表示词needham与主题19关联两次,与主题17关联一次;等等...
    虽然,这个文件没有给你明确的概率,但你可以用它来计算它们。

    【讨论】:

    • 在计算概率时还需要包含 alpha 值。我不完全确定,但我相信计算将如this comment 中所述。
    猜你喜欢
    • 2017-08-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-12-22
    • 1970-01-01
    • 1970-01-01
    • 2017-07-06
    • 1970-01-01
    相关资源
    最近更新 更多