【问题标题】:How to get the cosine similarity between two documents in MALLET?如何获得 MALLET 中两个文档之间的余弦相似度?
【发布时间】:2017-09-01 20:47:49
【问题描述】:

我有一个使用 MALLET 训练的 LDA 主题模型,但我想计算两个文档之间的余弦相似度以获得相似度,但我不确定 MALLET 输出的哪个文件计算余弦。

我的余弦相似度函数工作正常,但不确定我在 MALLET 中比较的是什么。

任何帮助将不胜感激!

【问题讨论】:

    标签: java modeling lda mallet


    【解决方案1】:

    每个文档都将由其主题构成来表示,因此您必须对它们进行比较。使用--output-doc-topics 参数来获取所需的文件。

    行是文档,列是属于文档的每个主题的比例。在当前版本 (2.0.8) 中,列按主题 ID 升序排序 - 否则按概率从高到低排序。

    除了余弦相似度之外,您还应该考虑不同的指标,例如(对称)Kullback-Leibler 散度或 Hellinger 距离。

    【讨论】:

      猜你喜欢
      • 2010-12-23
      • 2014-02-25
      • 2018-09-27
      • 2020-10-28
      • 2021-08-17
      • 2019-04-12
      • 2018-01-03
      • 2017-08-21
      • 2014-02-25
      相关资源
      最近更新 更多