【发布时间】:2017-09-01 20:47:49
【问题描述】:
我有一个使用 MALLET 训练的 LDA 主题模型,但我想计算两个文档之间的余弦相似度以获得相似度,但我不确定 MALLET 输出的哪个文件计算余弦。
我的余弦相似度函数工作正常,但不确定我在 MALLET 中比较的是什么。
任何帮助将不胜感激!
【问题讨论】:
我有一个使用 MALLET 训练的 LDA 主题模型,但我想计算两个文档之间的余弦相似度以获得相似度,但我不确定 MALLET 输出的哪个文件计算余弦。
我的余弦相似度函数工作正常,但不确定我在 MALLET 中比较的是什么。
任何帮助将不胜感激!
【问题讨论】:
每个文档都将由其主题构成来表示,因此您必须对它们进行比较。使用--output-doc-topics 参数来获取所需的文件。
行是文档,列是属于文档的每个主题的比例。在当前版本 (2.0.8) 中,列按主题 ID 升序排序 - 否则按概率从高到低排序。
除了余弦相似度之外,您还应该考虑不同的指标,例如(对称)Kullback-Leibler 散度或 Hellinger 距离。
【讨论】: