【发布时间】:2026-01-07 20:10:01
【问题描述】:
我已经开始使用Galago 进行文档检索。我想使用 LDA 对一些文档(最初检索到的任何模型的文档)进行聚类。我更喜欢使用基于 java 的实现,它可以使用 Galago 集成到我的代码中。如果您能让我知道 LDA 的哪种开源实现更适合我的目的,我将不胜感激。
提前感谢您的帮助!
【问题讨论】:
标签: information-retrieval lda lemur
我已经开始使用Galago 进行文档检索。我想使用 LDA 对一些文档(最初检索到的任何模型的文档)进行聚类。我更喜欢使用基于 java 的实现,它可以使用 Galago 集成到我的代码中。如果您能让我知道 LDA 的哪种开源实现更适合我的目的,我将不胜感激。
提前感谢您的帮助!
【问题讨论】:
标签: information-retrieval lda lemur
本文提供了一种用于 LDA 的快速算法:
S。 Arora, R. Ge, Y. Halpern, D. Mimno, A. Moitra, D. Sontag, Y. Wu, M. Zhu。具有可证明保证的主题建模实用算法。第 30 届机器学习国际会议 (ICML),2013 年。
其中一位作者 (D. Mimno) 在 github 上有一个 Java 实现:https://github.com/mimno/anchor
我已经简单地研究了这个实现,并发现了良好而快速的结果。与所有 LDA/主题建模一样,正确获取主题数量可能具有挑战性。
【讨论】: