【发布时间】:2020-05-30 10:41:52
【问题描述】:
我正在尝试找出是否可以 - 或者最好的方法是 - 以编程方式比较使用 mallet 创建的不同主题模型,以确定给定语料库的“最佳”拟合模型。
API 提供了一种方法来确定生成模型的对数似然。见 f.e. : #modelLogLikelihood()
Afaik 可以根据保留数据的对数可能性来比较不同的模型。但是这种方法计算了..整个模型的可能性,我猜?我已经检查了source code,但这并没有给黑暗带来光明。
所以我的问题是: 上述方法的输出是否适合比较不同的主题建模算法,如 Hierarchical PAM、LDA、DMR ......以找出哪个模型(理论上)代表语料库的最佳方式?
【问题讨论】:
标签: java machine-learning topic-modeling mallet