【发布时间】:2012-09-13 13:20:38
【问题描述】:
从 apache Mahout 网站https://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.html 我可以看到拟合 LDA 模型的过程并以 P("word"|"topic number") 的形式输出计算的主题。但是,没有关于如何将经过训练的模型应用于测试数据来预测主题分布的信息。或者我们应该编写自己的程序来使用条件概率的输出在测试数据集上找到主题?
【问题讨论】:
-
LDA主题聚类的cluster-reuters.sh文件中有一个例子。您可以在示例目录中找到它。
-
@Caavoow,您提到的示例是培训部分。我认为 Rkz 希望使用经过训练的模型获得一组新文档的主题分布。
标签: mahout lda topic-modeling