【问题标题】:Mahout LDA how to predict the topic on test data set?Mahout LDA 如何预测测试数据集上的主题?
【发布时间】:2012-09-13 13:20:38
【问题描述】:

从 apache Mahout 网站https://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.html 我可以看到拟合 LDA 模型的过程并以 P("word"|"topic number") 的形式输出计算的主题。但是,没有关于如何将经过训练的模型应用于测试数据来预测主题分布的信息。或者我们应该编写自己的程序来使用条件概率的输出在测试数据集上找到主题?

【问题讨论】:

  • LDA主题聚类的cluster-reuters.sh文件中有一个例子。您可以在示例目录中找到它。
  • @Caavoow,您提到的示例是培训部分。我认为 Rkz 希望使用经过训练的模型获得一组新文档的主题分布。

标签: mahout lda topic-modeling


【解决方案1】:

请查看 2009 年 Wallach 等人的出版物。人。标题为“主题模型的评估方法”here。看看第 4 节,它提到了三种计算 P(z|w) 的方法,一种基于重要性采样,另外两种称为“Chib-style estimator”和“left-to-right estimator”。

Mallet 实现了从左到右的估计方法。

【讨论】:

    猜你喜欢
    • 2013-04-13
    • 2015-12-26
    • 2016-03-12
    • 1970-01-01
    • 2013-06-04
    • 2012-05-16
    • 2012-06-25
    • 2012-06-30
    • 2019-04-02
    相关资源
    最近更新 更多