【问题标题】:The relationship between latent Dirichlet allocation and documents clustering潜在狄利克雷分配与文档聚类的关系
【发布时间】:2011-09-30 12:32:04
【问题描述】:

我想澄清潜在 Dirichlet 分配 (LDA) 与文档聚类的一般任务之间的关系。

LDA 分析倾向于输出每个文档的主题比例。如果我的理解是正确的,这不是文档聚类的直接结果。但是,我们可以将此概率比例视为每个文档的特征表示。之后,我们可以根据LDA分析生成的特征配置调用其他已建立的聚类方法。

我的理解正确吗?谢谢。

【问题讨论】:

    标签: nlp machine-learning data-mining text-mining lda


    【解决方案1】:

    是的,您可以将 LDA 的输出视为文档的特征;这正是 Blei、Ng 和 Jordan 在paper that introduced LDA 中所做的。他们这样做是为了分类,但对于聚类,过程是相同的。

    (在机器学习术语中,LDA 的这种使用称为降维,因为它将特征空间的维数从 |V|(词汇量大小)减少到用户选择了 k 个主题。)

    【讨论】:

    • 但在他们的论文中,他们声称使用了后验狄利克雷参数$\gamma(w)$,这与这里的概率比例不同。我同意在特征减少方面的基本思想是相同的。但我担心的是他们为什么选择使用$\gamma(w)$,在我看来它并没有像概率比例那样非常明确的物理意义。我很好奇他们的根本原因。但是我没有在论文中得到明确的解释。
    • @user:我对 LDA 内部结构不太熟悉。我建议您尝试对比例进行聚类,如果不起作用,请在metaoptimize.com 处询问这种选择的原因是什么。如果您愿意,请在此处发布链接,我很感兴趣。
    • 后验$\gamma(w)$可以理解为主题的平滑混合比例。
    猜你喜欢
    • 2012-11-13
    • 1970-01-01
    • 2011-09-08
    • 2011-05-07
    • 2020-07-21
    • 1970-01-01
    • 2017-08-12
    • 2017-04-01
    • 1970-01-01
    相关资源
    最近更新 更多