潜在狄利克雷分配与文档聚类的关系答案

【问题标题】：The relationship between latent Dirichlet allocation and documents clustering潜在狄利克雷分配与文档聚类的关系
【发布时间】：2011-09-30 12:32:04
【问题描述】：

我想澄清潜在 Dirichlet 分配 (LDA) 与文档聚类的一般任务之间的关系。

LDA 分析倾向于输出每个文档的主题比例。如果我的理解是正确的，这不是文档聚类的直接结果。但是，我们可以将此概率比例视为每个文档的特征表示。之后，我们可以根据LDA分析生成的特征配置调用其他已建立的聚类方法。

我的理解正确吗？谢谢。

【问题讨论】：

【解决方案1】：

是的，您可以将 LDA 的输出视为文档的特征；这正是 Blei、Ng 和 Jordan 在paper that introduced LDA 中所做的。他们这样做是为了分类，但对于聚类，过程是相同的。

（在机器学习术语中，LDA 的这种使用称为降维，因为它将特征空间的维数从 |V|（词汇量大小）减少到用户选择了 k 个主题。）

【讨论】：

但在他们的论文中，他们声称使用了后验狄利克雷参数$\gamma(w)$，这与这里的概率比例不同。我同意在特征减少方面的基本思想是相同的。但我担心的是他们为什么选择使用$\gamma(w)$，在我看来它并没有像概率比例那样非常明确的物理意义。我很好奇他们的根本原因。但是我没有在论文中得到明确的解释。
@user：我对 LDA 内部结构不太熟悉。我建议您尝试对比例进行聚类，如果不起作用，请在metaoptimize.com 处询问这种选择的原因是什么。如果您愿意，请在此处发布链接，我很感兴趣。
后验$\gamma(w)$可以理解为主题的平滑混合比例。