Scikit Learn 潜在狄利克雷分配给出了空主题答案

【问题标题】：Scikitlearn latent dirichlet allocation is giving empty topicScikit Learn 潜在狄利克雷分配给出了空主题
【发布时间】：2016-07-05 08:58:43
【问题描述】：

我正在使用 LDA 的 sklearn 实现进行主题建模。在模型拟合之后，我得到了一些有意义的主题，这些主题的词权重增加了，这很好，但是我也得到了其他主题，所有词的权重都与之前的相同（1 / 主题数）。这种行为对我来说听起来很奇怪，这可能是什么原因？

关于我的设置的信息是：

我也想知道是不是我的话题太多了，但如果确实是这样，模型不应该改变话题的权重吗？

【问题讨论】：

【解决方案1】：

我有一个similar issue，但就我而言，它与只有少数（大）文档有关。在这种情况下，在 scikit-learn 中实现的在线变分贝叶斯方法在查找信息主题方面存在问题（但是，基于 Gibbs 抽样的方法可以工作）。

我认为在您的情况下，问题在于您正在传递“ffidf 矩阵”（我认为您的意思是 tfidf 矩阵）。据我所知，LDA 仅适用于离散数字，因此您需要传递 tf 矩阵（词频也就是词袋，也就是文档词矩阵 - DTM）。

【讨论】：