【问题标题】:Scikitlearn latent dirichlet allocation is giving empty topicScikit Learn 潜在狄利克雷分配给出了空主题
【发布时间】:2016-07-05 08:58:43
【问题描述】:

我正在使用 LDA 的 sklearn 实现进行主题建模。 在模型拟合之后,我得到了一些有意义的主题,这些主题的词权重增加了,这很好,但是我也得到了其他主题,所有词的权重都与之前的相同(1 / 主题数)。这种行为对我来说听起来很奇怪,这可能是什么原因?

关于我的设置的信息是:

  • 1000 个单词的词汇
  • 我正在向模型传递一个 ffidf 矩阵,该矩阵使用此词汇完成了 700 多个文档,每个文档介于 500 到 1000 个字符之间
  • 我尝试运行不同数量的 em 迭代,但结果不会改变
  • 我要求 30 个主题

我也想知道是不是我的话题太多了,但如果确实是这样,模型不应该改变话题的权重吗?

【问题讨论】:

    标签: scikit-learn


    【解决方案1】:

    我有一个similar issue,但就我而言,它与只有少数(大)文档有关。在这种情况下,在 scikit-learn 中实现的在线变分贝叶斯方法在查找信息主题方面存在问题(但是,基于 Gibbs 抽样的方法可以工作)。

    我认为在您的情况下,问题在于您正在传递“ffidf 矩阵”(我认为您的意思是 tfidf 矩阵)。据我所知,LDA 仅适用于离散数字,因此您需要传递 tf 矩阵(词频也就是词袋,也就是文档词矩阵 - DTM)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-10-02
      • 2011-07-31
      • 2011-09-08
      • 2017-12-23
      • 2011-05-07
      • 2020-07-21
      • 2017-08-12
      • 2017-04-01
      相关资源
      最近更新 更多