【发布时间】:2016-07-05 08:58:43
【问题描述】:
我正在使用 LDA 的 sklearn 实现进行主题建模。 在模型拟合之后,我得到了一些有意义的主题,这些主题的词权重增加了,这很好,但是我也得到了其他主题,所有词的权重都与之前的相同(1 / 主题数)。这种行为对我来说听起来很奇怪,这可能是什么原因?
关于我的设置的信息是:
- 1000 个单词的词汇
- 我正在向模型传递一个 ffidf 矩阵,该矩阵使用此词汇完成了 700 多个文档,每个文档介于 500 到 1000 个字符之间
- 我尝试运行不同数量的 em 迭代,但结果不会改变
- 我要求 30 个主题
我也想知道是不是我的话题太多了,但如果确实是这样,模型不应该改变话题的权重吗?
【问题讨论】:
标签: scikit-learn