【问题标题】:gensim LDA traininggensim LDA 培训
【发布时间】:2023-03-13 02:46:01
【问题描述】:
我正在为一个项目使用 gensim LDA 模型。我似乎找不到合适数量的主题。我的问题是,可以肯定的是,每次我训练模型时它都会重新启动,对吗?
例如,我尝试了 47 个主题,结果很糟糕;所以然后我回到单元格并将 47 更改为 80 个主题并再次运行它。它完全开始了新的训练,并抹去了它在 47 个主题中学到的知识,对吧?
我在使用 LDA 时的结果很糟糕,相似度达到 100% 或 0%,而且我在参数调整方面遇到了麻烦。 LSI 给了我很好的结果。
谢谢!
【问题讨论】:
标签:
python
nlp
gensim
lda
【解决方案1】:
是的,每次你训练 LDA 时,它都会忘记迄今为止学到的东西。
一些可以帮助您获得更好结果的建议和方法:
- 确保您已对文本进行了适当的预处理。这通常包括删除标点符号和数字,删除停用词和过于频繁或罕见的词,(可选)对文本进行词形还原。预处理取决于文本的语言和领域。
- 关于超参数,您可以对 alpha 和 beta 使用“自动”模式,让模型学习 alpha 和 beta 的最佳值。如果要修复它们,通常建议使用低于 1 的值。 Check this
- LDA 是一种概率模型,这意味着如果您使用相同的超参数重新训练它,每次都会得到不同的结果。