【问题标题】:gensim LDA traininggensim LDA 培训
【发布时间】:2023-03-13 02:46:01
【问题描述】:

我正在为一个项目使用 gensim LDA 模型。我似乎找不到合适数量的主题。我的问题是,可以肯定的是,每次我训练模型时它都会重新启动,对吗? 例如,我尝试了 47 个主题,结果很糟糕;所以然后我回到单元格并将 47 更改为 80 个主题并再次运行它。它完全开始了新的训练,并抹去了它在 47 个主题中学到的知识,对吧?

我在使用 LDA 时的结果很糟糕,相似度达到 100% 或 0%,而且我在参数调整方面遇到了麻烦。 LSI 给了我很好的结果。 谢谢!

【问题讨论】:

    标签: python nlp gensim lda


    【解决方案1】:

    是的,每次你训练 LDA 时,它都会忘记迄今为止学到的东西。

    一些可以帮助您获得更好结果的建议和方法:

    • 确保您已对文本进行了适当的预处理。这通常包括删除标点符号和数字,删除停用词和过于频繁或罕见的词,(可选)对文本进行词形还原。预处理取决于文本的语言和领域。
    • 关于超参数,您可以对 alpha 和 beta 使用“自动”模式,让模型学习 alpha 和 beta 的最佳值。如果要修复它们,通常建议使用低于 1 的值。 Check this
    • LDA 是一种概率模型,这意味着如果您使用相同的超参数重新训练它,每次都会得到不同的结果。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-03-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-10-05
      • 2022-01-25
      • 2016-06-07
      • 2019-07-10
      相关资源
      最近更新 更多