【问题标题】:text2vec - Do topics' words update with new data?text2vec - 主题词是否会随新数据更新?
【发布时间】:2017-11-28 13:25:49
【问题描述】:

我目前正在使用来自 text2vec 包的 LDA 执行主题建模。我设法创建了一个 dtm 矩阵,然后将LDA 及其fit_transform 方法与n_topics=50 一起应用。

在查看每个主题的热门词时,一个问题突然出现在我的脑海中。我打算之后将模型应用于新数据,并且有可能出现新词,这是模型之前没有遇到的。该模型是否仍然能够将每个单词分配给其各自的主题?此外,这些词是否也会添加到主题中,以便我可以使用get_top_words定位它们?

感谢您的回答!

【问题讨论】:

    标签: text2vec


    【解决方案1】:

    统计学习的理念是“训练”数据和“测试”数据的基本分布大致相同。因此,如果您的新文档包含完全不同的分布,您就不能指望 LDA 会神奇地工作。对于任何其他模型都是如此。

    在推理期间,主题词分布是固定的(它是在训练阶段学习的)。所以get_top_words 在模型训练后总是会返回相同的单词。

    当然,新词不会自动包含在内 - 由词汇表(您在构建 DTM 之前学习)构建的 Document-Term 矩阵,新文档也将仅包含固定词汇表中的词。

    【讨论】:

      猜你喜欢
      • 2015-12-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-10-24
      • 1970-01-01
      • 1970-01-01
      • 2021-12-12
      • 1970-01-01
      相关资源
      最近更新 更多