【问题标题】:Updating TF-IDF using Gensim使用 Gensim 更新 TF-IDF
【发布时间】:2019-05-24 13:47:39
【问题描述】:

您好,我正在使用 Gensim 来查找文档之间的相似度,因此我对文档进行 TF-IDF 并计算余弦相似度。当我有新文档时,我可以使用 index[tfidf[vec]] 计算该文档与以前文档的相似度,但是这样 TF-IDF 不会更新,并且在相似度计算中不考虑新词是否有更新 TF 的解决方案-IDF 快速而无需重新计算整个矩阵,或者什么是我的问题的最佳解决方案?

【问题讨论】:

    标签: python gensim similarity tf-idf


    【解决方案1】:

    我认为这是不可能的。因为当你向语料库添加一个新文档时,TF-IDF 的词汇表会发生变化,而当词汇表发生变化时,所有的 TF-IDF 值也会发生变化,整个矩阵都要重新计算。 但是this link 可能对你有帮助。

    【讨论】:

      猜你喜欢
      • 2017-11-14
      • 1970-01-01
      • 2023-04-06
      • 2016-08-07
      • 1970-01-01
      • 2017-07-01
      • 1970-01-01
      • 2018-03-21
      • 2016-06-29
      相关资源
      最近更新 更多