【问题标题】:Getting TF-IDF Scores Of Words Using Gensim使用 Gensim 获取单词的 TF-IDF 分数
【发布时间】:2016-08-07 19:46:46
【问题描述】:

我正在尝试根据 TF-IDF 分数在语料库中找到最重要的单词。

一直在关注https://radimrehurek.com/gensim/tut2.html 的示例。基于

>>> for doc in corpus_tfidf:
...     print(doc)

TF-IDF 分数在每次迭代中都会更新。例如,

  • Word 0(“computer”基于https://radimrehurek.com/gensim/tut1.html),TF-IDF 得分为 0.5773(Doc #1),0.4442(Doc #2)。
  • 单词 10(“graph”)的 TF-IDF 得分为 0.7071(Doc #7)、0.5080(Doc #8)、0.4588(Doc #9)

这就是我目前如何获得每个单词的最终 TF-IDF 分数,

tfidf = gensim.models.tfidfmodel.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
d = {}
for doc in corpus_tfidf:
    for id, value in doc:
        word = dictionary.get(id)
        d[word] = value

有没有更好的办法?

提前致谢。

【问题讨论】:

    标签: python tf-idf gensim


    【解决方案1】:

    使用字典推导怎么样?

    d = {dictionary.get(id): value for doc in corpus_tfidf for id, value in doc}
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-04-17
      • 2017-12-27
      • 2019-05-24
      • 2017-11-14
      • 2021-04-21
      • 1970-01-01
      • 2019-03-09
      • 2016-06-29
      相关资源
      最近更新 更多