【发布时间】:2016-08-07 19:46:46
【问题描述】:
我正在尝试根据 TF-IDF 分数在语料库中找到最重要的单词。
一直在关注https://radimrehurek.com/gensim/tut2.html 的示例。基于
>>> for doc in corpus_tfidf:
... print(doc)
TF-IDF 分数在每次迭代中都会更新。例如,
- Word 0(“computer”基于https://radimrehurek.com/gensim/tut1.html),TF-IDF 得分为 0.5773(Doc #1),0.4442(Doc #2)。
- 单词 10(“graph”)的 TF-IDF 得分为 0.7071(Doc #7)、0.5080(Doc #8)、0.4588(Doc #9)
这就是我目前如何获得每个单词的最终 TF-IDF 分数,
tfidf = gensim.models.tfidfmodel.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
d = {}
for doc in corpus_tfidf:
for id, value in doc:
word = dictionary.get(id)
d[word] = value
有没有更好的办法?
提前致谢。
【问题讨论】: