【发布时间】:2019-01-10 08:12:38
【问题描述】:
我有一个包含 5000 条评论的文档。我在该文件上应用了 tf-idf。这里 sample_data 包含 5000 条评论。我在 一克范围 的 sample_data 上应用 tf-idf 矢量化器。现在我想获得前 1000 个单词 来自具有最高 tf-idf 值的 sample_data。谁能告诉我如何获得热门词?
from sklearn.feature_extraction.text import TfidfVectorizer
tf_idf_vect = TfidfVectorizer(ngram_range=(1,1))
tf_idf_vect.fit(sample_data)
final_tf_idf = tf_idf_vect.transform(sample_data)
【问题讨论】:
标签: python-3.x scikit-learn tf-idf sklearn-pandas tfidfvectorizer