【发布时间】:2019-04-17 01:57:46
【问题描述】:
我有一个庞大的语料库(大约 40 万个独特的句子)。我只想获得每个单词的 TF-IDF 分数。我试图通过扫描每个单词并计算频率来计算每个单词的分数,但它花费的时间太长。
我用过:
X= tfidfVectorizer(corpus)
来自 sklearn,但它直接返回句子的向量表示。有什么方法可以得到语料库中每个单词的 TF-IDF 分数?
【问题讨论】:
-
TF-IDF 不是整个语料库中的每个单词,而是每个文档的每个单词,因此您无法获得语料库中每个唯一单词的值。另外,你能具体说明一下你是如何使用
TfidfVectorizer的吗? -
这正是我所需要的。每个文档/语料库的每个单词的分数。 @Tomothy32
-
再一次,你能具体说明一下你是如何使用
TfidfVectorizer的吗? -
和我上面评论的一样。 corpus = list(文档中的句子)。但它返回每个句子的唯一向量表示。但是,您不知道文档中每个单词的确切分数。
-
使用
vectorizer.get_feature_names()和vectorizer.idf_获取每个单词的分数。参考documentation
标签: python nlp tf-idf tfidfvectorizer