【发布时间】:2022-04-21 12:45:34
【问题描述】:
我需要一个单词的 TF-IDF 值,该单词可以在多个文档中找到,而不仅仅是单个文档或特定文档。
例如,考虑这个语料库 语料库 = [ '这是第一份文件。', '这个文件是第二个文件。', '这是第三个。', '这是第一份文件吗?', “这是第二头牛吗?为什么是蓝色的?”, ]
我想获得文档 1 和 4 中单词 'FIRST' 的 TD-IDF 值。TF-IDF 值是根据该特定文档计算的,在这种情况下,我将为两个单独的文档获得 2 分。但是,我需要同时考虑所有文档的单词“FIRST”的单个分数。
有什么方法可以从所有文档集中获得一个单词的 TF-IDF 分数? 有没有其他方法或技术可以帮助我解决问题?
【问题讨论】:
标签: python scikit-learn nlp tf-idf tfidfvectorizer