【发布时间】:2015-06-14 01:22:53
【问题描述】:
我在 python 中有一个字符串列表。
list = [ "Sentence1. Sentence2...", "Sentence1. Sentence2...",...]
我想删除停用词并计算所有不同字符串组合中每个单词的出现次数。有简单的方法吗?
我目前正在考虑使用 scikit 中的 CountVectorizer(),而不是迭代每个单词并组合结果
【问题讨论】:
-
什么是停用词?所以你想连接一个长字符串,然后计算出现次数,对吗?
-
所需输出的示例会很有帮助。
-
@wouter 基本上你可以认为我有一堆文档,我想计算一个单词在文档中出现的次数。
-
如果你使用 tf-idf 那么你不需要删除停用词
标签: python list scikit-learn