【发布时间】:2011-03-11 13:22:07
【问题描述】:
这给了我一个文本中单词的频率:
fullWords = re.findall(r'\w+', allText)
d = defaultdict(int)
for word in fullWords :
d[word] += 1
finalFreq = sorted(d.iteritems(), key = operator.itemgetter(1), reverse=True)
self.response.out.write(finalFreq)
这也给了我诸如“the”“an”“a”之类的无用词
我的问题是,python 中是否有一个停用词库可以删除所有这些常用词?我想在谷歌应用引擎上运行它
【问题讨论】:
-
或者你想参加stackoverflow.com/questions/3169051的比赛吗?
标签: python google-app-engine frequency-analysis word-frequency