【发布时间】:2014-06-13 09:20:33
【问题描述】:
我正在尝试检索多个目录中的文档并对其进行分类。 NLTK book 显示了在movie_reviews 语料库中对两个文件夹中的文件进行分类的示例,“pos”和“neg”:
from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
for category in movie_reviews.categories()
for fileid in movie_reviews.fileids(category)]
我尝试对同一目录中的几个文件夹执行类似操作:
reviews= "C:\Users\Alpine\Documents\Reviews" #Folders: Good, Bad
documents = [(list(reviews.words(fileid)), category)
for category in reviews.categories()
for fileid in reviews.fileids(category)]
但是我在for category in reviews.categories() 得到Attribute Error: 'str' object has no attribute 'categories'。
此方法是否仅适用于 nltk 语料库中的文件?有其他选择吗?
【问题讨论】:
标签: python python-2.7 classification nltk corpus