【问题标题】:Classifying a list of documents对文档列表进行分类
【发布时间】:2014-06-13 09:20:33
【问题描述】:

我正在尝试检索多个目录中的文档并对其进行分类。 NLTK book 显示了在movie_reviews 语料库中对两个文件夹中的文件进行分类的示例,“pos”和“neg”:

from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
              for category in movie_reviews.categories()
              for fileid in movie_reviews.fileids(category)]

我尝试对同一目录中的几个文件夹执行类似操作:

reviews= "C:\Users\Alpine\Documents\Reviews" #Folders: Good, Bad
documents = [(list(reviews.words(fileid)), category)
              for category in reviews.categories()
              for fileid in reviews.fileids(category)]

但是我在for category in reviews.categories() 得到Attribute Error: 'str' object has no attribute 'categories'

此方法是否仅适用于 nltk 语料库中的文件?有其他选择吗?

【问题讨论】:

    标签: python python-2.7 classification nltk corpus


    【解决方案1】:

    问题在于混淆movie_reviewsreviews

    movie_review 是通过从nltk.corpus 导入定义的,并且有一个方法words

    reviews 是您已为其分配字符串的变量。并且该字符串没有方法words,正如错误消息告诉您的那样。

    【讨论】:

      猜你喜欢
      • 2017-04-11
      • 2011-07-29
      • 2016-10-02
      • 2017-06-08
      • 2016-11-30
      • 1970-01-01
      • 2015-04-12
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多