【发布时间】:2014-01-06 03:09:46
【问题描述】:
在 NLTK 书的第 6 章第 2.1 节中,代码调用电影评论语料库进行文档分类。书中代码如下:
from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
for category in movie_reviews.categories()
for fileid in movie_reviews.fileids(category)]
random.shuffle(documents)
我有自己的数据集逗号分隔(文本,类别)的电子邮件文本和类别的正面或负面。我可以在自己的文件上调用 .words() 吗?另外,当它调用movie_reviews.categories() 时,代码的含义是什么。我无法理解如何构造数据以将其转换为代码所需的形式。我查看了各个语料库文件,但我不知道从这里做什么。任何帮助,将不胜感激。谢谢!
【问题讨论】:
-
嗨!你试过在你的文件上调用
words()吗?如果是这样,会发生什么或你得到什么样的错误?categories()呢? -
另外,你看过这个问题吗? stackoverflow.com/q/4951751/583834
标签: python text classification nltk