在 NLTK 中“克隆”语料库？答案

【问题标题】："Cloning" a corpus in NLTK?在 NLTK 中“克隆”语料库？
【发布时间】：2012-06-04 00:09:12
【问题描述】：

我正在尝试在 NLTK 中创建自己的语料库。我一直在阅读一些关于此的文档，它似乎相当复杂......我想做的只是“克隆”电影评论语料库，但使用我自己的文本。现在，我知道我可以将 move 评论语料库中的文件更改为我自己的文件……但这限制了我一次只能使用一个这样的语料库（即，我必须不断地交换文件）。有什么方法可以克隆电影评论语料库？

谢谢亚历克斯

【问题讨论】：

标签： python nlp nltk corpus

【解决方案1】：

使用CategorizedPlaintextCorpusReader 类阅读电影评论。直接使用它来加载您的语料库。以下内容适用于电影语料库的精确副本：

mr = CategorizedPlaintextCorpusReader(path_to_your_reviews, r'(?!\.).*\.txt',
        cat_pattern=r'(neg|pos)/.*')

cat_pattern 中的任何东西都是类别：在这种情况下，neg 和 pos。如果您的语料库有不同的类别（例如，电影类型而不是正面/负面评价），请更改目录结构并调整 cat_pattern 参数以匹配。

PS。对于不同结构的分类语料，nltk提供了丰富的分类方式；阅读CategorizedPlaintextCorpusReader的文档。

【讨论】：

【解决方案2】：

你为什么不通过在nltk.corpus 中复制movie_reviews 的定义来定义一个新的语料库？您可以对新目录进行任何操作，然后复制目录结构并替换文件。

【讨论】：