如何创建分类标记语料库阅读器答案

【问题标题】：How to create a categorized tagged corpus reader如何创建分类标记语料库阅读器
【发布时间】：2016-11-10 08:35:31
【问题描述】：

我在同一个文件夹中的cats.txt 中列出了一堆文件和类别。我想为此创建一个CategorizedTaggedCorpusReader。

这就是我的文件的样子。

在 nltk 中尝试了多种方法，但未能创建 Categorizedtaggedcorpusreader。在我的cats.txt 中，我有文件名和类别名称，其中空格分开，每个文件名可以有多个类别。

例如：

mail_1_adapter adapter 
mail_1_alert alert 
messagebody_24862499 others
etc.

你能告诉我一个更好的方法来创建我的语料库并利用它吗？

【问题讨论】：

【解决方案1】：

您的文件格式很好。您究竟是如何尝试创建您的阅读器但没有成功？你不显示你的代码，所以不知道你做错了什么。您需要告诉您的读者它应该从文件cats.txt 中读取类别，例如像这样：

 from nltk.corpus.reader import CategorizedTaggedCorpusReader
 reader = CategorizedTaggedCorpusReader(<path>, r"^[^.]*$", cat_file="cats.txt")

您的类别文件cats.txt 不是语料库的一部分，所以我使用了正则表达式^[^.]*$，它匹配所有不包含点的内容。如果这不能正确描述您的文件，请根据需要更改定义以包含所有语料库文件，但排除 cats.txt。

【讨论】：

corpus_root = 'C:/Users/nkumarn/PycharmProjects/taggedcorpus/' ___________________________________ reader = CategorizedTaggedCorpusReader(corpus_root,r'.*\.File',cat_file=r'.*\.txt')这就是我所做的。它没有工作
好吧，它没有奏效也就不足为奇了。 cat_file 应该是文件名（带路径），而不是正则表达式。你真的把r'.*\.File'写成文件模式吗？下次，包括您的代码和您在问题中遇到的错误。不要再写这种懒惰的问题了，这不是我建议你改进的第一个问题。
是的，我明白了，谢谢....我一定会提高我的提问标准。谢谢你的建议。