【问题标题】:How to create a categorized tagged corpus reader如何创建分类标记语料库阅读器
【发布时间】:2016-11-10 08:35:31
【问题描述】:

我在同一个文件夹中的cats.txt 中列出了一堆文件和类别。我想为此创建一个CategorizedTaggedCorpusReader

这就是我的文件的样子。

在 nltk 中尝试了多种方法,但未能创建 Categorizedtaggedcorpusreader。在我的cats.txt 中,我有文件名和类别名称,其中空格分开,每个文件名可以有多个类别。

例如:

mail_1_adapter adapter 
mail_1_alert alert 
messagebody_24862499 others
etc.

你能告诉我一个更好的方法来创建我的语料库并利用它吗?

【问题讨论】:

    标签: python-3.x nlp nltk corpus tagged-corpus


    【解决方案1】:

    您的文件格式很好。您究竟是如何尝试创建您的阅读器但没有成功?你不显示你的代码,所以不知道你做错了什么。您需要告诉您的读者它应该从文件cats.txt 中读取类别,例如像这样:

     from nltk.corpus.reader import CategorizedTaggedCorpusReader
     reader = CategorizedTaggedCorpusReader(<path>, r"^[^.]*$", cat_file="cats.txt")
    

    您的类别文件cats.txt 不是语料库的一部分,所以我使用了正则表达式^[^.]*$,它匹配所有不包含点的内容。如果这不能正确描述您的文件,请根据需要更改定义以包含所有语料库文件,但排除 cats.txt

    【讨论】:

    • corpus_root = 'C:/Users/nkumarn/PycharmProjects/taggedcorpus/' ___________________________________ reader = CategorizedTaggedCorpusReader(corpus_root,r'.*\.File',cat_file=r'.*\.txt')这就是我所做的。它没有工作
    • 好吧,它没有奏效也就不足为奇了。 cat_file 应该是文件名(带路径),而不是正则表达式。你真的把r'.*\.File'写成文件模式吗?下次,包括您的代码和您在问题中遇到的错误。不要再写这种懒惰的问题了,这不是我建议你改进的第一个问题。
    • 是的,我明白了,谢谢....我一定会提高我的提问标准。谢谢你的建议。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-12-14
    • 1970-01-01
    • 2022-12-03
    • 2015-09-13
    • 2016-10-27
    • 2012-05-14
    • 1970-01-01
    相关资源
    最近更新 更多