【问题标题】:Editing the NLTK Corpus编辑 NLTK 语料库
【发布时间】:2015-03-11 20:13:56
【问题描述】:

除了 nltk 附带的语料库之外,我还想用我自己的语料库来训练它,它遵循相同的词性规则。如何找到它正在使用的语料库,以及如何添加我自己的语料库(另外,不作为替代)?

编辑:这是我目前使用的代码:

inpy = raw_input("$")
text = nltk.word_tokenize(inpy)
d = nltk.pos_tag(text)

【问题讨论】:

    标签: python nltk corpus tagged-corpus


    【解决方案1】:

    NLTK 带有大量不同的语料库。如果您更详细地指定要扩充的语料库,将会有所帮助。 NLTK 中主要的英语 POS 语料库是Brown corpus。另请参阅 http://www.nltk.org/book/ch05.html 以及 http://en.wikipedia.org/wiki/Brown_Corpushttp://www.nltk.org/nltk_data/

    【讨论】:

    • 我正在使用 UPenn 标签集(我相信。我不是 100% 确定)。我不想增加它们,而是添加一个语料库,这样当它训练分类器时,它可以更准确。
    • 那么它可能是宾夕法尼亚树库的片段; #17 来自最后一个链接。然后,您实际上可能会更好地完全更换它,因为它相当陈旧且坚韧不拔。谷歌搜索英语树库语料库。
    • stackoverflow.com/questions/8949517/…catalog.ldc.upenn.edu/LDC2012T13 在 Google 搜索结果中排名靠前。
    猜你喜欢
    • 2014-12-02
    • 2022-01-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-05-15
    • 2014-11-23
    相关资源
    最近更新 更多