【问题标题】:How to get training dataset of OpenNLP models?如何获取 OpenNLP 模型的训练数据集?
【发布时间】:2017-06-19 14:29:24
【问题描述】:

我正在使用以下 OpenNLP 模型:

en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin

我想将我的数据附加到训练这些模型的训练数据集中。那么请告诉我从哪里可以获得原始数据集?

【问题讨论】:

    标签: machine-learning nlp text-mining opennlp


    【解决方案1】:

    有可用的插件。使用此modelbuilder-addon 更新现有的 NER 模型并以更快的方式创建新模型。

    链接中的代码的作用是在您的句子中阅读,使用默认的 en-ner-person 模型来做到最好。然后它将这些结果写入一个好的命中文件和一个坏命中的文件。然后它将这些文件提供给底部的“modelbuilder-addon”调用。

    希望这会有所帮助!

    【讨论】:

    • 嘿!是否有任何示例如何使用它来更新现有的 OpenNLP 模型?
    • 嗨@iamgr007,谢谢,会检查。但是有没有模型构建器插件的 Maven 仓库?
    • 你能告诉我 getSentencesFromSomewhere() 是做什么的吗?它是否会分析正常的未注释句子?另一个问题,如果是这样,那么该文件中需要多少个句子列表,以便我可以从中制作出好的模型?
    • @AbhishekSengupta getSentencesFromSomewhere() 从您提供的数据集中获取句子,完全注释(必须进行适当的预处理),我猜句子数量没有限制,因为更多数据 = 好的模型.无论如何,尝试构建一个包含大量数据集的模型。如果某些东西不能锻炼,请检查 opennlp 文档是否有任何限制。
    【解决方案2】:

    official OpenNLP manualChunker Training 部分提到了对用于训练 EN 语言模型文件的原始数据的引用:

    可以将训练数据转换为基于CoNLL2000的OpenNLP chunker训练格式。

    您还可以找到其他参考资料,例如,第 12 章。语料库,用于 OpenNLP 中/用于 OpenNLP 的外部资源。

    此外,可能对 CoNLL2003 语料库感兴趣:

    英文数据是路透社语料库,它是新闻通讯文章的集合。路透社语料库可从 NIST 免费获得用于研究目的:http://trec.nist.gov/data/reuters/reuters.html

    希望对你有帮助。

    【讨论】:

    • 您能否帮助我了解如何使用 openNLP API 通过我自己的样本数据训练现有的 NER 模型?
    • 恐怕这是StOf上的另一个问题。我为您提供了“从哪里可以获得原始数据集”这个问题的答案。恕我直言,它给出了一个有效且可接受的答案。您可以考虑提出一个新的、单独的问题,我会看看。
    • 我有路透社数据集,但现在我只想知道如何继续,将我自己的数据附加到其中。
    猜你喜欢
    • 1970-01-01
    • 2017-12-01
    • 2020-09-26
    • 1970-01-01
    • 2014-09-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多