如何获取 OpenNLP 模型的训练数据集？答案

【问题标题】：How to get training dataset of OpenNLP models?如何获取 OpenNLP 模型的训练数据集？
【发布时间】：2017-06-19 14:29:24
【问题描述】：

我正在使用以下 OpenNLP 模型：

en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin

我想将我的数据附加到训练这些模型的训练数据集中。那么请告诉我从哪里可以获得原始数据集？

【问题讨论】：

【解决方案1】：

有可用的插件。使用此modelbuilder-addon 更新现有的 NER 模型并以更快的方式创建新模型。

链接中的代码的作用是在您的句子中阅读，使用默认的 en-ner-person 模型来做到最好。然后它将这些结果写入一个好的命中文件和一个坏命中的文件。然后它将这些文件提供给底部的“modelbuilder-addon”调用。

希望这会有所帮助！

【讨论】：

嘿！是否有任何示例如何使用它来更新现有的 OpenNLP 模型？
签出我的存储库：github.com/iamgr007/srae/blob/master/src/training/…
嗨@iamgr007，谢谢，会检查。但是有没有模型构建器插件的 Maven 仓库？
你能告诉我 getSentencesFromSomewhere() 是做什么的吗？它是否会分析正常的未注释句子？另一个问题，如果是这样，那么该文件中需要多少个句子列表，以便我可以从中制作出好的模型？
@AbhishekSengupta getSentencesFromSomewhere() 从您提供的数据集中获取句子，完全注释（必须进行适当的预处理），我猜句子数量没有限制，因为更多数据 = 好的模型.无论如何，尝试构建一个包含大量数据集的模型。如果某些东西不能锻炼，请检查 opennlp 文档是否有任何限制。

【解决方案2】：

official OpenNLP manual 的 Chunker Training 部分提到了对用于训练 EN 语言模型文件的原始数据的引用：

可以将训练数据转换为基于CoNLL2000的OpenNLP chunker训练格式。

您还可以找到其他参考资料，例如，第 12 章。语料库，用于 OpenNLP 中/用于 OpenNLP 的外部资源。

此外，可能对 CoNLL2003 语料库感兴趣：

英文数据是路透社语料库，它是新闻通讯文章的集合。路透社语料库可从 NIST 免费获得用于研究目的：http://trec.nist.gov/data/reuters/reuters.html

希望对你有帮助。

【讨论】：

您能否帮助我了解如何使用 openNLP API 通过我自己的样本数据训练现有的 NER 模型？
恐怕这是StOf上的另一个问题。我为您提供了“从哪里可以获得原始数据集”这个问题的答案。恕我直言，它给出了一个有效且可接受的答案。您可以考虑提出一个新的、单独的问题，我会看看。
我有路透社数据集，但现在我只想知道如何继续，将我自己的数据附加到其中。