【发布时间】:2017-06-19 14:29:24
【问题描述】:
我正在使用以下 OpenNLP 模型:
en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin
我想将我的数据附加到训练这些模型的训练数据集中。那么请告诉我从哪里可以获得原始数据集?
【问题讨论】:
标签: machine-learning nlp text-mining opennlp
我正在使用以下 OpenNLP 模型:
en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin
我想将我的数据附加到训练这些模型的训练数据集中。那么请告诉我从哪里可以获得原始数据集?
【问题讨论】:
标签: machine-learning nlp text-mining opennlp
有可用的插件。使用此modelbuilder-addon 更新现有的 NER 模型并以更快的方式创建新模型。
链接中的代码的作用是在您的句子中阅读,使用默认的 en-ner-person 模型来做到最好。然后它将这些结果写入一个好的命中文件和一个坏命中的文件。然后它将这些文件提供给底部的“modelbuilder-addon”调用。
希望这会有所帮助!
【讨论】:
official OpenNLP manual 的 Chunker Training 部分提到了对用于训练 EN 语言模型文件的原始数据的引用:
可以将训练数据转换为基于CoNLL2000的OpenNLP chunker训练格式。
您还可以找到其他参考资料,例如,第 12 章。语料库,用于 OpenNLP 中/用于 OpenNLP 的外部资源。
此外,可能对 CoNLL2003 语料库感兴趣:
英文数据是路透社语料库,它是新闻通讯文章的集合。路透社语料库可从 NIST 免费获得用于研究目的:http://trec.nist.gov/data/reuters/reuters.html
希望对你有帮助。
【讨论】: