【发布时间】:2018-04-06 04:58:46
【问题描述】:
我想训练一个自己的模型以在OpenNLP NameFinder 中使用。
搜索了很多,最后想出了一个可以训练模型的工作代码,但它并不准确。文档还说你需要 15000 个句子才能有一个准确的模型。
因此,每次<START> <END> 时,您都需要有 15000 个具有良好上下文和名称的句子。为此,您将不得不花费数小时
写.txt file.的天/月
我做了一些进一步的搜索来训练一个模型,而不是你自己写的全部内容,然后来到Custom Feature generation of OpenNLP。
http://opennlp.apache.org/docs/1.8.1/manual/opennlp.html#tools.namefind.training.tool
但它并没有说明如何使用它。文档给出了这个:
AdaptiveFeatureGenerator featureGenerator = new CachedFeatureGenerator(
new AdaptiveFeatureGenerator[]{
new WindowFeatureGenerator(new TokenFeatureGenerator(), 2, 2),
new WindowFeatureGenerator(new TokenClassFeatureGenerator(true), 2, 2),
new OutcomePriorFeatureGenerator(),
new PreviousMapFeatureGenerator(),
new BigramNameFeatureGenerator(),
new SentenceFeatureGenerator(true, false)
});
有人知道怎么用吗?或者更好的是,是否有人已经成功地为OpenNLP NER 训练了自己的模型,而无需自己输入数据集?
提前致谢。
【问题讨论】:
标签: java machine-learning opennlp named-entity-recognition