大写文本上的命名实体识别答案

【问题标题】：Named Entity Recognition on Upper Case Text大写文本上的命名实体识别
【发布时间】：2016-05-18 15:44:11
【问题描述】：

如何从大写文本中提取实体。

我用-http://corenlp.run/

带有测试数据 - 我知道汤姆住在伦敦。

伦敦 - 位置 TOM - 未确定关系未确定

有测试数据 - 我知道汤姆住在伦敦。汤姆 - 人伦敦 - 位置正确识别关系。

如何改进？

【问题讨论】：

标签： nlp opennlp stanford-nlp

【解决方案1】：

我遇到了与您完全相同的问题。最好的方法是使用您自己的字典。这将比使用斯坦福 NER 快得多。

这里有一些来源。

http://deron.meranda.us/data/census-dist-female-first.txt (4275 entries)
http://deron.meranda.us/data/census-dist-male-first.txt (1219 entries)
http://deron.meranda.us/data/census-derived-all-first.txt

【讨论】：

【解决方案2】：

您可以尝试使用忽略大小写的无壳模型。但请确保您只在全部大写或小写的句子上使用此功能以获得最佳效果！

无壳模型在英文模型罐中可用。您可以在此处下载该模型 jar：http://stanfordnlp.github.io/CoreNLP/download.html

您需要设置“ner.model”参数才能使用无壳模型：

Properties props = new Properties();
props.setProperty("ner.model", "edu/stanford/nlp/models/ner/english.all.3class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.muc.7class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.conll.4class.caseless.distsim.crf.ser.gz");

我认为它可能是下一个 NER 系统中的一个很酷的新功能，可以自动检测句子是全大写还是全小写，并为这些句子使用无大小写模型。

【讨论】：