【发布时间】:2016-05-18 15:44:11
【问题描述】:
如何从大写文本中提取实体。
带有测试数据 - 我知道汤姆住在伦敦。
伦敦 - 位置 TOM - 未确定 关系未确定
有测试数据 - 我知道汤姆住在伦敦。 汤姆 - 人 伦敦 - 位置 正确识别关系。
如何改进?
【问题讨论】:
标签: nlp opennlp stanford-nlp
如何从大写文本中提取实体。
带有测试数据 - 我知道汤姆住在伦敦。
伦敦 - 位置 TOM - 未确定 关系未确定
有测试数据 - 我知道汤姆住在伦敦。 汤姆 - 人 伦敦 - 位置 正确识别关系。
如何改进?
【问题讨论】:
标签: nlp opennlp stanford-nlp
我遇到了与您完全相同的问题。最好的方法是使用您自己的字典。这将比使用斯坦福 NER 快得多。
这里有一些来源。
http://deron.meranda.us/data/census-dist-female-first.txt (4275 entries)
http://deron.meranda.us/data/census-dist-male-first.txt (1219 entries)
http://deron.meranda.us/data/census-derived-all-first.txt
【讨论】:
您可以尝试使用忽略大小写的无壳模型。但请确保您只在全部大写或小写的句子上使用此功能以获得最佳效果!
无壳模型在英文模型罐中可用。您可以在此处下载该模型 jar:http://stanfordnlp.github.io/CoreNLP/download.html
您需要设置“ner.model”参数才能使用无壳模型:
Properties props = new Properties();
props.setProperty("ner.model", "edu/stanford/nlp/models/ner/english.all.3class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.muc.7class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.conll.4class.caseless.distsim.crf.ser.gz");
我认为它可能是下一个 NER 系统中的一个很酷的新功能,可以自动检测句子是全大写还是全小写,并为这些句子使用无大小写模型。
【讨论】: