训练自定义 NER 模型以识别实体答案

【问题标题】：Training a custom NER Model to identify entities训练自定义 NER 模型以识别实体
【发布时间】：2018-03-02 12:28:35
【问题描述】：

我们正在使用 NER 模型来识别 org、percent、money、number 等实体 - 我们想添加一个实体（我认为我们不能扩展模型）或构建另一个模型来标记这些实体（我们正在寻求对金融证券进行分类）。我刚刚开始研究这个并使用了目前可用的模型。

我在看https://nlp.stanford.edu/software/crf-faq.shtml#a 要开始使用自定义模型，我需要查看示例数据文件吗？

这是否仍然意味着唯一可以标记的实体是已经可用的实体，例如组织、日期、金钱、位置...

是否需要对 java 文件进行任何更改，即我将从哪些文件开始以了解分类器的工作原理。

基本上对于一些文本，例如： 2.200% 2020 年 10 月 30 日到期的票据本金 1,500,000,000.00 美元 186,750.00 美元

I'd like to tag:
<security>2.200% Notes due October 30, 2020</security> the principal amount   $ 1,500,000,000.00   $ 186,750.00

【问题讨论】：

标签： stanford-nlp

【解决方案1】：

您可以使用以下格式训练新的序列标注器：

Joe     PERSON
Smith   PERSON
was     O
born    O
in      O
California   LOCATION
.       O

He      O
works   O
for     O
Apple   ORGANIZATION
.       O

注意它应该是一个\t 将标记与标签分开。你可以使用任何你想要的标签。然后，统计标记器将能够应用它在训练数据中看到的标记。

如果您在模型 jar 中查看此文件，您可以看到应该使用的属性文件的完整详细信息：

edu/stanford/nlp/models/ner/english.all.3class.distsim.prop

我应该注意，如果您尝试提取的内容遵循一些基本模式，那么使用基于规则的方法可能会获得更好的结果。

以下是有关 StanfordCoreNLP 中基于规则的方法的一些文档：

https://nlp.stanford.edu/software/tokensregex.html

【讨论】：