【问题标题】:Training a custom NER Model to identify entities训练自定义 NER 模型以识别实体
【发布时间】:2018-03-02 12:28:35
【问题描述】:

我们正在使用 NER 模型来识别 org、percent、money、number 等实体 - 我们想添加一个实体(我认为我们不能扩展模型)或构建另一个模型来标记这些实体(我们正在寻求对金融证券进行分类)。 我刚刚开始研究这个并使用了目前可用的模型。

我在看https://nlp.stanford.edu/software/crf-faq.shtml#a 要开始使用自定义模型,我需要查看示例数据文件吗?

这是否仍然意味着唯一可以标记的实体是已经可用的实体,例如组织、日期、金钱、位置...

是否需要对 java 文件进行任何更改,即我将从哪些文件开始以了解分类器的工作原理。

基本上对于一些文本,例如: 2.200% 2020 年 10 月 30 日到期的票据本金 1,500,000,000.00 美元 186,750.00 美元

I'd like to tag:
<security>2.200% Notes due October 30, 2020</security> the principal amount   $ 1,500,000,000.00   $ 186,750.00 

【问题讨论】:

    标签: stanford-nlp


    【解决方案1】:

    您可以使用以下格式训练新的序列标注器:

    Joe     PERSON
    Smith   PERSON
    was     O
    born    O
    in      O
    California   LOCATION
    .       O
    
    He      O
    works   O
    for     O
    Apple   ORGANIZATION
    .       O
    

    注意它应该是一个\t 将标记与标签分开。你可以使用任何你想要的标签。然后,统计标记器将能够应用它在训练数据中看到的标记。

    如果您在模型 jar 中查看此文件,您可以看到应该使用的属性文件的完整详细信息:

    edu/stanford/nlp/models/ner/english.all.3class.distsim.prop
    

    我应该注意,如果您尝试提取的内容遵循一些基本模式,那么使用基于规则的方法可能会获得更好的结果。

    以下是有关 StanfordCoreNLP 中基于规则的方法的一些文档:

    https://nlp.stanford.edu/software/tokensregex.html

    【讨论】:

      猜你喜欢
      • 2019-01-06
      • 1970-01-01
      • 1970-01-01
      • 2019-01-02
      • 2020-08-30
      • 2015-05-24
      • 1970-01-01
      • 1970-01-01
      • 2014-04-05
      相关资源
      最近更新 更多