【问题标题】:Tagging and Training NER dataset标记和训练 NER 数据集
【发布时间】:2017-03-28 12:42:34
【问题描述】:

我有一个数据集,我想标记它以进行命名实体识别。我的数据集是波斯语的。 我想知道我应该如何标记表达式:

*** آقای مهدی کاظمی = Mehdi Kazemi 先生 / Will Smith 先生。 >>>(带有标题的名称)我应该将所有人标记为一个人还是只标记名字和姓氏? (我的意思是我也应该标记“先生”)

先生 >> b_per ||先生 >> O

迈赫迪 >> i_per ||迈赫迪 >> b_per

风见 >> i_per ||风见 >> i_per

*** بیمارستان نور = Noor hospital >>> 我应该只标记名称还是将名称和医院都标记为命名实体?

***埃菲尔铁塔/国防部(我的意思是美国国防部)>>>在波斯语中它被称为: وزارت دفاع (vezarate defa) 我应该只标记 Defense 吗?还是一起?

还有更多关于学校、电影、城市、国家和....的示例,因为我们在命名实体之前使用实体类。

如果您能帮我标记这个数据集,我将不胜感激。

【问题讨论】:

    标签: tags nlp stanford-nlp named-entity-recognition named-entity-extraction


    【解决方案1】:

    我会给你一些来自 CoNLL 2003 训练数据的例子:

    “先生”未被标记为人物的一部分,因此标题被忽略。

    “哥伦比亚长老会医院”被标记为 (LOC, LOC, LOC)

    “纽约医院”(O, LOC, LOC, O)

    “商务部”是(ORG,ORG,ORG)

    我认为“埃菲尔铁塔”应该是(LOC,LOC)

    【讨论】:

      【解决方案2】:

      一般来说,您标记为您希望输出的外观。例如,如果您想要包含标题,这取决于您。但是,Core NLP 不会标记重叠的实体,因此您必须针对以某人命名的医院等案例做出决定。

      【讨论】:

      • 感谢您的回答。
      【解决方案3】:

      我相信你正在走向斯坦福 NLP 和 BIO 格式。但如果您还考虑其他选项,您可以查看结构化实体,例如:http://www.afcp-parole.org/etape/docs/etape-06022012-quaero-en.pdf

      这些允许将实体描述为树,为信息提取提供更精细的分析。注释更繁琐,但如果您打算将注释用于语义目的,而不仅仅是索引,则可能相关。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2018-05-06
        • 2020-10-16
        • 2021-07-30
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2023-02-17
        • 1970-01-01
        相关资源
        最近更新 更多