标记和训练 NER 数据集答案

【问题标题】：Tagging and Training NER dataset标记和训练 NER 数据集
【发布时间】：2017-03-28 12:42:34
【问题描述】：

我有一个数据集，我想标记它以进行命名实体识别。我的数据集是波斯语的。我想知道我应该如何标记表达式：

*** آقای مهدی کاظمی = Mehdi Kazemi 先生 / Will Smith 先生。 >>>（带有标题的名称）我应该将所有人标记为一个人还是只标记名字和姓氏？（我的意思是我也应该标记“先生”）

先生 >> b_per ||先生 >> O

迈赫迪 >> i_per ||迈赫迪 >> b_per

风见 >> i_per ||风见 >> i_per

*** بیمارستان نور = Noor hospital >>> 我应该只标记名称还是将名称和医院都标记为命名实体？

***埃菲尔铁塔/国防部（我的意思是美国国防部）>>>在波斯语中它被称为： وزارت دفاع (vezarate defa) 我应该只标记 Defense 吗？还是一起？

还有更多关于学校、电影、城市、国家和....的示例，因为我们在命名实体之前使用实体类。

如果您能帮我标记这个数据集，我将不胜感激。

【问题讨论】：

【解决方案1】：

我会给你一些来自 CoNLL 2003 训练数据的例子：

“先生”未被标记为人物的一部分，因此标题被忽略。

“哥伦比亚长老会医院”被标记为 (LOC, LOC, LOC)

“纽约医院”（O, LOC, LOC, O）

“商务部”是（ORG，ORG，ORG）

我认为“埃菲尔铁塔”应该是（LOC，LOC）

【讨论】：

【解决方案2】：

一般来说，您标记为您希望输出的外观。例如，如果您想要包含标题，这取决于您。但是，Core NLP 不会标记重叠的实体，因此您必须针对以某人命名的医院等案例做出决定。

【讨论】：

【解决方案3】：

我相信你正在走向斯坦福 NLP 和 BIO 格式。但如果您还考虑其他选项，您可以查看结构化实体，例如：http://www.afcp-parole.org/etape/docs/etape-06022012-quaero-en.pdf。

这些允许将实体描述为树，为信息提取提供更精细的分析。注释更繁琐，但如果您打算将注释用于语义目的，而不仅仅是索引，则可能相关。

【讨论】：