【发布时间】:2017-03-28 12:42:34
【问题描述】:
我有一个数据集,我想标记它以进行命名实体识别。我的数据集是波斯语的。 我想知道我应该如何标记表达式:
*** آقای مهدی کاظمی = Mehdi Kazemi 先生 / Will Smith 先生。 >>>(带有标题的名称)我应该将所有人标记为一个人还是只标记名字和姓氏? (我的意思是我也应该标记“先生”)
先生 >> b_per ||先生 >> O
迈赫迪 >> i_per ||迈赫迪 >> b_per
风见 >> i_per ||风见 >> i_per
*** بیمارستان نور = Noor hospital >>> 我应该只标记名称还是将名称和医院都标记为命名实体?
***埃菲尔铁塔/国防部(我的意思是美国国防部)>>>在波斯语中它被称为: وزارت دفاع (vezarate defa) 我应该只标记 Defense 吗?还是一起?
还有更多关于学校、电影、城市、国家和....的示例,因为我们在命名实体之前使用实体类。
如果您能帮我标记这个数据集,我将不胜感激。
【问题讨论】:
标签: tags nlp stanford-nlp named-entity-recognition named-entity-extraction