【发布时间】:2021-06-13 18:32:51
【问题描述】:
NER 最常见的标记过程是 IOB。但似乎这种标记仅限于来自同一实体的标记连续的情况。
例如,
Jane Smith is walking in the park 将被标记为:B-PER I-PER O O O O O
这里我的 PER 实体是 [Jane, Smith] 的串联
如果我们调整示例:
Jane and James Smith are walking in the park
B-PER O B-PER I-PER O O O O O
现在的问题是我们将获得的实体是 [Jane] 和 [James, Smith],因为 IOB 标记不允许将 Jane 链接到 Smith。
是否有任何标记架构允许将[Jane, Smith] 和[James, Smith] 标记为实体?
【问题讨论】:
-
我查看了GENIA语料库,但似乎不是同一个问题。在 Genia 中,嵌套实体看起来像是一个实体包含在另一个实体中(但不是同一类型的实体)。在我的问题中,基本上有 2 个相同类型的独立实体在一个令牌上重叠,但它们本身并不是嵌套的
标签: deep-learning nlp pytorch named-entity-recognition