【问题标题】:BILOU Tagging scheme for multi-word entities in Spacy's NERSpacy NER 中多词实体的 BILOU 标记方案
【发布时间】:2021-12-27 06:45:36
【问题描述】:

我正在使用 spacy 构建自定义 NER,以识别除了 spacy 的 NER 之外的新实体。现在我可以使用 spacy.Example 标记和添加我的训练数据。我正在使用 BILOU 方案。我怀疑我有超过 3 个单词的实体。例如:

Housing Development Finance Corporation reported heavy losses in the past quarter.

我想使用 BILOU 方案将 Housing Development Finance Corporation 标记为单一实体。类似的东西

'Housing'     B-Entity
'Development' I-Entity
'Finance'     I-Entity
'Corporation' L-Entity

此标记是否正确?模型将如何解释每个实体中的顺序?任何指导将不胜感激。

【问题讨论】:

  • 您可能想查看一些 BILOU 格式的示例数据,以了解事物的外观。特别是不应引用单词,并且每个单词 - 不仅仅是实体 - 都需要一个标签。

标签: python nlp named-entity-recognition spacy-3


【解决方案1】:

您的标记是正确的,而所有不是实体的外部单词都将标记为O

模型将依赖于实体中的相同顺序,以将其与先前的同名实体匹配,例如:

'Housing'     B-Entity
'Development' I-Entity
'Finance'     I-Entity
'Corporation' L-Entity

'Housing'     B-Entity
'Finance'     I-Entity
'Development' I-Entity
'Corporation' L-Entity

不会链接为同一个实体,但如果您希望如此,您可以查看分类模型,将您的 foud 实体分类为您以前已知的实体并从那里开始工作。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-02-06
    • 1970-01-01
    • 1970-01-01
    • 2017-11-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多