【发布时间】:2018-08-13 11:00:38
【问题描述】:
我经常看到 IOB 标记方案的变体,例如文献中提到的用于分块、NER 等的 IOB、BIO、IOBES。我尝试仅使用 BI 标记来检测二进制分类设置中的语素边界(分割)并获得了高 F1得分同时添加 O 标签给出了低得多的分数。只使用 BI 标签有什么缺点吗?为什么我没有看到有人在使用它?
【问题讨论】:
标签: nlp tagging text-segmentation named-entity-recognition
我经常看到 IOB 标记方案的变体,例如文献中提到的用于分块、NER 等的 IOB、BIO、IOBES。我尝试仅使用 BI 标记来检测二进制分类设置中的语素边界(分割)并获得了高 F1得分同时添加 O 标签给出了低得多的分数。只使用 BI 标签有什么缺点吗?为什么我没有看到有人在使用它?
【问题讨论】:
标签: nlp tagging text-segmentation named-entity-recognition
BI 或 IO 易于实施,但在 NER 任务中应该比 IOBES 差。
您是否尝试过使用其他标记方案?直观地说,更精细的方案更适合更长的序列。据报道,对于 NER,BIO 或 IOBES 达到了明显更好的 F1 分数或良好的经验法则。您还可以尝试 BILOU 或 BIL2,它们在 SOV 语言(日语、韩语、乌尔都语)上显示出良好的效果。
【讨论】: