关系抽取相关论文笔记

a frustratingly easy approach for joint entity and relation extraction

文章链接：https://arxiv.org/pdf/2010.12812.pdf

时间：2020.10.24挂到arxiv上

作者：陈丹琦

简介：做关系抽取的，用pipeline的方式，包括两个步骤：先训练好一个NER，然后用人工标注的数据训练关系抽取模型。其中NER是Span-level，并没有很多改进，主要改进是在关系抽取阶段。代码还没有开源。

关系抽取方面的改进：在文本中插入实体的相关信息（包括S:Subject,O:Object，以及实体的类型信息关系抽取相关论文笔记，符号表示是、、、，文中称这些符号为mask，这里沿用），如图１（b）所示。文本的token只能attention到文本的token，但Mask token可以attention到所有的token

关系抽取相关论文笔记

但是呢，这需要对每个实体对都做一次预测，实在是太浪费时间了，所以提出了图１（c)的方法：把所有的实体对拼接到句子的后面。这样做虽然会重复一些实体，使得样本变长，但是效果会有提高，作者认为：对于不同的关系，每个实体的表示应该是不同的。

其他trick：

用到了sentence-cross，就是把上下句中的字拼接到输入中，这么做对于指代较多的样本很好。

没有让ＮＥＲ和ＲＥ共享参数，作者做了实验，发现共享参数会导致两个模型的ｆ１下降，作者认为这是因为两个任务的关注的点不同，所以输入应该是不一样的。

这篇论文的优秀解读：https://zhuanlan.zhihu.com/p/274938894