A Frustratingly Easy Approach论文简记

概述

本文是陈丹琦博士关于实体识别与关系抽取的一篇论文，文本使用了一种pipeline的方式而非joint learning的方式超越了之前的一众模型，在数据集ACE04/05、SciERC达到SOTA。其中：

NER使用span-based的模型而非传统序列标注模型（即将句子中所有长度小于等于N的span聚集成一个候选集，再对候选集作分类，每个候选span根据模型生成一个对应的embedding表示）。
RE使用“实体边界+实体类型”方法修改输入句子。

利用Cross-sentence context可以有效提升NER和RE的性能，具体实现方法是直接将句子的上文和下文截取后拼接到句子中。上下文长度由$(W − n)=2$计算得到，$W$在实验中取100，$n$为句子长度。
NER模型由预训练模型（Bert、AlBert）作为Encoder，再接两层的FFNN以及最后的sofrmax层。
RE模型由预训练模型（Bert、AlBert）加一层softmax层得到。其中<S:Method>,</S:Method>,<O:Task>,</O:Task>融汇了实体边界与实体类型加入到句子中。
为了解决entity pair需要两两配对输入到RE模型分类的巨大时间开销，本文提出了一种近似的方法：不在原句子中加入“实体边界+实体类型”的标识符，而是将它们拼接到句子最后面，并用Position embedding共享原实体位置对应，同时设置attention掩码使得其只能attend到原句子而不会看到后面拼接的标识符。该方法目的是复用句子中所有token的隐向量，使得句子token和标识符marker相互独立。
具体例子如下：