Named Entity Recognition with Partially Annotated Training Data论文笔记
1. Introduction
在一些语料资源匮乏的语种中,可用的数据可能只是部分标注的(部分NE正确标注,部分NE被标注为O),如下图所示:
其中标签为NE的token可视为positive instance,标签为O的的token被视为negtive instance,被错分为O的NE就称为False Negative。本文提出了一种基于约束驱动的迭代算法(constraint-driven iterative algorithm)来学习发现噪声数据中的Negative False样例并降低他们的权重,从而降低噪声在训练时对NER模型的影响。
2. Content
2.1 Constrained Binary Learning
本文提出的方法称为CBL,与之相似的已有工作为CoDL:Constraint Driven Learning(Chang et al, 2007)。该方法的目的是对所有标记为O的tokens赋予一个权重,false negative的具有较低(接近0)的权重,而其它O则具有较高的权重(接近1)。
解决训练样本中带有噪声的方法一般有两种:
(1)找到false negative样例并更正他们的标签。
(2)找到false negative样例并剔除他们。
本文采用了第(2)种方法,这是由于O标签的token在训练数据集中占据多数,即使错误地剔除一部分O也不会造成明显负面影响。
CBL分为两个阶段:
(1)模仿CoDL,采用约束循环算法训练一个二元分类器$\lambda$,训练流程是一个train-predict-infer循环,如下所示:
(2)使用训练好的二元分类器$\lambda$对每个样例赋予权重,公式如下:
$$ v_i= \begin{cases} 1.0 & if \ x_i \in P\\ P_\lambda(y_i=O|x_i) & if \ x_i \in N\\ \end{cases} $$
2.2 NER with CBL
本文的一个贡献是上述流程的inference step(第6行),使用了Integer Linear Program(ILP),其中约束是基于实体比例b(entity ratio),公式为:
$$b = \frac{|P|}{|P| + |N|}$$
已有工作显示,在fully-annotated数据集中实体率一般为$0.09 \pm 0.05$。
对于带权重的训练集,实体率可用如下公式计算:
$$b = \frac{|P|}{|P| + \sum_{i \in N}v_i}$$
还可以通过乘于一个$\gamma$因子来修改实体率,公式如下:
$$b^* = \frac{|P|}{|P| + \gamma\sum_{i \in N}v_i}$$
可计算$\gamma$为:
$$\gamma = \frac{(1-b^{*})|P|}{b^*\sum_{i \in N}v_i}$$
为了获得目标实体率$b^*$,我们可以将$N$中样例权重乘于放缩因子$\gamma$,得到:
$$v^* = \gamma v_i$$
2.3 Constraints and Stopping Condition
约束条件ILP如下图所示:
等式(8)中$y_{0i}$和$y_{1i}$分别表示token $i$对应的是negative还是positive标签。$C_{0i}$和$C_{1i}$根据二元分类器$\lambda$的最后一次预测分数得到。$\delta$表示允许较小的软间隔,$\xi \geq 0.99$。
2.4 NER Models
NER模型使用了以下两种:
(1)非神经网络模型:Cogcomp NER(Ratinov and Roth, 2009; Khashabi et al., 2018),使用了Ratinov and D. Roth. 2009. Design challenges and misconceptions in named entity recognition中的特征,更改了权重更新公式:
$$\textbf{w} = \textbf{w} + \alpha v_iy_i(\textbf{w}^Tx_i)$$
(2)神经网络模型:基于BiLSTM-CRF,为了将权重加入到CRF训练中,参考了Zhanming Jie, et al. 2019. Better modeling of incomplete annotations for named entity recognition的方法,公式如下:
3. Datasets
使用了如下8中语言的数据集,并根据以下两种人工扰动(Artificial Perturbation)策略模拟噪声:
(1)降低recall,通过将某些实体全部替换成O得到,直到得到满足要求的recall;
(2)降低precision,在随机的起始位置并且选择随机1-3的长度作为一个NE,直到得到满足要求precision。
4. Summary
本文提出了一种基于约束驱动的迭代算法CBL对部分标注数据赋予权重,以降低错误分类的Negative False样例在训练NER模型时的影响。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。