Few-shot Learning for Named Entity Recognition in Medical Text笔记

1. Summary

本文对Electronic health records的一些数据集进行了命名实体识别研究。在利用其它相关数据集的基础上,对target dataset只采集10个样例进行few-shot learning,提出了五种提升性能的方法(tricks):
(1)layer-wise initialization with pre-trained weights
(2)hyperparameter tuning
(3)combining pre-training data
(4)custom word embeddings
(5)optimizing out-of-vocabulary (OOV) words

2. Content

本文所用数据集如下,主要是医学领域数据集+CoNLL-2003英语新闻专线数据集。
image.png


文章使用的baseline model是J. Chiu et al.提出的BLSTM-CNNs,亮点是拼接了character、word和casing embedding,其中casing embedding主要包括numeric, allLower, allUpper, mainly_numeric (more than 50% of characters of a word are numeric), initialUpper, contains_digit, padding and other。


5种提升性能的tricks如下:
(1)Single pre-training:使用其它单个数据集分别预训练,并设置了对比实验:所有层使用预训练权重、仅BLSTM使用、所有层除BLSTM、不使用预训练权重。
(2)Hyperparameter tuning:包括optimizers、pre-training dataset、SGD learning rate、batch normalization(是否使用)、word embedding(是否trainable)以及learning rate decay (constant or time scheduled)。
(3)Combined pre-training:利用多个数据集串联预训练模型,并在目标数据集训练时加载权重。
(4)Customized word embeddings:word embedding是否使用GloVE或者在医药数据集上重新用FastText训练。
(5)Optimizing OOV words:Remove trailing “:”, “;”, “.” and “-”、Remove quotations、Remove leading “+”


五种优化方法结果如下:
(1)Single pre-training:F1-score提升+4.52%。
(2)Hyperparameter tuning:优化器选择最重要(NAdam>>SGD), 第二重要的是预训练数据集的选择(+2.34%)。
(3)Combined pre-training:多数据串联预训练,负作用-1.85%。
(4)Customizing word embeddings:自训练word embedding提升+3.78%。
(5)Optimizing OOV words:提升+0.87%。

NLP小萌新

0 声望
0 粉丝
0 条评论
推荐阅读
A Frustratingly Easy Approach论文简记
本文是陈丹琦博士关于实体识别与关系抽取的一篇论文,文本使用了一种pipeline的方式而非joint learning的方式超越了之前的一众模型,在数据集ACE04/05、SciERC达到SOTA。其中:

Mecthew阅读 1.9k

【如何提高IT运维效率】深度解读京东云基于NLP的运维日志异常检测AIOps落地实践
日志在IT行业中被广泛使用,日志的异常检测对于识别系统的运行状态至关重要。解决这一问题的传统方法需要复杂的基于规则的有监督方法和大量的人工时间成本。我们提出了一种基于自然语言处理技术运维日志异常检测...

京东云开发者阅读 385

封面图
10w+训练标签?成本太高!PaddleNLP情感分析赋能消费“回暖”
随着餐饮行业进入线上线下、堂食外卖并重的“双主场”时代,面对铺天盖地的用户评论数据,如何用数字化手段优化经营成为餐饮企业降本增效的关键。今天带来的分享案例是黑蚁资本如何借助PaddleNLP情感分析技术开发了...

飞桨PaddlePaddle阅读 240

封面图
我在京东做研发丨当ChatGPT“遇上”垂直搜索:看金融搜索问答NLP应用
新版Bing搜索引擎率先拥抱ChatGPT并火速上线ChatGPT带来的浪潮为垂直搜索又会带来什么新机遇?京东搜索问答技术专家详细分享ChatGPT与搜索引擎的异同NLP在垂直领域搜索问答的落地实践“ChatBot+搜索引擎”融合模式...

京东云开发者阅读 239

封面图
通用信息抽取技术UIE产业案例解析,Prompt范式落地经验分享!
想了解用户的评价究竟是“真心夸赞”还是“阴阳怪气”? 想快速从多角色多事件的繁杂信息中剥茧抽丝提取核心内容? 想通过聚合相似事件准确地归纳出特征标签? …… 想了解UIE技术在产业中的实战落地经验?通用信息抽取...

飞桨PaddlePaddle阅读 136

【NLP 系列】Bert 词向量的空间分布
我们知道Bert 预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果,但在语义相似度任务上,表现相较于 Word2Vec、Glove 等并没有明显的提升。有学者研究发现,这是因为 Bert 词向量存在各向异性(不同...

京东云开发者阅读 71

封面图

NLP小萌新

0 声望
0 粉丝
宣传栏