ERNIE模型介绍

ERNIE1.0

ERNIE1.0的论文：https://arxiv.org/pdf/1904.09...

ERNIE系列的代码：https://github.com/PaddlePadd...

ERNIE1.0的预训练代码可以查看https://github.com/PaddlePadd...

ERNIE1.0使用的是BERT作为backbone，但相比于bert，

1）ERNIE1.0使用了三个level的mask策略，增加了预训练难度，让模型学到了更多知识。

2）ERNIE1.0新增了DLM(Dialogue Language Model )任务。

3）使用了更多类型的训练数据。

ERNIE1.0三个level的mask分别是basic-level masking、phrase-level masking和entity-level masking。而bert只是使用了basic-level masking。

basic-level masking以字为单位进行masking。

phrase-level masking以短语为单位进行masking。

entity-level masking以实体为单位进行masking。

ERNIE2.0

ERNIE2.0的论文：https://arxiv.org/abs/1907.12412

ERNIE系列的代码：https://github.com/PaddlePadd...

ERNIE2.0的主要贡献在于：

提出了支持continual multi-task learning的ERNIE framework。
提出了三种无监督类型的任务：word-aware pretraining task，struture-aware pretraining task , semantic-aware pretraining task
ERNIE frame支持continual multi-task learning。传统的multi-task learning从0开始学习（下图中），传统的continual learning依次训练task1、task2、.... taskn（下图右）。而continual multi-task learning 依次添加新任务，但是每来一个任务仍会和旧任务组合成multi-task learning（下图左）。

continal multi-task learning是在预训练中使用的。在finetune中，只需要加载相应的结构，针对特定的任务finetune，形成相应任务的finetune模型。

ERNIE3.0

ERNIE3.0的论文：ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

ERNIE系列的代码：https://github.com/PaddlePadd...

ERNIE3.0相比与ERNIE2.0,

1.在模型结构上提出了Universal Representation和Task-specific Representation。

2.在2.0的基础之上继续探索continual multi-task learning，继续使用word-aware pretraining task、structure-aware pretraing task，但同时新增了knowledge-aware pretraining task。

3.参数量增大到了10 billion，ERNIE3.0使用了progressive training以及更多的训练数据。

模型结构：Universal Representation和Task-specific Representation

ERNIE模型介绍

ERNIE1.0

ERNIE2.0

ERNIE3.0

话歪之地

引用和评论

百度搜索创新大赛，一场2800人的技术狂欢