人工智能超大规模预训练模型浅谈

中国信息通信研究院近日发布了《人工智能白皮书(2022年)》，白皮书指出人工智能进入了新的发展阶段，将向技术创新、工程实践、可信安全”三维”坐标来定义和牵引。算法、算力和数据被认为是人工智能发展的三驾马车。在算法层面，超大规模预训练模型成为近两年最受关注的热点之一，不断刷新各个记录，其中百度ERNIE3.0模型在自然语言理解任务的综合评分（GLUE）已达90%以上，高居世界第一。

01 .人工智能发展历史

1941年世界第一台计算机诞生15年后，香农、赫伯特西蒙等大佬参加的”达特茅斯会议”第一次出现了人工智能这个术语，被认为是人工智能的正式诞生。第一个人工智能的浪潮，科学家们雄心勃勃，希望写出伟大的算法来模拟人类的思想过程。但是算力的问题导致设计再精妙的算法也算不动。在沉寂十年时候，算力推动了第二波人工智能的浪潮，1982年日本和美国都投入巨资研发第五代计算机即”人工智能计算机”，希望一举突破人工智能在算力上的限制。仅仅几年后，科学家们发现即使芯片按照摩尔定律的速度发展仍然满足不了算力的要求，但是没有数据输入到算法，导致第二波人工智能浪潮也沉寂了。

得益于深度学习等算法的突破、算力的不断提升和海量数据的持续积累，人工智能得以真正的从实验室走向产业实践。2016年的阿尔法狗击败了围棋世界冠军李世石，代表了新一代的人工智能，依赖机器学习就可以自成大师，甚至能自创人类经验中从来没有的新棋路，深度学习实现了人工智能的一次飞跃。

02.预训练是什么

如果我们把人工智能算法模型的能力用高中水平、大学水平类比的话，之前为了训练一个领域的模型，我们需要从幼儿园开始训练，直至到该领域的水平才行，比如需要训练到大学水平。这个训练的周期会很长，同时意味着付出的成本也较高。

预训练是将大规模低成本获取的训练数据放到一起，通过预训练的方法来学习某种共性，比如达到了高中水平。如果某个领域需要大学生水平的模型，那么就需要根据该领域的特殊标记数据进行微调，从而产生该领域的特殊模型，高中水平的模型即大模型。

要想训练出一个大模型，除了算法，还需要超大规模的数据与超大规模的算力，意味着需要花费非常多的钱，一般只有大厂才可以做大模型。

03.预训练显著降低了人工智能应用的门槛

以深度学习为代表的算法拉开了人工智能浪潮的序幕，在计算机视觉、智能语音、自然语言处理等领域广泛应用，相继超过了人类识别水平。

预训练出现前，大规模深度学习的在自然语言处理领域的应用门槛相对还是比较高，模型效果非常强依赖个人的能力。预训练模型能够极大的降低这个环节的成本和门槛。预训练模型使得模型的训练可以被复用，也就大幅度降低了训练的成本，比如我们基于通用大模型可以低成本的扩展出金融领域的专用模型。预训练模型是一种迁移学习的应用，对句子每一个成员的上下文进行相关的表示，通过隐式的方式完成了语法语义知识的学习。预训练模型几乎在所有的自然语言处理任务中都取得了不错的成绩，同时预训练模型通过微调的方式具备很强的扩展性，每次在扩展到新场景时，只需要针对这个场景的特定标注数据进行定向的学习，便可以快速的在这个场景进行应用，对机器学习人员的要求大大降低。

对大模型在产研实践感兴趣或者有需求的同学，可以去百度文心官方阅读更多学习资料，上手工具来开始大模型之旅。官方地址：https://wenxin.baidu.com/

04.预训练大模型为什么可以得到快速应用

整体来说，大模型在过去两年得到了快速的发展，也在工业界得到了快速的应用。虽然深度学习使得很多领域的准确率得到很大的提升，但是AI模型目前存在很多挑战，最首要的问题是模型的通用性不高，每个模型都是针对特定的某个领域进行训练的，应用到其他领域的时候，效果并不好。

模型碎片化，大模型提供预训练方案
大模型提供了一种通用化的解决方案，通过“预训练大模型+下游任务微调”的方式，可以有效地从大量标记和未标记的数据中捕获知识，极大地扩展了模型的泛化能力。例如，在NLP领域，预训练大模型共享了预训任务和部分下游任务的参数，在一定程度上解决了通用性的难题，可以被应用于翻译，问答，文本生成等自然语言任务。

通过自监督学习功能，降低训练研发成本
大模型的自监督学习方法，可以减少数据标注，在一定程度上解决了人工标注成本高、周期长、准确度不高的问题。由于减少了数据标准的成本，使得小样本的学习也能达到比以前更好的能力，并且模型参数规模越大，优势越明显，避免开发人员再进行大规模的训练，使用小样本就可以训练自己所需模型，极大降低开发使用成本。

大模型有望进一步突破现有模型结构的精度局限
从深度学习发展的历程来看，模型精度提升，主要依赖网络在结构上的变革。随着神经网络结构设计技术，逐渐成熟并趋于收敛，想要通过优化神经网络结构从而打破精度局限非常困难。近年来，随着数据规模和模型规模的不断增大，模型精度也得到了进一步提升，模型和数据规模的增大确实能突破现有精度的一个局限。

05.预训练的三个发展趋势

整个预训练模型也在快速的发展中，整体有三个大的发展趋势。第一是模型越来越大，整个Transformer的层数越来越多，整体的能力也会越来越强，当然带来的训练成本也是越来越高。第二个趋势是训练的方法越来越多，包含各种自动的编码和多任务训练。第三个是向多模态不断演进，从最开始的只学习文本数据到联合学习文本和图像，现在可以处理文本、图像、语音等多模态数据，相信会有更多语言、更多类型数据的大模型会不断涌现，这也是实现人工智能通用化的有益探索。

人工智能超大规模预训练模型浅谈

百度开发者中心

引用和评论

百度智能云喊你参加“金砖大赛” ！

喜大普奔，适用于 VS Code 的 GitHub Copilot 全新免费版本正式推出，GitHub 全球开发者突破1.5亿

从云计算一哥到全球生成式 AI 前行者：回顾 re:Invent 2024 三项重要发布

AI 驱动的个性化推荐系统设计

【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶

从 re:Invent 2024 看 AWS 最前沿的 AI 基础设施架构

智能图像识别系统设计与实现