出品人:Towhee 技术团队
最近几个月 ChatGPT 的出现引起广泛的关注和讨论,它在许多领域中的表现都超越了人类的水平。它可以生成人类级别的语言,并且能够在不同的任务中学习和适应,让人们对人工智能的未来充满了希望和憧憬。
ChatGPT 之所以表现如此出色,得依靠于 ChatGPT 所依赖的底层模型(GPT 系列),当时 GPT-3 的 few-shot 能力就已经开始让人们震惊于 in-context learning 竟然可以拥有这么强的学习能力,有种种证据表明,GPT 已经万事俱备(学习到了大量知识),只欠东风(缺乏合适的方式将其prompt出来)。
但是 OpenAI 对于 GPT-2 之后的模型就不再开源,NLP 学术界如果没有一个能力足够强,足够高效,而且能受到广泛认可的大模型底座,那只能看着这波大模型新的浪潮望洋兴叹。
虽然也有一些开源的大模型(例如 OPT,BLOOM),但真的大模型大家也跑不动。其实大家想要的还是小的大模型,好在沉迷于元宇宙已久的Meta推出了 LLaMA(美洲驼)[1]系列模型来补上了这个缺口,该系列模型有四个版本(7B,13B,33B,65B),而且都是在超过 trillions tokens 的公开数据集上训练的,可以说就是为了 benchmark 而生的。
(训练所使用的数据集)
从模型的结构上来说,LLaMA 使用了这些年的大模型改进技术:
1)使用 pre-normalization(GPT-3)来提高模型训练的稳定性
2)使用 SwiGLU 激活函数替代 ReLU(PaLM)
3)使用 Rotary Embeddings 来替代绝对位置 embeddings(GPTNeo)
使用这种模型,Meta 用了 2048 块 A100 在1.4T 的 token 上训练 65-B 版本的模型,花了大约 21 天。
(LLaMA与其他相似类型的大模型在数据集上的比较)
接下来文章花了很多篇幅进行了各种任务上的对比,但从上表来看,作为大型语言模型,LLaMA 还是和各种不开源的大模型是处于同一个水平的,尤其是 7B 和 13B 两个模型体现出了惊人的性价比,毫无疑问的会成为作为学术圈内各种下游实验的闪亮明星。
现在斯坦福大学的 tatsu-lab 实验室现在利用了开源的 LLaMA 给出了完整的下游 finetune 方案,即 stanford alpaca(羊驼)[2]。stanford alpaca 项目使用 ChatGPT 生成了 52k 的训练数据,只 finetune 了 7B 模型,就达到了类似 ChatGPT 的效果,因为有了 ChatGPT 提供的高质量问答式监督数据,整个工作流非常的直观。配合着使用着 bitsandbytes 来进行 int8 加速 LLaMA 的项目[3],就可以端到端的完成一个个人版的 ChatGPT。
另一条线是使用更经济的 finetune 方案,就是近期也在 finetune stable-diffusion 中大红大紫的 LoRA 开发的 alpaca-lora[4],这个项目可以在一块 RTX 4090 上 finetune 几小时就可以得到一个和 stanford alpaca 相比的模型,可以说是真正的旧时王谢堂前燕,飞入寻常百姓家。已经有多个语言版本的 alpaca-lora 已经在社区中被分享。而 LoRA 对于大模型小数据的良好表现让这个方案也显示出了很大的潜力。
(钢铁侠与 alpaca)
LLaMA 让可以与 GPT 相比的能力可以广泛的被普及,而且社区内已经认可了使用 LLaMA 进行开发的潜力,也让经费没有工业界那么充裕的学术界可以充分参与这一次 AI 重大的机遇。随着针对 LLaMA 训练和推理效率的不断优化,也许人人都可以拥有一个像钢铁侠中的 JARVIS 一样的定制化的 AI 助理。
[1]https://github.com/facebookresearch/llama
[2]https://github.com/tatsu-lab/stanford_alpaca
[3]https://github.com/tloen/llama-int8
[4]https://github.com/tloen/alpaca-lora
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。