Meta发布Llama 3开源大语言模型

Meta AI发布Llama 3模型

Meta AI发布了其开源大语言模型(LLM)家族的最新成员——Llama 3。该模型提供8B和70B两种参数规模,每种规模都包含基础版和指令调优版。Llama 3在标准LLM基准测试中表现优于同参数规模的其他LLM。

主要改进

  1. 架构升级:相比Llama 2,Llama 3进行了多项架构改进,包括更好的分词器和更高效的分组查询注意力(GQA)机制。
  2. 训练数据:Llama 3使用了15T的公开文本数据进行训练,是Llama 2的7倍。
  3. 训练方法:指令调优版结合了近端策略优化(PPO)和直接偏好优化(DPO)方法,提升了模型在编码和推理任务中的表现。

安全工具

Meta还发布了新的安全工具,如Code Shield,用于检测Llama 3生成的不安全代码。

未来计划

Meta表示,Llama 3是Llama 3系列模型的第一批文本模型,未来目标是使其支持多语言和多模态,拥有更长的上下文,并持续提升推理和编码等核心LLM能力。

历史背景

Meta于2023年初发布了第一代LLaMA,随后推出了Llama 2和Code Llama。这些模型在性能上接近GPT-3和Google的PaLM,但参数量仅为后者的十分之一。Llama 3模型采用定制商业许可,限制了基于Llama的应用的月活跃用户数。

训练与性能

Llama 3的卓越性能得益于高质量的训练数据和大量的训练计算。Meta使用Llama 2训练文本分类器,过滤低质量数据,并发现超过Chinchilla-optimal计算量的训练带来了持续的性能提升。

发布后反响

在Llama 3发布的第一周,模型权重被下载超过120万次,第三方开发者在Huggingface上训练了超过600个衍生模型。Meta还宣布正在使用24K-GPU Grand Teton集群训练参数量超过400B的Llama 3版本。

社区讨论

在Hacker News的讨论中,有用户指出Meta的性能评估未将Llama 3与GPT-4或Claude Opus进行比较。另有用户解释称,Meta主要进行“同类比较”,70B模型与Sonnet和GPT-3.5属于同一类别,且Llama 3的性能已接近Opus和GPT-4。

获取方式

用户需提交访问请求才能下载Llama 3的模型权重。模型也可在AWS、GCP和Azure上使用,并已集成到Meta AI助手中。

阅读 23
0 条评论