Meta AI发布Llama 3模型
Meta AI发布了其开源大语言模型(LLM)家族的最新成员——Llama 3。该模型提供8B和70B两种参数规模,每种规模都包含基础版和指令调优版。Llama 3在标准LLM基准测试中表现优于同参数规模的其他LLM。
主要改进
- 架构升级:相比Llama 2,Llama 3进行了多项架构改进,包括更好的分词器和更高效的分组查询注意力(GQA)机制。
- 训练数据:Llama 3使用了15T的公开文本数据进行训练,是Llama 2的7倍。
- 训练方法:指令调优版结合了近端策略优化(PPO)和直接偏好优化(DPO)方法,提升了模型在编码和推理任务中的表现。
安全工具
Meta还发布了新的安全工具,如Code Shield,用于检测Llama 3生成的不安全代码。
未来计划
Meta表示,Llama 3是Llama 3系列模型的第一批文本模型,未来目标是使其支持多语言和多模态,拥有更长的上下文,并持续提升推理和编码等核心LLM能力。
历史背景
Meta于2023年初发布了第一代LLaMA,随后推出了Llama 2和Code Llama。这些模型在性能上接近GPT-3和Google的PaLM,但参数量仅为后者的十分之一。Llama 3模型采用定制商业许可,限制了基于Llama的应用的月活跃用户数。
训练与性能
Llama 3的卓越性能得益于高质量的训练数据和大量的训练计算。Meta使用Llama 2训练文本分类器,过滤低质量数据,并发现超过Chinchilla-optimal计算量的训练带来了持续的性能提升。
发布后反响
在Llama 3发布的第一周,模型权重被下载超过120万次,第三方开发者在Huggingface上训练了超过600个衍生模型。Meta还宣布正在使用24K-GPU Grand Teton集群训练参数量超过400B的Llama 3版本。
社区讨论
在Hacker News的讨论中,有用户指出Meta的性能评估未将Llama 3与GPT-4或Claude Opus进行比较。另有用户解释称,Meta主要进行“同类比较”,70B模型与Sonnet和GPT-3.5属于同一类别,且Llama 3的性能已接近Opus和GPT-4。
获取方式
用户需提交访问请求才能下载Llama 3的模型权重。模型也可在AWS、GCP和Azure上使用,并已集成到Meta AI助手中。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。