Meta发布Llama 3.1 405B,迄今为止最大的开源模型

Meta发布最新语言模型Llama 3.1 405B

Meta近日发布了其最新的语言模型Llama 3.1 405B,这是新Llama模型中规模最大的版本,还包括8B和70B版本。Llama 3.1 405B拥有4050亿参数、15万亿个token和16000个GPU,提供了多项令人印象深刻的功能。

模型开发的关键因素

Meta AI表示,高质量基础模型的开发有三个关键因素:数据、规模和管理复杂性。Meta在开发过程中优化了这三个因素,包括改进预训练数据的预处理和筛选流程,以及后训练数据的质量保证和过滤方法。

云服务商的支持

在发布后,多家云服务商宣布支持运行Llama 3.1 405B。支持的提供商包括Databricks、Dell、Nvidia、IBM、Snowflake、Scale AI等。亚马逊、微软和Cloudflare等公司也宣布了对其的支持。

模型特点

Llama 3.1 405B的开源模型具有128k token的上下文窗口,支持多种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。模型还配备了网页搜索、数学推理和代码执行等工具。

改进与性能

相比之前的Llama版本,Meta在预训练和后训练数据的数量和质量上都进行了改进。Llama 3.1 405B的基准测试成绩接近甚至超过了GPT-4o和Claude 3.5 Sonnet。根据Scale AI的SEAL排行榜,Llama 3.1 405B在数学和推理方面排名第二,在编码方面排名第四,在指令遵循方面排名第一。

开源与硬件需求

Llama 3.1 405B是开源的,用户可以下载权重并在自己的应用程序中使用。然而,用户需要强大的硬件来运行该模型,因为它需要“单个服务器节点”的能力,这超出了普通台式电脑的能力范围。

未来展望

Meta承诺未来将推出多模态的Llama模型。开发者可以在HuggingFace Hub上了解更多关于模型的信息,或阅读技术论文。

Llama 3.1 405B的发布不仅是技术上的成就,也是AI行业中的战略性举措。它标志着首次可以免费下载并运行GPT-4级别的大型语言模型,尽管需要强大的硬件支持。

阅读 21
0 条评论