Meta发布Llama 3.1 405B，迄今为止最大的开源模型

Meta发布最新语言模型Llama 3.1 405B

Meta近日发布了其最新的语言模型Llama 3.1 405B，这是新Llama模型中规模最大的版本，还包括8B和70B版本。Llama 3.1 405B拥有4050亿参数、15万亿个token和16000个GPU，提供了多项令人印象深刻的功能。

模型开发的关键因素

Meta AI表示，高质量基础模型的开发有三个关键因素：数据、规模和管理复杂性。Meta在开发过程中优化了这三个因素，包括改进预训练数据的预处理和筛选流程，以及后训练数据的质量保证和过滤方法。

云服务商的支持

在发布后，多家云服务商宣布支持运行Llama 3.1 405B。支持的提供商包括Databricks、Dell、Nvidia、IBM、Snowflake、Scale AI等。亚马逊、微软和Cloudflare等公司也宣布了对其的支持。

模型特点

Llama 3.1 405B的开源模型具有128k token的上下文窗口，支持多种语言，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。模型还配备了网页搜索、数学推理和代码执行等工具。

改进与性能

相比之前的Llama版本，Meta在预训练和后训练数据的数量和质量上都进行了改进。Llama 3.1 405B的基准测试成绩接近甚至超过了GPT-4o和Claude 3.5 Sonnet。根据Scale AI的SEAL排行榜，Llama 3.1 405B在数学和推理方面排名第二，在编码方面排名第四，在指令遵循方面排名第一。

开源与硬件需求

Llama 3.1 405B是开源的，用户可以下载权重并在自己的应用程序中使用。然而，用户需要强大的硬件来运行该模型，因为它需要“单个服务器节点”的能力，这超出了普通台式电脑的能力范围。

未来展望

Meta承诺未来将推出多模态的Llama模型。开发者可以在HuggingFace Hub上了解更多关于模型的信息，或阅读技术论文。

Llama 3.1 405B的发布不仅是技术上的成就，也是AI行业中的战略性举措。它标志着首次可以免费下载并运行GPT-4级别的大型语言模型，尽管需要强大的硬件支持。