Meta豪掷15万亿tokens，Llama 3.1-405B究竟有何过人之处？

前言

Meta AI

在人工智能领域的激烈竞争中，Meta再次掷出重磅炸弹。Llama 3.1-405B的横空出世，不仅震惊了整个AI圈，更让开源大模型的发展迎来了一个新的里程碑。这个拥有4050亿参数的庞然大物，究竟有什么过人之处呢？让我们一探究竟。

15万亿tokens训练规模

Llama 3.1-405B

就在7月23日凌晨，一则关于Llama 3.1-405B评测数据在网络上炸开了锅。15万亿tokens的训练规模让大家十分的期待 Llama 3.1-405B 的表现。Llama 3.1-405B最引人注目的特性之一，莫过于其128k的上下文长度。这一数字较之前的版本整整扩大了16倍，意味着模型可以处理更长、更复杂的输入，从而在长文本理解和生成方面展现出惊人的能力。

不仅如此，Llama 3.1-405B还支持多语言输入输出，包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。这种多语言能力的加持，无疑将大大拓展其应用场景，为全球用户提供更加便利的AI服务。

性能表现

性能对比

在基准测试中，Llama 3.1-405B展现出了十分优秀的表现。在GSM8K、Hellaswag、boolq、MMLU-humanities等多项测试中，它不仅超越了同类开源模型，甚至在某些方面超过了GPT-4o这样的商业巨头。

特别值得一提的是，Llama 3.1-405B在解决之前很火的"9.11 > 9.9"的陷阱题时也没有出现错误。而如此强大的模型，训练时累计使用了3900万GPU小时的计算时间，其中仅405B版本就占用了3100万GPU时。这种级别的算力投入，即便对于Meta这样的科技巨头来说，也是一笔不小的开支。

总结

这次Llama 3.1-405B的发布，仿佛就像是Mate在向世界宣告：开源的力量不可小觑，AI的未来，必将是开放、共享、共同进步的未来。

厚德云是一款专业的AI算力云平台，为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用，就在厚德云。

Meta豪掷15万亿tokens，Llama 3.1-405B究竟有何过人之处？