头图

Meta豪掷15万亿tokens,Llama 3.1-405B究竟有何过人之处?

前言

图片
Meta AI

在人工智能领域的激烈竞争中,Meta再次掷出重磅炸弹。Llama 3.1-405B的横空出世,不仅震惊了整个AI圈,更让开源大模型的发展迎来了一个新的里程碑。这个拥有4050亿参数的庞然大物,究竟有什么过人之处呢?让我们一探究竟。

15万亿tokens训练规模

图片
Llama 3.1-405B

就在7月23日凌晨,一则关于Llama 3.1-405B评测数据在网络上炸开了锅。15万亿tokens的训练规模让大家十分的期待 Llama 3.1-405B 的表现。Llama 3.1-405B最引人注目的特性之一,莫过于其128k的上下文长度。这一数字较之前的版本整整扩大了16倍,意味着模型可以处理更长、更复杂的输入,从而在长文本理解和生成方面展现出惊人的能力。

不仅如此,Llama 3.1-405B还支持多语言输入输出,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。这种多语言能力的加持,无疑将大大拓展其应用场景,为全球用户提供更加便利的AI服务。

性能表现

图片
性能对比

在基准测试中,Llama 3.1-405B展现出了十分优秀的表现。在GSM8K、Hellaswag、boolq、MMLU-humanities等多项测试中,它不仅超越了同类开源模型,甚至在某些方面超过了GPT-4o这样的商业巨头。

特别值得一提的是,Llama 3.1-405B在解决之前很火的"9.11 > 9.9"的陷阱题时也没有出现错误。而如此强大的模型,训练时累计使用了3900万GPU小时的计算时间,其中仅405B版本就占用了3100万GPU时。这种级别的算力投入,即便对于Meta这样的科技巨头来说,也是一笔不小的开支。

总结

这次Llama 3.1-405B的发布,仿佛就像是Mate在向世界宣告:开源的力量不可小觑,AI的未来,必将是开放、共享、共同进步的未来。

厚德云是一款专业的AI算力云平台,为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。


慧星云
6 声望7 粉丝

慧星云是一个专业的 GPU 算力云平台,专注于为人工智能从业者提供高效、便捷、灵活的 GPU 算力资源租用服务。我们旨在帮助客户加速人工智能的研发和应用进程,实现业务的快速发展。