Llama 4重测竞技场排名大跳水，网友：社区很难再信任Meta了

阅读 4 分钟

0

关注前沿科技量子位

Llama 4被曝在大模型竞技场作弊后，重新上架了非特供版模型。

但是你很可能没发现它。

因为排名一下子从第2掉到了第32，要往下翻好久才能看到。

甚至落后于英伟达基于上一代Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1。

具体来说，根据竞技场官方消息，Llama 4首发时提交的是名为“实验版”、实为“针对人类偏好优化”的模型Llama-4-Maverick-03-26-Experimental。

修正后的模型为HuggingFace开源版同款Llama-4-Maverick-17B-128E-Instruct，名字代表有17B激活参数，128个MoE专家的指令微调模型。

当初实验版模型具体如何“针对人类偏好优化”的目前并未公开，评论区网友感慨“即使对AI来说，智力和魅力也不一定相关”。

也有人表示Meta应该因试图作弊而受到强烈批评，而且以后社区也很难再信任Meta了。

不过Llama 4模型本身并非一无是处。

有自己假设服务器的开发者分享经验，认为Llama 4 Maverick内存充足但内存带宽和计算能力较低的系统（例如x86服务器上用CPU推理，或在M3 Ultra Mac Studio上推理）时速度比Mistral Small 3.1更快，同时比Mistral Large 2411或 Command A更智能。

对于288GB内存双路至强服务器来说，Llama 4 Maverick是能以不错的速度运行的最佳模型。

最终建议如果在游戏显卡上跑，Llama 4有点大了；如果使用云API算力有保障，那么DeepSeek V3或闭源模型能力更强；Llama 4的甜蜜区刚好在自建的小型服务器或苹果Mac Studio。

还有一家Agent创业公司Composio，详细对比Llama 4与DeepSeek v3后，总结道：

Llama 4 Maverick有其自身的优点，它更便宜、更快速、工具性更强，而且能完成各种任务，非常适合基于实时交互的应用。
它并不完美，但如果Meta给它不同的定位，让发布更加脚踏实地，并避免玩弄基准，它就不算失败。

具体测试结果如下：

Llama 4 vs DeepSeek V3

DeepSeek v3 0324的代码能力远远优于Llama 4 Maverick。

一道人类通过率只有15.2%的Leet Code题目：找出能被K整除的最大回文数。

Llama 4的代码连最前面几个测试用例都过不了，作者称花了15-20分钟向AI解释如何正确解答这道题。但即使经过了所有的迭代，它也只能完成632个测试用例中的10个。

DeepSeek v3在这道题上总是出现超出时间限制 (TLE) 错误，通过了132/632个测试用例。

DeepSeek v3 0324在常识推理方面比Llaama 4 Maverick更好

第一题：在编程语言中 (a==1 && a==2 && a==3) 是否可以计算为真？

两个模型都回答正确，不过DeepSeek有惊喜，主动给出了Python和JavaScript语言的可运行代码示例，甚至作者还从中学到了之前不会的JavaScript技巧“动态对象属性访问”。

第二题：四个人必须用一辆能坐两个人的车，在17分钟内穿过一个城镇。一个人需要1分钟，另一个人需要2分钟，第三个人需要5分钟，第四个人需要10分钟。他们如何才能在规定时间内全部通过？

两个模型都回答正确，区别在于从DeepSeek的回答中可以看到清晰的思维过程解释，Llama 4没有经过太多解释就得出了答案。

大型RAG任务中Maverick 速度非常快，Deepseek执行同样的任务需要更长时间

任务：在100K个token的lorem ipsum输入藏一个特定的单词，然后要求AI获取该单词及其在输入中的位置。

Llama 4用16秒时间找对了单词“wordyouneedtofetch”，但无法指出单词的位置，也无法获取文档中的单词总数。

很遗憾，DeepSeek V3思考了大约18秒，仍然找不到对应的单词或文档的总字数，这不符合作者对该模型的预期。

第二个测试，在一段很长且中间有很多无意义段落的故事中回答两个人物是什么关系。

这次两个模型都答对了。

两款机型都擅长写作，选择其中任何一款都不会错。Llama 4 Maverick的写作风格更细致，而 DeepSeek v3 0324 的写作风格则更随意

任务：你醒来后发现一个你非常熟悉的人，可能是室友、挚友，甚至可能是伴侣，被“删除”了。没有人记得他们，但你记得。你发现你的神经植入物上还残留着一个文件。为这个故事写一个简短而悬念十足的结局。

作者认为Llama 4的开头很棒，但对结局并不满意。

而作者对DeepSeek V3的故事赞不绝口：

完全符合预期。虽然故事情节不多，但结局听起来很棒。一定要读一读。你会对它精彩的结局印象深刻，最后一句还留下了悬念。

两个模型写出的完整故事，及其他测试完整回答，可从下方链接获取。

完整测评： https://composio.dev/blog/lla...

参考链接 [1]https://www.reddit.com/r/sing...\_release\_version\_of\_llama\_4\_has\_been\_added\_to

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

不到一周！中国AIGC产业峰会观众正在火热报名中 🙋‍♀️

4月16日周三，就在北京，一起来深度求索AI怎么用 🙌 点击报名参会

🌟 一键星标 🌟

科技前沿进展每日见

本文系转载，阅读原文

https://mp.weixin.qq.com/s/qzm6uzbcxsTWqysTl54KRA

阅读 319发布于 4 月 12 日

量子位

58 声望20k 粉丝

一家专注于人工智能与前沿科技领域的产业服务平台。

« 上一篇

手机实现GPT级智能，比MoE更极致的稀疏技术：省内存效果不减｜对话面壁&清华肖朝军

下一篇 »

4090玩转大场景几何重建，RGB渲染和几何精度达SOTA｜上海AI Lab&西工大新研究

引用和评论

推荐阅读

陶哲轩DeepMind梦幻联动，最强通用科学Agent来了！一口气解决芯片设计、矩阵乘法和300年几何难题

量子位

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。