主要观点:
- Chatbot Arena 过去两年成为 LLM 基于氛围评估的热门之地,产生了类似国际象棋排名的 Elo 分数排行榜,数十亿投资基于此评估,但新论文《The Leaderboard Illusion》对其提出批评。
- 新论文指出 Arena 存在不公平采样率(少数专有供应商模型被随机选中次数多)、透明度不足(关于专有模型测试规模)、不公平移除率(开源模型更易被弃用)等问题,如 Meta 在 Llama-4 发布前测试了 27 个私有 LLM 变体。
- Arena 回应称其政策防止模型提供者只报告测试中的最高分,只发布公开模型的分数,但未解决论文中关于模型挑选的核心问题。
- 作者希望 Arena 增加透明度,如对排名靠前的模型注明供应商测试情况及测试变体数量等。
- Andrej Karpathy 提出 OpenRouterAI LLM 排名可作为替代,它允许人们在 LLM 提供者间快速切换 API,有潜力成为难以操纵的评估,但存在单个高流量客户可能影响排名的弱点。
关键信息:
- Chatbot Arena 项目起源于 UC Berkeley,有大量模型爱好者提交提示并选择喜欢的响应。
- 《The Leaderboard Illusion》论文由多所机构作者撰写,剖析批评 Arena 工作方式。
- Llama 4 发布时曾因排行榜丑闻引发关注,Arena 曾发布伪道歉。
- Arena 允许模型提供者匿名预览模型以获取排名,新论文揭示其测试规模之大。
- OpenRouterAI LLM 排名可快速切换 API,当前“Top this month”表格显示部分模型排名及变化。
重要细节:
- 作者本人偏好的 Claude 3.7 Sonnet 很少进入前十,目前在 20 位。
- 论文作者部分提交了多个开放权重模型到 Chatbot Arena,发现开放权重模型采样不足等问题。
- Arena 表示只发布公开模型的分数以防止作弊,但未回应核心问题。
- OpenRouter 排名系统的弱点是单个高流量客户可能影响排名。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。