理解对 Chatbot Arena 的近期批评

主要观点：

Chatbot Arena 过去两年成为 LLM 基于氛围评估的热门之地，产生了类似国际象棋排名的 Elo 分数排行榜，数十亿投资基于此评估，但新论文《The Leaderboard Illusion》对其提出批评。
新论文指出 Arena 存在不公平采样率（少数专有供应商模型被随机选中次数多）、透明度不足（关于专有模型测试规模）、不公平移除率（开源模型更易被弃用）等问题，如 Meta 在 Llama-4 发布前测试了 27 个私有 LLM 变体。
Arena 回应称其政策防止模型提供者只报告测试中的最高分，只发布公开模型的分数，但未解决论文中关于模型挑选的核心问题。
作者希望 Arena 增加透明度，如对排名靠前的模型注明供应商测试情况及测试变体数量等。
Andrej Karpathy 提出 OpenRouterAI LLM 排名可作为替代，它允许人们在 LLM 提供者间快速切换 API，有潜力成为难以操纵的评估，但存在单个高流量客户可能影响排名的弱点。

关键信息：

重要细节：