Kaggle 推出游戏竞技场，以在策略游戏中对 AI 模型进行基准测试

发布于 2025-09-16

主要观点：Kaggle 与 Google DeepMind 合作推出[Kaggle Game Arena]平台，用于通过在策略游戏中测试人工智能模型的性能来评估它们，提供受控环境让模型直接竞争，采用全对全格式确保公平评估，依赖开源组件可让开发者研究，初始阵容有 8 个领先 AI 模型，与其他 AI 基准平台不同，此平台将注意力转向规则约束下的决策，研究者和 AI 爱好者对此平台评价不一，Kaggle 和 DeepMind 旨在将平台扩展到更多游戏以测试不同战略推理方面，通过标准化比赛为比较 AI 模型提供基准。
关键信息：

平台名称：[Kaggle Game Arena]，用于评估 AI 模型性能。
评估方式：在策略游戏中测试，提供受控环境，全对全格式。
开源组件：游戏环境和规则执行软件模块公开。
初始模型：Anthropic 的[Claude Opus 4]、DeepSeek 的[DeepSeek-R1]、Google 的[Gemini 2.5 Pro 和 Gemini 2.5 Flash]、Moonshot AI 的[Kimi 2-K2-Instruct]、OpenAI 的[o3 和 o4-mini]、xAI 的[Grok 4]。
与其他平台区别：测试决策能力，不同于语言等任务平台。
研究者和爱好者评价：认为可识别 AI 系统强弱，提供可重复透明衡量方式，也有疑问其与现实决策的关联。
未来计划：扩展到更多游戏，测试不同战略推理方面。
重要细节：
平台网址：https://www.kaggle.com/blog/i...、https://www.kaggle.com/game-a...
各模型相关网址：Anthropic 的Claude Opus 4、DeepSeek 的DeepSeek-R1、Google 的Gemini 2.5 Pro 和 Gemini 2.5 Flash、Moonshot AI 的Kimi 2-K2-Instruct、OpenAI 的o3 和 o4-mini、xAI 的Grok 4
相关评论者：Sebastian Zabala、Koho Okada、Sourabh Joshi

阅读 83