今年早些时候,观察了 Anthropic 的 Claude 大型语言模型为何难以击败《精灵宝可梦红》,几周后 Claude 3.7 仍在游戏中艰难取得进展,而使用 Google 的 Gemini 2.5 模型的类似 Twitch 直播尝试本周末在超过 10.6 万次游戏动作中终于完成了《精灵宝可梦蓝》,获得了追随者的赞誉,包括 Google CEO Sundar Pichai。
但在将此成就用于比较这两个 AI 模型的相对性能或 LLM 能力随时间的进步之前,有一些重要的注意事项。Gemini 在最终战胜《精灵宝可梦》的过程中需要一些相当重要的外部帮助。
系好代理 harness
Gemini Plays Pokémon 的开发者 JoelZ 表示,《精灵宝可梦》不适合作为 LLM 模型的可靠基准,不能直接比较 Gemini 和 Claude,因为它们有不同的工具和接收的信息不同。Claude 的框架有很多缺点,JoelZ 想看看如果给 Gemini 正确的工具,它能走多远。
在 Claude 和 Gemini 的游戏实验中,“框架”工具的差异可以解释两个玩《精灵宝可梦》模型的相对性能。Gemini 通过自定义“代理 harness”获得更多游戏信息,包括关于可通行瓷砖的信息,这对克服 Claude 难以理解的导航挑战很关键,还通过“文本表示”的小地图帮助导航,JoelZ 称此为补偿 LLM 的局限性,基础 Gemini 模型在某些任务中也需要外部的次级 Gemini“代理”帮助。
我们在这里测试什么?
将 LLM 塑造成能击败《精灵宝可梦》游戏是一项成就,但帮助 Gemini 完成这些事情所需的“干预”程度很重要。已知专门设计的强化学习工具能高效击败《精灵宝可梦》,“LLM 玩《精灵宝可梦》”测试的特别之处在于看通用语言模型能否自己推理出复杂游戏的解决方案,给予模型越多外部帮助,该游戏作为测试就越无用。Anthropic 称 Claude Plays Pokémon 显示了 AI 系统通过通用推理处理挑战的迹象,但 Bradshaw 的测试表明无 harness 的 LLM 经常漫无目的地游荡、回溯或产生幻觉,离通用人工智能仅因要求就能击败《精灵宝可梦》的未来还很远。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。