主要观点:将《Baba is You》游戏转化为《Baba is Eval》演示版本,介绍了实现过程中的各项需求和遇到的问题,以及不同语言模型在其中的表现。
关键信息:
- 《Baba is You》是需操纵规则来获胜的推箱解谜游戏,抽象程度高,是推理基准,游戏回合数可作为更精细指标。
- 拟将其转化为《Baba is Eval》,需实现获取游戏状态到语言模型上下文、控制游戏水平、菜单导航自动化等。
- 游戏文件二进制大小仅 8MB,逻辑多在 Lua 脚本中,可通过
MF_read
和MF_store
读写游戏状态,通过MF_getunits
获取当前游戏状态并序列化到 Python。 - 控制游戏可通过
command
和undo
函数,异步调用较难,采用在always
钩子里打开新命令文件执行的方式。 - 选择关卡部分代码稀疏复杂,通过模拟输入进入关卡,此方法不太可靠。
- Claude 4 在游戏中表现不佳,难以完成各关卡任务,可尝试更换为 o3 等推理模型,优化上下文管理和游戏状态表示等。
重要细节: - 给出了“Lake-Extra 1: Submerged Ruins”关卡的游戏状态截图及 MCP 工具返回的表格格式。
- 展示了通过 MCP 执行游戏解决方案的视频。
- 提及项目 repo 地址为[https://github.com/lennart-fi...]。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。