使用强化学习学习口袋妖怪

自 2020 年起,开发了强化学习(RL)代理以击败 1996 年的游戏《精灵宝可梦红》。截至 2025 年 2 月,能用强化学习以小于 1000 万参数的策略(比 DeepSeekV3 小 60500 倍)且最小化简化来击败《精灵宝可梦红》,输出的不是能击败精灵宝可梦的策略,而是产生精灵宝可梦解决方案的技术,网站描述了系统的当前状态,所有代码开源供读者尝试。展示了相关图片和视频,随着代码库的改进,变更日志将被更新。

  • 《精灵宝可梦红》介绍:1996 年发布的单人日本角色扮演游戏,玩家捕捉“宝可梦”战斗、探索世界并推进剧情,目标是捕获所有宝可梦物种并成为“冠军”,重点关注成为冠军这一目标。
  • 为何选择《精灵宝可梦红》:认为用强化学习解决 JRPG 提供了当前 RL 环境中不存在的极难挑战,如与围棋等游戏一样复杂、涉及复杂推理决策、非线性、平均游戏时长超 24 小时、需多任务推理、奖励函数不明显等,且宝可梦相对容易编程,借助相关项目可轻松内省和提取数据。
  • 为何使用 RL:考虑过多种击败宝可梦的方法,如监督学习需大量标注数据和大模型,行为克隆难以构建高效数据收集系统,用 LLM 需更多资金和计算资源,而 RL 收集训练数据方式特殊,数据新鲜无需复杂系统,用超小神经网络且无预训练仍取得惊人结果。
  • 致谢:感谢 Mads Ynddal 创建 PyBoy 及其合作,感谢 Death 制作世界地图资产,感谢 Tina Zhu 及其相关 Discord 服务器和 Puffer 团队。
  • 变更日志:2025 年 3 月 4 日 - v1 版本。
阅读 17
0 条评论