Datawhale学术
数据集:多智能体,编辑:学姐带你玩AI
论文题目:Hokoff:Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks
论文地址:https://arxiv.org/pdf/2408.10556
创新点
- 提出了 Hokoff 数据集,这是首个基于《王者荣耀》的离线强化学习(Offline RL)和离线多智能体强化学习(Offline MARL)基准数据集。该数据集涵盖了单智能体(1v1)和多智能体(3v3)场景,能够模拟真实世界的复杂决策环境,填补了现有离线 RL 数据集在复杂任务和多智能体场景中的空白。
- 提供了一个开源的、易于使用的离线强化学习框架,支持数据采样、模型训练和性能评估的全流程。该框架不仅支持多种离线 RL 和离线 MARL 算法的实现,还提供了丰富的工具和 API,方便研究人员开发新的算法或网络架构。
- 提出了一种新的基线算法 QMIX+CQL,将多智能体强化学习中的 QMIX 算法与保守 Q 学习相结合,专门用于处理《王者荣耀》中固有的层次化动作空间。实验结果表明,该算法在多种数据集上表现优于其他现有方法。
创新点通俗版
本研究类似建了一个"王者荣耀实战题库" + "考试评分系统" + "新解题方法"。
- 提出了新题库(Hokoff 数据集),首次用《王者荣耀》的真实对战数据,制作了供 AI 学习的题库。包含 1v1 单挑和 3v3 团战两种模式,覆盖简单到超难的各种情况。
- 提供了一个考试系统(开源框架),里面包含了数据读取器(把游戏录像变成 AI 能理解的数据)、算法训练器(内置 8 种主流强化学习算法)和评分系统(比如用固定对手测试AI水平)。
- 提出了一种新解题法(基线算法 QMIX+CQL),它结合了两种学习方法:QMIX:擅长团队配合;CQL:防止 AI 学习危险操作。
方法
本文提出了一个开源的离线强化学习框架,该框架涵盖了数据采样、模型训练和性能评估的完整流程。这个框架不仅为研究人员提供了一个标准化的实验平台,还通过实现多种离线RL和离线MARL算法作为基线,为算法的比较和验证提供了便利。此外,框架还提供了用户友好的API,方便研究人员开发新的算法或网络架构。
为了应对《王者荣耀》中复杂且层次化的动作空间,作者设计了一种新的基线算法QMIX+CQL。该算法结合了多智能体强化学习中的QMIX算法和保守Q学习(CQL),通过将动作空间中的每个头部视为一个独立的智能体,并在QMIX的局部Q函数中引入CQL的正则化项,从而有效地处理了复杂的动作空间结构。这一方法在多种数据集上的表现优于其他现有方法,证明了其在处理复杂动作空间时的有效性。
Hokoff框架的架构
本图展示了 Hokoff 框架的整体架构,涵盖了采样、训练和评估三个核心模块。采样模块通过与环境交互生成多样化的数据集,支持使用预训练模型进行高效的数据采集;训练模块实现了多种离线强化学习和离线多智能体强化学习算法,为研究人员提供了标准化的实验平台;评估模块则用于比较不同算法的性能,确保公平的基准测试。此外,框架还提供了用户友好的 API 和工具,方便研究人员开发新的算法或网络架构。这张图清晰地展示了 Hokoff 框架的模块化设计,突出了其灵活性和扩展性,为复杂游戏环境中的离线强化学习研究提供了一个全面且易于使用的解决方案。
HoK1v1 中所有数据集的小提琴图
本图展示了 HoK1v1 数据集中各个数据集的性能分布情况,通过小提琴图直观地呈现了不同难度级别(如简单、中等、困难)和不同任务设置(如多任务、泛化)下的 episode return 分布。小提琴图结合了箱线图和核密度估计,不仅展示了数据的集中趋势和离散程度,还揭示了数据的分布形状。这张图帮助读者理解数据集的多样性和复杂性,以及算法在不同环境下的适应性。通过这些图表,研究者可以直观地比较不同数据集的难度差异,以及算法在面对不同任务时的表现,从而为离线强化学习算法的性能评估提供了重要的参考。
实验结果
本表格展示了在 HoK1v1 游戏模式下,多种离线强化学习(Offline RL)和离线多智能体强化学习(Offline MARL)算法在不同数据集上的平均测试胜率(或标准化分数)。这些结果揭示了现有算法在处理复杂任务、泛化能力和多任务学习方面的表现和局限性。在多难度级别(Multi-Difficulty)数据集中,算法在简单(norm)和困难(hard)级别上的表现差异显著,表明现有方法在面对复杂任务时的挑战。例如,QMIX+CQL 在 norm 级别数据集上表现较好,但在 hard 级别数据集上性能下降,这突显了离线方法在处理高难度任务时的不足。在泛化能力(Generalization)测试中,算法在训练和测试环境存在差异时的性能受到限制,这表明现有方法在泛化到未见过的场景时存在不足。例如,在 hero\_general 和 oppo\_general 数据集中,算法的胜率远低于在相同难度级别下的常规测试,说明算法难以适应英雄或对手的变化。在多任务学习(Multi-Task)数据集中,尽管算法在多任务数据集上的表现优于泛化设置,但仍未超过行为策略的性能,这表明离线方法在直接应用于多任务时仍需进一步研究。
结论
本文考虑到现有离线强化学习数据集在实际应用中的局限性,介绍了基于《王者荣耀》这一知名MOBA游戏的Hokoff。该游戏提供了高度复杂的环境,以模拟现实世界场景。我们提出了一个综合框架,用于进行离线强化学习研究,并发布了一个多样化且广泛的数据集,涵盖了各种难度等级和研究因素。此外,数据集的任务选择不仅适用于离线强化学习,还服务于离线多智能体强化学习。我们复现了多种离线强化学习和离线多智能体强化学习算法,并在我们的数据集上进行了彻底验证。结果突显了现有离线强化学习方法的不足,强调了在挑战性任务设置、泛化能力和多任务学习等领域进一步研究的必要性。本文讨论的所有组件,包括框架、数据集和基准实现,均为完全开源。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。