用于减少冲突和提高对多智能体AI信任的机制设计框架

📖阅读时长:19分钟

🕙发布时间:2025-02-12

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文

在人工智能领域不断探索的过程中,我们发现多智能体AI系统在处理现实世界复杂任务时具有巨大潜力。然而,目前的单智能体解决方案以及一些基础的多智能体设置,都存在着各种各样的问题。今天,就让我们一起深入探讨一篇关于“用于减少冲突和提高对多智能体AI信任的机制设计框架”的文章,看看如何突破这些困境。

为什么单一代理解决方案无法满足要求

AI代理其实就是一个自主程序,它能够解读所处环境,并采取行动来达成既定目标。从理论上来说,这些代理可以在极少人工干预的情况下处理各类任务,像数据分析、路线规划以及资源分配等。

但在Shah和White于2024年发表的研究论文《 Agents Are Not Enough》中却指出,单代理系统在应对现实世界任务的复杂性时往往力不从心。目标重叠、资源有限以及利益相关者的多样化,常常超出了单个代理的适应和协调能力范围。

就连一些基础的多代理设置也存在类似的缺陷,它们缺乏满足动态需求所必需的协作机制。多项研究都证实了这一情况,高达80%的AI计划在部署阶段就宣告失败,其中一个重要原因就是多个组件之间的激励措施不一致。

这些问题的存在,让我们明白需要更强大的协调策略。多代理框架与传统单代理方法不同,它能够将解决问题的能力分配到各个专门的实体中,比如调度代理、资源分配代理和质量控制代理等。

多智能体协作的机制设计

在本文中,作者基于《代理还不够》这一研究,提出了一个专门为多智能体生态系统打造的机制设计框架。接下来,我们详细了解一下这个框架。

博弈论基础

机制设计主要是构建交互规则,让每个追求自身效用最大化的理性主体,最终能趋向于实现全局最优的结果。

在多主体环境里,这些规则的作用很关键,它们可以激励合作、防止搭便车行为,还能为解决冲突提供透明的渠道。下面为大家介绍一些具体的机制:

  1. 合作游戏
    在合作游戏中,代理们会组成小组(也就是联盟),因为大家一起合作所能完成的事情,比各自单独行动要多得多。联盟组建完成后,如何在成员之间公平地分配利益,就成了主要问题,只有分配公平,才能让大家都有持续参与的动力。

从数学角度来看,合作博弈通常用(N, v)来表示。这里的N代表所有代理的集合,比如N = {1, 2, …, n} ;v则是一个特征函数,它会给每一个可能的联盟S⊆N赋予一个值,这个值v(S)反映的就是联盟S能够实现的总收益。

Shapley值是一种常用的在联盟成员间分配v(S)的解决方案。对于每个代理i来说,Shapley值ϕ(i)的计算方法是,在联盟所有可能的形成方式中,计算该代理的边际贡献的平均值。用公式表示就是:

这个公式能保证每个代理获得的奖励,与他们为各个可能联盟所做出的贡献成正比。

打个比方,想象你和乐队成员一起创作一首歌,每个成员都有独特的音乐才华、歌词创作能力或者制作技巧。这里的“特征函数”(v(S))就好比是最终成品歌曲的质量,而每个成员的Shapley值,就是你根据大家的贡献,公平地决定版税分配的依据。

  1. 重复交互(民间定理)
    重复游戏指的是代理多次进行同一个阶段游戏,甚至有可能是无限次进行。民间定理表明,如果玩家足够看重未来的收益(也就是他们的“折扣系数”很高),那么从长期来看,通过多轮的奖励或惩罚机制,许多合作结果都能达到均衡状态,这也会促进团队合作。

从数学定义来讲,重复博弈由以下要素构成:

  • 一个阶段游戏G,每个代理i都有相应的策略集S(i)。
  • 贴现因子δ ∈ (0,1),它体现了代理对未来收益的重视程度。

如果阶段游戏G无限重复,那么代理i的总体收益可以用这个公式计算:

当δ足够大(意味着玩家有耐心),并且阶段游戏支持可行且符合个人理性的收益曲线时,就会存在一个子游戏完美均衡,通过互惠的奖励/惩罚策略来实现这个收益曲线。

再举个例子,假设你每个周末都和同一群朋友一起玩皮卡足球。要是你老是自己带球不传球,或者频繁犯规,朋友们可能以后就不让你一起玩了,或者在比赛中不把球传给你。慢慢地你就会明白,只有合作(比如分享球权、公平比赛),大家玩得才更开心。

  1. 部分可观测性
    当代理无法获取彼此行为、意图,甚至是环境状态的完整信息时,就会出现部分可观测性的情况。在多代理系统中,如果代理不能确认其他人的行为,就容易导致协调出现问题。在这种部分可观测的环境下进行机制设计,通常会引入信号共享或者信任机制,帮助代理在信息不完美的情况下也能保持协作。

想象一下在雾天开车,你能看到一些路况维持行驶,但无法看清全部情况。有时候你就得相信其他司机也会遵守规则,比如保持在自己的车道上、减速或者打转向灯。而额外的路标、大灯以及交通信号灯,能在一定程度上弥补视线不好的问题。

从数学模型来看,部分可观测性的一种正式模型是贝叶斯博弈(也叫不完全信息博弈)。在这个模型里,每个玩家i都有一个类型θ(i),这个类型是从某种概率分布中抽取的。效用函数:
u{a(i), a(−i), θ(i)} 既取决于代理的动作a(i) ,也和类型θ(i) 有关。代理们只知道自己的类型,对于其他人的类型只能靠推测。

贝叶斯纳什均衡(BNE)是一个典型的解决方案概念,它能确保在给定对类型的推测的情况下,任何代理都无法通过单方面改变策略来提高自己的预期效用。

就像玩扑克牌,你清楚自己手里的牌(也就是你的“类型”),但对于别人手里的牌(“类型”),你只能猜测。你会根据这些猜测来决定自己的策略(下注、加注或者弃牌),目的是让自己赢得最多的钱。

初步实验:重复的公共产品模拟

为了验证机制设计原则是否有效,作者进行了一个重复的公共产品游戏,看看它能否减少搭便车行为,提升整体福利。在公共产品场景中,每个代理都要决定是否为共享资源池贡献资源,而共享资源池能让所有参与者受益。要是没有鼓励合作的激励措施,代理们往往就不愿意贡献,这就是“搭便车问题”。

实验装置

  • 代理数量 (N):8
  • 捐赠 (E):每轮10个代币
  • 乘数 (M):1.8(总贡献乘以1.8,然后平均分配)
  • 回合数 (T):30

机构设计层

  • 搭便车惩罚:贡献低于小组平均水平的代理会受到少量扣除。
  • 高于平均贡献的奖励:贡献超过小组平均水平的代理,在下一轮会获得额外的代币。

学习规则

代理会根据自己这一轮的收益是高于还是低于平均收益,来调整下一轮的贡献,调整幅度为一小步(学习率 = 0.2)。

基线条件

作者将自己的方法和没有惩罚或奖励机制的标准公共产品游戏进行对比。在标准游戏中,代理只能获得在所有参与者之间平均分配的乘以组返回。

结果

经过30轮测试后,作者提取了每个条件下最后一轮的一些指标,具体结果如下:

结果解释

公共产品实验的模拟结果有力地证明,激励一致的机制设计确实能以有意义的方式改变代理的行为。

和没有惩罚或奖励的基线场景相比,最后一轮的平均贡献提高了50%以上,平均收益也增加了近16%。

值得注意的是,这些成果是在反复互动中实现的。这说明代理们学会了看重合作带来的长期利益,而不是只想着一次性的搭便车行为。

通过采用惩罚(奖金框架),这次实验有效地解决了搭便车问题。这也表明,当代理有机制来奖励亲社会行为、惩罚自私决策时,分布式协调不仅可行,而且还很有优势。

除了数据上的提升,收益分配的变化也很明显,不平等性下降了46%。这说明合理设置的激励措施,还能带来更公平的结果。

从实际角度来说,这意味着当大家集中资源时,很少会有代理被落下。这对于长期维持合作至关重要。我们可以把这些发现和现实场景联系起来,比如物流中的资源共享,或者基于联盟的研发项目。缩小高收入者和低收入者之间的差距,有助于保持合作的持续性。

如果代理一直觉得自己在合作中处于劣势,往往就会退出系统。这就是《代理还不够》中提到的核心挑战——当协调管理不善时,参与者最终会选择离开,导致整体效率下降。而这次实验数据表明,精心设计的机制可以缓解这个问题,让各方都能从为共同利益做贡献中获得实实在在的好处。

局限性

这次实验的模拟是在一定数量的代理和简化的经济模型下进行的。在更大规模的场景中,往往会出现代理能力参差不齐、通信瓶颈以及目标不断变化等问题,这可能就需要更强大的惩罚 - 奖金机制。

不过,从原则上讲,相同的逻辑依然适用。只要系统设计能够处理更高的计算负载和更复杂的协商协议,鼓励持续贡献、惩罚机会主义行为的激励措施,也可以应用到成百上千个代理并行运作的环境中。

从这个角度出发,未来我们可以把这个机制设计框架应用到更多领域,比如去中心化金融、自动化生产线等,看看能否实现同样水平的合作和公平。

参考文献

[1] Multiparty Dynamics and Failure Modes for Machine Learning and Artificial Intelligence

[2] The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed: Avoiding the Anti-Patterns of AI

[3] Everything you need to know about multi AI agents in 2024: explanation, examples and challenges

[4] Why AI Projects Fail: Lessons from New Product Development

[5] Algorithmic Game Theory

[6] Stanford Encyclopedia of Philosophy: Game Theory

[7] Introduction to Game Theory

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望5 粉丝