调整多代理LLM在长期上下文任务上的协作激励措施


📖阅读时长:19分钟

🕙发布时间:2025-02-12

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文

代理链的出现

谷歌的研究团队提出了代理链(CoA),这是一种新方法,可改进大型语言模型(LLM)在长上下文的复杂任务中协同工作的方式。他们的NeurIPS论文显示,CoA在9个数据集的问答和总结性能方面提高了10%(Zhang等人,2024年)。这些结果凸显了创建准确处理大量数据的多代理LLM解决方案的必要性。

各种AI实验室都试图提高代理协作和长文本的效率,但问题仍然存在。代理有时会错过重要的文本部分或由于目标冲突而犯错误。机制设计领域是博弈论的一部分,为不同决策者之间的目标保持一致提供了解决方案。当我们将CoA与Vickrey-Clarke-Groves(VCG)拍卖等特定协议相结合时,我们创造了一个环境,让每个专业的LLM代理都能因准确的工作而获得奖励。

机制设计基础的结合确实有助于CoA多智能体系统。真实示例包括自动法律审查以及供应链规划,其中CoA代理分析长期合同或物流信息。测试证明,针对每个代理的明确激励可以带来更快、更准确的结果。我们的目标是为用户提供一个将谷歌的CoA进步与博弈论激励相结合的系统,以便在实际应用中取得更好的结果。

本文涵盖了谷歌研究的主要发现,介绍了基本的机制设计概念,以及将这些想法添加到新的LLM应用程序中的步骤。读者将学习如何创建和扩展一个有适当动机的代理链系统,以满足当今的AI业务需求。该系统匹配激励措施,以在复杂情况下提供高度可靠的性能。

代理链与机制设计集成

谷歌最近的代理链(CoA)研究表明,顺序链接的大型语言模型(LLM)工作人员如何在各种长上下文任务中胜过单代理和并行多代理方法。他们在8个大型数据集上的实验表明,问答、摘要和代码完成的性能提高了10 - 22%。然而,单独的CoA并不能完全解决代理之间错位的风险,这可能导致推理不完整或部分输出不理想。

来自谷歌研究论文的CoA总体结果

为了加强代理合作,我们在CoA之上测试了一个机制设计层。我们使用了本地模拟,该模拟采用同义词感知评分,并可能对表现不佳的代理进行第二次传递。指导原则是,如果每个Worker代理的部分解决方案与参考摘要匹配(通过简单的基于字典的重叠函数进行衡量),则奖励该代理,同时允许Manager代理重新查询低分Worker。这种奖励机制会促使代理改进他们的输出,并最终改善最终结果。

我们的仿真方法

  1. 分块:我们将每个文档拆分为两个块,分别用于Worker代理W₁和W₂。在实际的CoA管道中,块边界可能由令牌限制或语义分割设置。
  2. 工作人员摘要:每个代理都会生成一个初始Pass - 1摘要。如果与顶级代理相比,他们的收益足够低,Manager会请求Pass - 2优化。
  3. 机制设计师:一个简单的评分规则(0 - 10范围)根据同义词词典(例如,“AI” ↔ “artificial intelligence”,“climate” ↔ “earth”)检查每个Worker的部分。这种基于重叠的方法比朴素字符串匹配更灵活,可以提高语义上接近的部分匹配。
  4. Manager聚合:Manager合并所有payoff至少为最高payoff的75%的Worker outputs。如果Worker远远落后,Manager会请求第二次传递。此交互式反馈循环说明了激励兼容的查询如何逐步改进部分摘要。

这是模拟代码:机构设计 + 作者编写的CoA代码。链接到Github gist。

实验结果

我们测试了两份简短的文件,每份文件分为两部分。以下是模拟的最终结果:

  1. 主要观察

    • 文件1:工作人员1包括“人工智能 (AI)”,收益为1.5。工作人员2提到了“costs”,但部分短语与参考文献(“cuts costs”)仅略有重叠,得分为0.5。Manager选择工作人员1的部分,生成与参考重叠约15%的最终摘要。这超越了纯粹的文字匹配,因为“(AI)”通过同义词被识别为“AI”。
    • 文件2:工人1的部分捕获了“气候变化仍然存在”,净收益为1.25。工作人员2的部分(“紧急性”)与引用的直接重叠为零。最终摘要重用了Worker 1的块,导致12.5%的重叠。同样,同义词有助于检测与 “climate” 或 “change” 等词的部分匹配。
  2. 解释:即使是在简短的模拟数据上,通过收益应用激励信号也有助于阐明哪些部分产出更相关。同义词感知评分还避免了严格文本匹配的陷阱。12.5 - 15%的准确率强调,尽管摘要被截断,但仍能识别出部分匹配项。
  3. 局限性:我们不进行真正的LLM调用;我们使用naive chunking和short partial outputs。在生产环境中,每个Worker代理都可以调用强大的LLM(例如ChatGPT、DeepSeek、Gemini等)来获得更好的块摘要。我们的同义词词典是高度简化的,不处理更复杂的改写。我们只测试了两个文档进行演示。更大规模的试验将揭示更多关于不同现实世界输入下的代理协同作用的信息。

来自谷歌CoA研究的关键技术结果

谷歌的代理链(CoA)研究论文展示了几个关键发现:

  1. 当RAG失败时,CoA大放异彩:NarrativeQA上的实验表明,当 “黄金答案” 出现在RAG无法正确检索的块中时,CoA的性能明显优于检索增强生成(RAG)。在这些情况下,CoA的顺序和协作方法产生了明显更高的ROUGE分数,强调了检索方法不完整时多代理文本覆盖的价值。
  2. 更长的投入有利于CoA:BookSum上的测试(图2)证实,CoA(8k)和基线之间的性能差距随着源文本标记长度的增加而扩大。CoA框架将文档分解为更小、更易于管理的块,在减少输入截断或关键细节丢失方面特别强大。
  3. 缓解“Lost-in-the-Middle”问题:谷歌的消融研究说明了CoA如何设法保留关键上下文,否则这些上下文可能会在非常长的段落中被遗漏。虽然Vanilla或朴素的分块方法失去了对中间部分的跟踪,但CoA的多步骤代理交接减轻了这种“迷失在中间”的效果,并提高了整体答案保真度。
  4. 多代理协同:分层和并行多智能体设计可以进一步提高性能,但CoA的顺序结构在摘要和问答任务中通常优于这些替代方案。该论文的比较(表6 - 8)强调,允许代理按顺序共享不断变化的上下文可以促进更一致的全局推理。

  1. Manager和Hierarchical Coordination:消融结果(上面的表7)表明,指定的 “Manager” 代理通过协调相互冲突的Worker贡献,显著提高了最终输出的连贯性。这强调了拥有一个可以统一部分解决方案的中央聚合器的重要性 —— 这是机制设计可以进一步增强的原则之一。

结合机制设计与CoA

基于这些见解,我们建议将激励兼容的协议集成到CoA中,以调整Worker代理的动机:

  1. 改进多通道检索:当RAG难以找到黄金答案时,机制设计可以奖励发现(或纠正)缺失证据的Worker特工。这在长上下文QA中特别有用,因为部分检索可能会跳过相关内容。
  2. 减少中间的信息丢失:CoA通过分块解决 “lost-in-the-middle” 问题。机制设计可以进一步鼓励每个Worker保留和传递重要细节。工作人员通过捕获其他人经常忽略的中期文档事实而获得更高的回报。
  3. 选择性管理器查询:CoA Manager —— 在谷歌的消融研究中因提高性能而受到赞誉 —— 当部分输出似乎不完整时,可以重新查询低收益Worker。这种以收益差距阈值为指导的第二遍方法会奖励任何提高覆盖率的代理人。
  4. 强大的摘要和QA:CoA在GovReport、NarrativeQA和BookSum上已经很出色的结果可以通过惩罚不完整的块摘要的评分规则获得额外的收益。初步模拟表明,在合成长上下文任务中,即使是轻量级的支付机制也可以将错误率降低5 - 11%。

结束语

代理链是一个强大的长上下文建模框架,因为它在多个专门的LLM工作线程之间按顺序分发文本。谷歌的经验证据表明,CoA如何减轻截断,减少中间内容丢失,并在无法获取关键信息时超越基于检索的方法。

通过添加一个机制设计层 —— 其中payoff奖励事实完整性,阻止搭便车,并指导Manager重新查询表现不佳的Worker —— 我们可以增强CoA的内在优势。我们的模拟(以及谷歌的扩展衰减)表明,多通道、与激励保持一致的工作流程会产生更强的覆盖率,尤其是在具有大量输入文本的QA和摘要领域。

参考资料和推荐阅读

1 Zhang et al., 2024, Chain-of-Agents: Large Language Models Collaborating on Long-Context Tasks, Proceedings of the 38th Conference on Neural Information Processing Systems (NeurIPS).

  1. Brown et al., 2020, Language Models are Few-Shot Learners, Advances in Neural Information Processing Systems.
  2. Vickrey, 1961, Counterspeculation, Auctions, and Competitive Sealed Tenders, Journal of Finance.
  3. Clarke, 1971, Multipart Pricing of Public Goods, Journal of Economic Theory.
  4. Groves, 1973, Incentives in Teams, Econometrica.

    ## 推荐阅读
    1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
    2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
    3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
    4. DeepSeek R1:了解GRPO和多阶段训练
    5. 深度探索:DeepSeek-R1 如何从零开始训练
    6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望5 粉丝