ReaRAG:知识引导推理,提升大推理模型事实性

更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文
知乎【柏企】
个人网站https://www.chenbaiqi.com

研究论文“ReaRAG:知识引导推理通过迭代检索增强生成增强大型推理模型的真实性”引入了一种新方法,旨在弥合大型推理模型强大的推理能力与对最新、基于外部事实知识的需求之间的差距。以下是关键见解和评估:

要点

  • 研究表明,ReaRAG提高了复杂问答任务中大型推理模型(LRM)的事实性。
  • ReaRAG结合检索增强生成(RAG)的迭代推理,似乎可以提高多跳问题的准确性。
  • 有证据表明ReaRAG优于基线模型,但它也存在一些局限性,比如推理速度较慢。

概览

ReaRAG是一种新模型,旨在通过将大型推理模型(LRM)的推理技能与检索增强生成(RAG)的外部知识相结合,使其更加准确。它对回答需要多个步骤来解决的复杂、多跳问题特别有帮助。

它是如何工作的

ReaRAG通过逐步思考来工作,决定是搜索更多信息还是直接给出答案。它使用RAG引擎来查找相关事实,并限制思考时长以避免过度思考。这个过程使用另一个LRM生成的高质量数据进行训练,并经过筛选以确保准确性。

性能

研究表明,ReaRAG在诸如MuSiQue和HotpotQA数据集等具有挑战性的多跳问答任务上,比其他方法表现更出色。然而,由于其分步推理的方式,它的速度不如某些模型快,并且无法处理搜索和回答之外的任务,比如编码。

有趣的是,虽然ReaRAG擅长多跳任务,但在更简单的单跳问题上,它的表现与一些基线模型相近,这表明它的优势在于处理复杂问题。

详细分析

本文深入研究了“ReaRAG:知识引导推理通过迭代检索增强生成增强大型推理模型的真实性”这一研究论文,为熟悉机器学习概念的人工智能开发者、技术爱好者和求知者提供全面的概述。这篇近期发表的论文介绍了ReaRAG,这是一种通过迭代、知识引导的推理过程,将大型推理模型与检索增强生成(RAG)相结合,以提高大型推理模型(LRM)事实性的新方法。

背景和动机

诸如OpenAI的ol、Qwen的QwQ-32B、GLM-Zero-Preview和DeepSeekR1等大型推理模型(LRM),在数学、编码和科学问题解决等复杂任务中展现出令人瞩目的推理能力。然而,它们对参数知识的依赖常常导致事实性不准确,这限制了它们在问答(QA)任务中的有效性。此前,利用强化学习通过RAG增强LRM的尝试面临诸多挑战,包括过度思考和缺乏稳健性,尤其是在需要多个步骤和外部知识的多跳问答场景中。

本文将ReaRAG视为解决这些问题的方案,旨在通过让LRM以结构化、迭代的方式与外部知识源交互,增强其事实性。这种方法建立在推理增强大语言模型(例如思维链、反应、思想树)和RAG方法(例如自我RAG、搜索链)的前期工作基础上,解决了它们在处理多跳问答和集成稳健推理方面的局限性。

方法论

ReaRAG的方法论详细且结构化,专注于多跳问答任务。流程形式化如下:

  • 任务公式:目标是构建一个知识引导的推理链,由具有推理思想的步骤、一个动作(搜索或完成)和一个观察 $o_{t}$ 组成。链长限制在 $T_{max}$ 以防止过度思考,确保效率。
  • 数据构建:作者提出了一种使用种子数据集和LRM(例如,QwQ-32B)的自动化数据构建方法。LRM通过逐步思考、决定行动以及通过RAG引擎执行搜索以进行观察来生成推理链。这个过程在算法1中有详细说明,它会迭代直到选择完成动作或达到最大迭代次数。数据过滤通过丢弃与实际答案相比F1分数为0的链来确保数据质量。
  • 微调:ReaRAG在构建的数据集上使用监督微调(SFT)进行微调,损失函数侧重于思想和行动标记。这确保模型学习生成结构化推理链。
  • 推理:在推理过程中,ReaRAG迭代地生成推理步骤,决定是搜索更多信息还是完成。如果搜索,RAG引擎检索相关文档,该过程一直持续到选择完成动作。最终答案由答案模型生成,该答案模型会根据完成动作的参考答案进行提示,如算法2所述。

    实验设置和结果

    实验在多跳问答数据集(MuSiQue、HotpotQA、IIRC)和单跳数据集(NQ)上对ReaRAG进行验证,使用以GPT-4o作为评判指标的LLM(ACC_L)进行评估,并使用精确匹配(EM)进行比较。基线模型包括上下文检索、普通RAG以及SelfRAG和SearChain等高级RAG方法。

  • 主要结果:论文中的表1显示,ReaRAG-9B在多跳基准测试中的表现明显优于基线模型。与SearChain相比,在MuSiQue数据集上,ACC_L提高了14.5%,EM提高了7%;在HotpotQA数据集上,ACC_L提高了6.5%,EM提高了7%;在IIRC数据集上,ACC_L提高了2.25%,EM提高了8.5%。在NQ数据集上,它的表现与SearChain相当(52.00 ACC_L对54.00),这反映了它专注于多跳任务。
  • 消融研究:闭卷实验(表3)显示,QwQ-32B在推理密集型基准测试中优于GLM-4,突出了强大推理能力的重要性。没有推理能力的消融变体(无推理,表4)在多跳任务中ACC_L下降了6 - 11%,这强调了ReaRAG在数据构建过程中对强大推理能力的依赖。
  • 分析:与Search-ol相比,ReaRAG解决了令牌生成和信息提取失败的问题。表2显示Search-ol的无效令牌率较高(19 - 28%),这会导致检索失败。表5进一步说明了Search-ol存在检索信息不足的问题,从而导致推理偏差。

限制

该论文指出了几个局限性:

  • 有限的操作空间:ReaRAG的操作仅限于搜索和完成,这限制了它在需要编码或实时网络搜索等操作的任务中的适用性。
  • 数据构建效率:该过程计算效率较低,由于有效性问题,大量数据被丢弃,并且在很大程度上依赖LRM遵循指令的能力。
  • 推理延迟:迭代推理增加了推理时间,可能不适合对延迟有严格限制的实时应用场景。

    结论和意义

    结论强调了ReaRAG在增强多跳问答中LRM事实性方面的有效性,它利用迭代推理和外部知识来减少过度思考。其意义在于推动生成式人工智能的发展,特别是在提高大语言模型在复杂的、基于事实的问答中的准确性方面,在教育、研究和客户支持等领域具有潜在的应用价值。

优势和劣势

本文由mdnice多平台发布


柏企科技圈
15 声望4 粉丝