导语 | 近年来,随着大语言模型(LLM)的快速发展,检索增强生成(RAG,Retrieval-Augmented Generation)技术逐渐成为大模型落地的重要路径之一。然而,如何将推理能力注入 RAG,并在复杂场景中实现高效、稳定的应用,仍是当前人工智能领域的重要挑战。本文特邀同济大学特聘研究员、博导、腾讯云 TVP 王昊奋深度解析大模型落地过程中 RAG 技术的范式转变,以及推理能力与检索增强生成深度融合带来的新可能性。
作者简介
王昊奋,同济大学特聘研究员、博导、腾讯云 TVP。研究方向包括知识图谱、自然语言处理、对话问答机器人等。长期在一线人工智能公司担任 CTO 之职。是全球最大的中文开放知识图谱联盟 OpenKG 发起人之一。负责主持多项国家级和上海市 AI 相关项目,发表 100 余篇 AI 领域高水平论文,谷歌学术引用 6100 余次,H-index 达到 31。构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”;所构建的智能客服机器人已累计服务用户超过 10 亿人次。目前担任中国计算机学会术语工委副主任,SIGKG 主席,上海秘书长,中国中文信息学会理事,语言与知识计算专委会副秘书长,上海市计算机学会自然语言处理专委会副主任,上海交通大学 AI 校友会秘书长等社会职位。
引言
在大模型技术落地的浪潮中,RAG(检索增强生成)已成为连接通用基座模型与垂直领域应用的桥梁。当前技术演进的核心矛盾在于:如何让大模型在保持通用认知能力的同时,具备精准的领域推理与动态知识更新能力?接下来王昊奋老师将从 RAG 和范式转变谈起,探讨推理大模型的理解及 Reasoning + RAG 的结合与未来展望。
RAG及其范式转变
如今所有大模型都具备深度思考和联网搜索两大功能,RAG 可被视为实现联网搜索的一种方式。在训练大模型时,我们无法预知像 Manus 这样的通用 Agent 会受到热议,但可以明确的是,需要借助外挂知识库或通过向量检索等模块,将知识与大模型相结合。
然而,在大模型的实际落地过程中,存在诸多问题:
● 幻觉:推理模型的幻觉问题在企业应用中是一个严重的缺陷,但在某些场景如阅文等,却可能成为一种特色。
● 信息过时:需要结合外挂知识库与参数化知识,以确保信息的时效性和准确性。
● 效率问题:大模型在进行简单计算时耗能高,效率低下,这在实际应用中是一个亟待解决的问题。
● 数据问题:对于特定领域的知识掌握不够深入,这是数据驱动模型训练的固有问题。
● 推理能力:即使是当前先进的 DeepSeek,在溯因推理和可解释演绎推理方面仍有提升空间。
在大模型的实际应用中,始终追求高效、精准和多功能的平衡。因此在使用计算资源时,会尽量选择最简单、最经济的方式,例如能用单卡就不用多卡,能用一台机器就不用多台机器。同时,还需要实现精准问答、数据频繁更新、可控可解释以及数据隐私保护等功能。
在这种“既要又要还要”的需求下,RAG 应运而生并不断发展。最初的 RAG 很简单,就是索引、检索和生成。但随着技术的发展,结合了更多的搜索和推荐技术,增加了前检索和后检索过程;为了更好地落地应用,模块化 RAG 又将 RAG 打碎重组成更多组件化和服务化的形式,通过编排和能力组织来解决实际问题。
RAG 的主要范式
RAG 的发展还带动了对向量数据库(VectorDB)的思考。在这个过程中,热衷于做很多索引,特别是在数据分块(Chunking)和嵌入(embedding)方面。在 Hugging Face 上,嵌入模型的下载量和关注度一直很高。到了更高级的 RAG 阶段,又开始关注索引的优化,如何在保证数据粒度的同时保持平滑性,如何充分利用原始数据,以及如何进行路由、查询改写、置信度判断等。这些流程类似于推荐系统的召回、精排和重排,还包括内容过滤等,相当于把以前的一些技术重新整合。
随着 RAG 的发展,逐渐形成了标准流程和模块,每个模块包含相应的组件和算法。为了实现 Agentic(智能体)功能,需要反复迭代和调整,对模型进行微调和适配。这就像软件工程一样,需要形成自己的模式(pattern),从线性到条件、分支、循环等组合方式。
模块化 RAG 下的机遇
这不仅激发了 AI 研究者和算法工程师的思考,也吸引了业务工程师、业务专家和产品经理开始思考应该如何选择合适的 RAG 技术、流程、检索器和生成器,以及如何提高投入产出比,进行场景适配、性能优化和应用扩展。
RAG新趋势——Graph与RAG的协同
最近 GraphRAG 在 RAG 领域非常热门,大家都在讨论它,但这个概念其实并不新鲜,只是微软将其推进并引发了很多讨论。那么为什么大家会追求 GraphRAG 呢?主要有以下几点:
● 图的表达能力强:图是一种复杂的数据结构,具有很强的表达能力,能够更好地表示现实世界中的关系和实体。
● Connecting the boss:这个概念源于图数据库的提出,强调将分散在不同地方的多元异构内容组织在一起,才能形成全局观,表示更多的东西。
● 多步推理的可解释性和可溯源性:在多步推理过程中,图结构具有更好的可解释性和可溯源性。大家关注如何用图结构表示知识,如何利用高效的图信息检索,如何进行图推理,以及如何利用图上的知识进行后验校验,以避免幻觉问题。
更轻量高效的 GraphRAG
不过在实际使用 GraphRAG 的时候,会发现它更像是一个演示产物,在实际应用中面临很多挑战。比如,它在处理时会消耗大量 Token,频繁调用请求,难以真正落地应用。举个例子,300 篇文档大约有 0.8M 的 Token 语料,在实际索引过程中,消耗的资源可能是这个数量的 20 倍。其中,抽取、摘要和社区发现等操作占用了大量资源,整个 HTTP 请求可能需要约 1 万次。在这样的情况下,很少有公司能够承担如此巨大的计算和资源成本。
轻量高效的 GraphRAG 构建方法
因此,人们开始思考是否在使用 Graph 时有些过度,是否有必要将所有内容都转化为图结构。一种观点认为,或许只需要将核心、相对稳定的内容图化,而其他内容仍然以文本形式存在,或者采用传统的 Embedding 方法,比如在 RAG 过程中使用的文档分块(Document Chunk)来表示。
此外,考虑到多步推理的需求,人们也在探索是否可以动态选择那些高频、典型、重要的路径,这些路径很可能是后续问答中会用到的。基于这种思考,产生了基于路径的剪枝方法,通过这种方式,我们可以在空间和计算资源上取得更好的平衡。
个性化 GraphRAG
近期,HippoRAG 也一直很受欢迎,从 HippoRAG 到 HippoRAG2,热度持续上升。这个概念是受人脑结构的启发,就像仿脑技术一样。我们的大脑内脑很神秘,HippoRAG 把大模型当作人工的新皮层,把检索功能当作旁海马体的工作区,把 RAG 检索当作外部的海马体。这样一来,系统就像拥有了记忆能力。
HippoRAG2
HippoRAG2 相比 HippoRAG 有几个重要的改进:
- 引入个性化 PageRank(PPR):PPR 在搜索引擎中很常见,它可以帮助我们检索到相关的节点,并通过这些节点的有效连接来计算它们的重要性,从而得到重要的子图。
- 两层编码形式:HippoRAG2 采用了两层编码的形式,一层是密集编码,另一层是稀疏编码,通过这种方式,可以更好地整合概念和上下文信息。
GraphRAG 企业级应用场景
RAG 不仅在企业中应用广泛,在个人助理方面也十分实用。例如在日程管理、行程安排等场景中,像机票改签、航班延误、消费券过期等情况都会影响我们的决策。这时,我们需要从众多记忆中挑选出与当前任务相关的部分,动态调整,并生成更准确的答案来优化决策过程。为了实现这一目标,强化学习被引入来帮助系统更好地选择和调整记忆。
GraphRAG 企业级应用场景
微软推出的 PIKE-RAG 是一个非常工程化的项目。它借鉴了自动驾驶的分层概念,将问答任务分为不同层次:
第 0 层:事实型问答,直接回答具体事实。
第 1 层:需要推理的问答,回答需要逻辑推理的问题。
第 2 层:预测性问答,回答涉及未来预测的问题。
第 3 层:创新性问答,回答需要创新思维的问题。
在这一过程中,知识被原子化并组织成分层异构的图谱,从来源层到信息层,再到组织层和蒸馏后的知识层。同时,系统会进行动态任务分解,以更好地处理复杂任务。
对于 Agent,我们需要大量调用工具,这会存在很多工具的直接依赖和基于参数的依赖。我们可以通过形成一张工具使用图,在这个过程中动态选择工具,并依赖工具上的依赖链进行相应的遍历,从而实现基于 RAG 的 Tool Fusion。这相当于在这个过程中,动态检索我们的工具库和 API 库来进行相应的集成。
DeepSeek技术——DeepSeek引发的技术变革
在 Arena 榜单中,DeepSeek 的排名是通过不断努力逐步提升的,而非一蹴而就。所有像 R1 这样的推理模型的成功,都依赖于非常强大的基座和预训练模型。没有 V3,就不会有 R1 的出现。
大规模推理需要大量数据和强化学习的合成,形成问答对,并对过程进行采样,这非常关键。从学术角度看,R1-zero 比 R1 大很多,它基于 V3 基础,通过大规模强化学习(RL)形成。而 R1 为提高适用性,便于长思维链冷启动,设计了“think”标签,引入格式化奖励和正确性奖励,去掉负担重的 Value Model,采用基于规则的推理导向强化学习,并结合自监督微调(SFT)、拒绝采样(reject sampling)及非推理型任务的强化学习人类反馈(RLHF),从而实现其性能。
DeepSeek 大模型最新技术亮点
在 DeepSeek 开放日的 5 天发布及后续过程中,大家能看到算法与工程的双重创新。如今,大模型相关事物正从专注于算法和模型本身,逐渐发展到关注大模型的系统,再之后更是形成了围绕大模型的生态。在这个生态中,出现了 MOE、MLA 以及多令牌预测等算法和技术创新。为了训练这些模型,人们在两千多张 H800 显卡上运用 HAI-LLM 框架,并采用 FP8 混合精度、PTX、DualPipe 通信优化等工程创新手段。
RAG+Reasoning——如何在RAG中注入推理能力
回顾完 DeepSeek,现在来探讨如何在 RAG 中融入推理能力。在 RAG 场景下,QAnything 的测试表明,现在我们无需为基座模型编写大量指令和示例,而是直接告诉模型任务目标和受众,这标志着提示工程进入了新阶段。同时,由于加入了推理过程,模型会消耗更多 Token 进行自我反思和评估,从而更精准地理解用户意图,细致刻画上下文和推理过程。
R1 模型在 RAG 场景的表现
然而,若将 R1 模型用作检索时的 Embedding,效果会显著下降。这是因为检索更像是一种模式匹配,无需复杂的推理。如果 Embedding 擅长推理和逻辑连接,但在实际匹配任务(如QQ匹配、问答匹配等)中表现不佳,就会导致效果下降。
此外,推理模型高度依赖长上下文,需在大量信息中快速定位关键内容。但在 RAG 场景下,R1 模型表现不稳定,甚至不如单独使用 R1。而且,它更容易受干扰。因此,在处理长上下文、RAG 流程及 Embedding 使用时,仍有许多挑战待解决。
为了在 RAG 中融入推理能力,我提出了一个 Reasoning RAG 工具箱,包含三个关键点:推理主体、推理对象和推理方式,还涉及优化方法。
推理主体
推理主体——LLM/LRM
首先,推理主体可以是大模型、推理模型、策略网络、专属模型或符号系统。例如,CoRAG 利用大语言模型自动构建检索链,并通过拒绝采样确定检索次数。拒绝采样通过评估采样样本是否符合真实分布来近似预测下一个词,常用的方法有 TOP-K 和 TOP-P 截断。
在 O1 推出后,又开发了 search O1 流程,利用推理大模型触发外部知识检索。这个过程从简单的推理模式发展到按需搜索内容,并增加了 Reason-in-Documents 步骤,以确保检索内容的自洽性和精简性。
推理主体——外部模型/系统
此外,推理主体还可以是外部模型或系统,如 Policy Network。通过观察问题和已搜索内容作为状态,判断是否继续搜索作为动作,利用近端策略优化进行训练,这种方法也应用于 RLFH 中。为了提高检索效率,ARM 方法通过混合整型规划实现多源数据对齐,并利用 Beamsearch 和投票技术进行最终选择。
推理对象
推理对象——查询/检索内容
第二部分是关于推理的对象。我们可以将推理过程视为像剥洋葱一样,一层一层地分解查询。例如,LevelRAG 可以将复杂的查询分解为多种简单的查询,如实际的查询、选择、聚合和验证等操作,类似于 SQL 或 GQL 中的算子。在协作过程中,如 OmniThink 所示,当需要撰写综述、行业研究报告或 PPT 时,系统会生成大纲并填充内容。这一过程涉及信息束、概念池的创建,以及内容的迭代扩展和动态整合,从而拓展检索内容、知识源和视角,并在这些视角下扩充支持信息。
推理对象——算子/实体
另一方面,推理还涉及算子和实体的规划。例如,KBQA 的 O1 在知识图谱(KG)上进行算子规划,而 ReAct 则结合推理和行动来预测下一步动作。在图上进行思考(thinking on Graph)时,系统会先检索图,再根据需要检索相关文档,并通过迭代将两者结合,以获得细粒度的感知,同时避免因过于结构化而失去上下文连贯性。
推理方式
推理方式——路径搜索第三部分是关于推理的方式。RAG 的核心问题在于决定是否进行搜索。在许多情况下,大模型本身已经具备足够的知识,无需额外搜索,而搜索有时反而会引入更多噪声。这本质上是一个二叉树决策问题,可以通过动态决策来解决,例如使用模仿学习来确定检索次数和分解序列,并形成校准过程,以提高模型对自身知识边界的认知。最难的部分是让模型意识到自己的知识不足,这是一个极具挑战性的任务。除了二叉树搜索,蒙特卡洛树搜索(MCTS)也是一种常用的方法,它通过选择扩展、评估、模拟和反向传播等步骤,实现较好的分布奖励,并利用远程监督等手段扩充推理链。
推理方式——行为预测
在行为预测方面,我们不仅预测自然 Token,还会预测特殊 Token,如是否进行网络搜索或调用代码编写。此外,使用专用模型进行预测时,可以通过强化学习中的 Actor-Critic 方法,由批评家判断行为优劣,这是大小模型协同非常重要的过程。
优化方法
优化方法包括 SFT 微调、传统强化学习(RL)、PPO 和 DPO 等基于结果监督的方法,以及结合奖励和过程解释的函数。在强化学习中,合成数据时需解决采样偏差、早期模拟易出错和可解释性等问题,通过协同避免偏差,并在 Post-Training 和 Test-Time 双阶段进行 scaling,提升多步推理能力。
推理优化方式——SFT/RL
本质上,这一过程属于马尔可夫决策过程。在外层,我们进行粗粒度的动作判断,如生成查询和答案;在细层,我们控制大模型的 Token 生成,形成丰富内容,并联动 SFT、DPO、PRM 等方法,分别用于动作生成策略微调、偏好学习和动作或内容质量评估。
Reasoning+RAG 的应用场景
Reasoning + RAG 的结合,兼顾了外部知识依赖和复杂推理的需求,使得 LLM 更加胜任复杂的真实场景。这一过程已在金融和医疗领域进行了尝试。金融领域的时间敏感性要求引入线性衰减和优先处理近期数据的机制;医疗领域则涉及医生的假设提出、演绎推理和询证验证,需要推理专家和反思专家的迭代。金融场景结合了复杂的推理任务和高频更新的专业知识,甚至产生流数据;医疗场景则强调领域知识和低幻觉容忍度。
Reasoning +RAG 的应用场景
在企业落地过程中,我们需要有结构化的组织(Graph化)、了解业务并组织好所有流程(Bussiness),以及包括推理、规划、溯源和校验的 Reasoning,而这三者的结合是否能构成新一代 RAG?下一代 RAG 又面临着哪些挑战? 率先落地的 Killer Applications(杀手级应用) 会是什么?下一代 RAG 的技术迭代与落地实践仍面临诸多挑战,这是一条需要持续探索与共建的长路。
结语
在大模型技术的演进中,RAG 正在成为连接通用模型与垂直领域应用的关键桥梁。随着技术从单一的检索生成向模块化、推理化和图结构化的方向发展,RAG 不仅在效率与精准性上不断突破,还在推理能力的注入中展现出巨大的潜力。
未来,RAG 技术将通过推理与图结构的深度融合,进一步推动大模型在复杂场景中的落地,成为驱动行业变革的重要引擎。这一技术的持续创新,不仅将重新定义知识表示与推理的边界,也将为垂直领域应用带来更高效、更智能的解决方案。
TVP,即腾讯云最具价值专家(Tencent Cloud Valuable Professional),是腾讯云授予云计算领域技术专家的一个奖项。TVP 致力打造与行业技术专家的交流平台,促进腾讯云与技术专家和用户之间的有效沟通,从而构建云计算技术生态,实现“用科技影响世界”的美好愿景。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。