核心目标

掌握任务拆解逻辑(CoT思维链)、工具调用的核心流程

学习资料

1. 论文:《ReAct: Synergizing Reasoning and Acting》

https://arxiv.org/pdf/2210.03629
翻译版直接使用豆包翻译即可

2. 文档:LangChain官方文档“Agent核心概念”章节

LangChain 官方文档“Agent 核心概念”章节核心资料汇总

以下内容均提取自 LangChain 官方文档(含多语言官方站:JavaScript、Python、Go),按“概念定义→核心组件→Agent 类型→工作流程→关键运行时/API”逻辑梳理,确保贴合官方表述:

一、Agent 官方核心定义

LangChain 官方对 Agent 的核心定位是:结合语言模型(LLM)与工具集,能够动态推理任务目标、自主选择工具、迭代执行动作以解决复杂任务的“决策型组件”,区别于“固定流程的 Chain”,核心优势是“根据实时上下文调整行为”。

  • 来自 LangChain 官方 JavaScript 文档(docs.langchain.com):Agents combine language models with tools to create systems that can reason about tasks, decide which tools to use, and iteratively work towards solutions.
  • 来自 LangChain 官方 Python 中文文档(python.langchain.com.cn):代理的核心思想是使用 LLM 来选择要采取的一系列动作,而非执行固定的工具调用链;Agent 可访问工具集合,根据用户输入动态决定是否/如何调用工具。
  • 来自 LangChain 官方 Go 文档(tmc.github.io/langchaingo):Agents enable autonomous behavior by allowing language models to dynamically choose which tools to use based on user input — unlike predetermined chains, agents make real-time decisions about their actions.

二、Agent 核心组件(官方定义)

LangChain 官方文档明确 Agent 系统由 5大核心组件 构成,各组件职责与实现方式如下:

1. 模型(Model):Agent 的“推理引擎”

模型是 Agent 决策的核心,负责分析任务、判断需调用的工具及参数,官方支持“静态模型”和“动态模型”两种配置:

  • 静态模型(Static Model):创建 Agent 时固定配置,全程不变(最常用)。

    • 支持通过“模型标识符字符串”快速初始化(格式:provider:model,如 openai:gpt-4o);
    • 也可通过 provider 包创建实例,自定义参数(如 temperaturemaxTokenstimeout、API 密钥等)。
    • 示例代码(JavaScript 官方文档):

      import { createAgent } from "langchain";
      import { ChatOpenAI } from "@langchain/openai";
      const model = new ChatOpenAI({ model: "gpt-4o", temperature: 0.1, maxTokens: 1000 });
      const agent = createAgent({ model, tools: [] });
  • 动态模型(Dynamic Model):运行时根据当前状态/上下文动态选择模型(用于成本优化、复杂路由),需通过 wrapModelCall middleware 实现。
  • 来源:LangChain 官方 JavaScript 文档(docs.langchain.com)Go 官方文档(tmc.github.io/langchaingo)

2. 工具(Tools):Agent 的“执行手脚”

工具是 Agent 可调用的外部功能模块,官方强调“工具需有清晰描述(让 LLM 识别使用场景)”,并支持“工具包”和“错误处理”:

  • 工具定义:任何可被 LLM 调用的功能(如搜索引擎、计算器、API 接口、文件操作、数据库查询),需明确 name(工具名)和 toolInput(调用参数)。
  • 工具包(Toolkit):官方推荐的“工具集合”,含 3-5 个实现特定目标的关联工具(如“网页问答工具包”含“搜索工具+摘要工具”),降低 Agent 选工具的复杂度。
  • 工具错误处理:官方 Agent 运行时会自动处理工具调用异常(如工具不存在、参数错误、执行超时),无需手动捕获。
  • 工具与 ReAct 循环:工具需嵌入 ReAct(Reasoning + Action)循环,Agent 通过“思考→调用工具→获取观察”迭代使用工具。
  • 来源:LangChain 官方 JavaScript 文档(docs.langchain.com)Python 中文文档(python.langchain.com.cn)Go 官方文档(tmc.github.io/langchaingo)

3. 执行器(Agent Executor):Agent 的“运行管理器”

执行器是 Agent 的核心运行时,负责管理“决策→执行→反馈”的循环,解决 Agent 执行中的复杂性问题:

  • 核心职责

    1. 调用 Agent 生成下一步动作(get_action());
    2. 执行工具并获取观察结果(run(next_action));
    3. 循环直到满足停止条件(Agent 输出 AgentFinish 或达迭代上限);
    4. 处理异常:工具不存在、工具执行错误、Agent 输出无法解析为工具调用、全流程日志记录(支持输出到 stdout 或 LangSmith)。
  • 官方核心实现

    • 主流运行时:AgentExecutor 类(Python/JavaScript/Go 均支持,官方默认推荐);
    • 进阶运行时:基于 LangGraph 的图状运行时(通过 createAgent() 创建,将 Agent 流程拆分为“模型节点”“工具节点”“中间件节点”,支持复杂状态流转)。
  • 官方伪代码(Python 中文文档):

    next_action = agent.get_action(...)
    while next_action != AgentFinish:
        observation = run(next_action)
        next_action = agent.get_action(..., next_action, observation)
    return next_action
  • 来源:LangChain 官方 Python 中文文档(python.langchain.com.cn)JavaScript 文档(docs.langchain.com)Go 官方文档(tmc.github.io/langchaingo)

4. 记忆(Memory):Agent 的“上下文存储”

记忆是可选但关键的组件,负责维持 Agent 与用户的交互上下文(如多轮对话历史、工具调用记录),避免“上下文丢失”:

  • 官方支持的记忆类型:对话缓存记忆(ConversationBufferMemory)、向量存储记忆(结合 Chroma 等向量库实现长期记忆)等;
  • 核心作用:让 Agent 在迭代决策中“记住”历史动作与观察,无需重复调用工具或重复询问用户。
  • 来源:LangChain 官方 JavaScript 文档(docs.langchain.com)Go 官方文档(tmc.github.io/langchaingo)

5. 系统提示(System Prompt):Agent 的“行为准则”

指导 Agent 推理逻辑与工具选择的提示词,官方支持“静态”和“动态”两种:

  • 静态系统提示:创建 Agent 时固定,全程指导 Agent 行为(如“你是一个数据分析 Agent,仅使用计算器和数据库工具”);
  • 动态系统提示:运行时根据当前任务状态调整(如根据用户输入的任务类型切换提示词)。
  • 来源:LangChain 官方 JavaScript 文档(docs.langchain.com)

三、官方定义的 Agent 类型

LangChain 官方文档明确支持以下核心 Agent 类型,适配不同场景:

Agent 类型核心特点适用场景来源(官方文档)
ReAct Agent(MRKL)遵循“思考(Thought)→ 行动(Action)→ 观察(Observation)”循环,结合推理与动作复杂多步骤任务、需要可解释性的场景JavaScript/Go/Python 官方文档
OpenAI Functions Agent依赖 OpenAI 函数调用能力,支持结构化工具参数传递,减少解析错误需精准调用工具(如 API 传参)的场景Go 官方文档(tmc.github.io/langchaingo)
Conversational Agent支持多轮对话上下文,动态调用工具时维持对话连贯性聊天型应用、需要上下文交互的任务Go 官方文档、Python 中文文档
Plan-and-Execute Agent先通过 LLM 生成任务计划(分步骤),再按计划迭代执行工具长期规划类任务(如“写一篇论文”)Python 中文文档、Go 官方文档
Zero-shot Agent无需训练,仅通过工具描述和用户输入选择工具,无历史记忆简单多工具调用任务Python 中文文档

四、Agent 官方工作流程(通用)

LangChain 官方文档统一描述的 Agent 工作流程如下(迭代循环):

  1. 接收输入:Agent 接收用户的自然语言任务或查询;
  2. 计划动作:模型分析输入,结合工具描述和上下文(记忆),决定下一步调用的工具及参数(输出 AgentAction);
  3. 执行工具:执行器调用选中的工具,获取观察结果(Observation);
  4. 处理结果:模型评估观察结果是否满足任务目标;
  5. 决定下一步:若未完成,重复“计划→执行→处理”;若完成,输出 AgentFinish(含最终结果);
  6. 返回响应:将最终结果整理为自然语言反馈给用户。
  7. 来源:LangChain 官方 Python/JavaScript/Go 文档

五、官方关键 API/工具(快速上手)

  1. 核心创建 API

    • JavaScript/TypeScript:createAgent()(基于 LangGraph 构建生产级 Agent,支持模型、工具、中间件配置);
    • Python:initialize_agent()(快速初始化 Agent,如 initialize_agent(tools, llm, agent="react-description"));
    • Go:agents.New()(结合工具集和模型创建 Agent)。
  2. 官方调试工具:LangSmith(官方观测平台,记录 Agent 决策过程、工具调用日志、错误信息)。
  3. 来源:LangChain 官方 JavaScript 文档(docs.langchain.com)Python 中文文档(python.langchain.com.cn)

六、官方文档访问链接(直接查看原文)

  1. LangChain 官方 JavaScript 文档(Agent 核心概念):https://docs.langchain.com/oss/javascript/langchain/agents
  2. LangChain 官方 Python 中文文档(Agent 核心):https://python.langchain.com.cn/docs/modules/agents/
  3. LangChain 官方 Go 文档(Agent 核心):https://tmc.github.io/langchaingo/docs/modules/agents/
  4. LangChain 官方 JavaScript 中文文档(Agent 接口定义):https://js.langchain.com.cn/docs/modules/agents/

    实战任务

    1. 手动编写1个CoT提示词(比如“拆解‘做一份AI Agent学习周报’的任务”);

    提示词设计思路

    符合 CoT 核心:引导模型 “逐步思考”,从目标→模块→内容→顺序→落地,层层递进,模拟人类拆解任务的逻辑;
    具体性:限定场景(自学复盘),明确每个思考环节的输出要求,避免模型输出模糊内容;
    可落地性:每个步骤绑定 “行动 + 目的”,拆解后能直接按步骤执行,无需额外细化。

提示词示例

请以“逐步思考”的方式拆解“做一份AI Agent学习周报(面向自学场景,用于自我复盘+后续优化学习计划)”的完整任务,要求拆解后的步骤具体可执行、逻辑连贯,每个步骤说明“做什么+为什么做”,最终形成可直接落地的执行流程:

  1. 先明确周报的核心目标和受众(自我复盘用),这是拆解的基础——因为目标决定内容侧重点,比如自学复盘需要突出“学会的知识点、未掌握的难点、实战中的问题”;
  2. 接着思考一份“有价值的AI Agent学习周报”应该包含哪些核心模块?每个模块的核心作用是什么?(比如是否需要“学习内容汇总”“关键知识点拆解”“实战成果展示”“问题与改进”“下周计划”等,说明每个模块的必要性);
  3. 然后针对每个核心模块,进一步细化“具体要填写什么内容”“需要哪些素材支撑”(比如“实战成果展示”需要明确“做了哪个项目、用了什么工具、实现了什么功能、遇到什么坑、怎么解决的”);
  4. 再规划模块的排列顺序(逻辑上从“学了什么”到“懂了什么”再到“做了什么”“要改进什么”,符合复盘的认知逻辑);
  5. 最后确定每个步骤的大致时间分配和输出格式(比如用Markdown排版,每个模块控制在多少字数,整体耗时多久),确保任务可落地执行。

请按照这个思考逻辑,输出完整的任务拆解步骤,每个步骤清晰说明“行动+目的”,避免笼统表述。

2. 列出3个AI Agent常用工具及应用场景(如搜索引擎、计算器)

以下工具均来自权威行业文档(如 CSDN、阿里云、腾讯云报告),覆盖个人效率、企业办公、流程自动化核心场景,附具体落地案例增强实用性:

1. 实时信息检索工具(如搜索引擎、实时数据库 API)

核心功能
AI Agent 通过调用搜索引擎(如百度、Google)或实时数据 API(如行业数据库、新闻接口),获取模型训练数据之外的最新、动态、跨领域信息,解决 LLM “知识过时”“信息局限” 问题。
典型应用场景
实时热点 / 行业动态跟踪:企业市场部 Agent 调用新闻 API,每日自动抓取 “AI Agent 行业最新政策”“竞争对手动态”,生成 500 字摘要报告(参考摘要 1、2,如腾讯云智能对话平台集成搜索工具处理电商售后咨询);
跨领域知识验证与补充:科研 Agent 在撰写论文时,通过搜索引擎验证 “2025 年 AI Agent 市场规模” 等数据(避免模型幻觉),并补充最新学术论文链接(参考摘要 3,Paper Agent 自动检索 arXiv 最新文献);
场景化事实确认:个人助理 Agent 帮用户规划旅行时,调用天气 API 获取目的地实时天气、交通 API 查询航班动态,调整行程建议(参考摘要 6,OpenAI Operator 代用户完成旅行规划)。
代表工具 / 技术
百度搜索 API、Tavily 搜索工具、行业垂直数据库接口(如 IDC 市场报告 API)。

2. 文档处理与知识管理工具(如 Notion AI、RAG Agent)

核心功能
实现 “文档解析→信息提取→知识结构化→问答交互” 全流程自动化,支持多格式文档(PDF、Word、笔记),解决 “信息碎片化”“知识复用难” 问题。
典型应用场景
会议纪要与待办提取:企业办公 Agent 接入 Zoom/Teams 录音,自动转文字并提取 “参会人员、讨论要点、待办事项(负责人 + 截止时间)”,生成 Markdown 格式纪要(参考摘要 4,基于 LangChain 的会议纪要 Agent);
私有知识库问答:研发团队 Agent 将技术文档、代码注释、故障解决方案上传至 RAG 知识库,新员工提问 “如何排查 API 调用错误” 时,Agent 基于内部文档精准回答(参考摘要 4,SharePoint Agents、RAG Agent);
文档结构化整理:学生 Agent 将课程笔记、课件 PDF 上传至 Notion AI Agent,自动生成 “章节大纲 + 重点公式 + 考点标注”,支持后续检索(参考摘要 3,Notion AI Agent 的文档大纲生成功能)。
代表工具 / 技术
Notion AI Agent、RAG(检索增强生成)工具、Quick BI 文档解读 Agent(瓴羊)。

3. 流程自动化工具(RPA+AI 融合型,如实在 Agent、金智维)

核心功能
从传统 RPA(固定规则执行)进化为 “AI 决策 + 自动化执行”,支持跨系统操作(如 Excel、CRM、财务软件),替代人工完成重复、规则明确、高容错要求的流程性工作。
典型应用场景
财务报销审核自动化:企业财务 Agent(如实在 Agent)接收员工报销单,自动读取发票金额、校验 “差旅补贴标准”(调用企业规则库)、录入 Excel 台账,异常单据自动标记并通知审核员(参考摘要 3,实在 Agent 的财务流程自动化案例);
客户信息跨系统同步:电商 Agent 将订单系统的 “客户姓名、联系方式” 自动同步至 CRM 系统,同时更新库存管理系统的 “商品剩余数量”,避免人工录入错误(参考摘要 6,金智维的跨系统数据整合功能);
政务 / 企业数据归档:政务 Agent 将居民办事材料(身份证、申请表)扫描件转化为结构化数据,自动归档至政务数据库,并生成 “归档编号” 反馈给用户(参考摘要 6,RPA+AI 在政务场景的落地)。
代表工具 / 技术
实在 Agent(基础版免费)、金智维(金融级)、Adept AI(企业软件自动化)。
工具选择建议
个人 / 轻量需求:优先选 “搜索引擎 + 文档处理工具”(如 ChatGPT Agent+Notion AI),满足学习、办公基础需求;
企业流程需求:优先 RPA+AI 工具(如实在 Agent、金智维),聚焦 “降本增效” 场景(如财务、客服);
高精准度需求:搭配 “实时检索工具 + 文档工具”,避免模型幻觉(如科研、金融风控)。


AIAgent研究
7.2k 声望12.8k 粉丝

一群有AI的人 研究AI-Agent的开发,做优秀的AI应用;