大模型应用开发第二讲:核心能力:自主性、适应性、推理能力

资料取自《大模型应用开发:动手做AI Agent 》
查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


一、自主性:“自己拿主意”

定义:无需人类实时指挥,自己能决策并行动(像外卖骑手知道抄近路)1。

1. 核心逻辑

  • 感知信息:通过感知器收集数据(如用户需求、环境数据)[1]。
  • 分析决策:知识库 + 决策引擎判断该干什么(类似大脑判断“现在该转弯了”)1。
  • 执行行动:调用工具完成任务(如自动订票、发邮件)3。

生动例子

场景:你告诉家庭管家Agent“明早8点开会,别迟到!”

  • 自主行动:Agent 自动做三件事:
    1. 查天气 → 发现早高峰有暴雨。
    2. 调整闹钟 → 从7点改到6点半。
    3. 预约专车 → 选最便宜的车型。
    最终效果:你睡醒时专车已在楼下,PPT同步发到了你手机1。
flowchart TD
    A[用户指令] --> B(感知器: 解析需求)
    B --> C(知识库: 查询历史数据/规则)
    C --> D(决策引擎: 分析最优解)
    D --> E(执行器: 调用闹钟/打车工具)

▲ 自主性实现流程(引用章节1、3)


二、适应性:“遇事不慌,随机应变”

定义:环境变化时快速调整策略(像老司机遇到堵车换路线)1。

1. 两大应变场景

  • 突发问题:比如预算超标后自动降级酒店2。
  • 长期习惯:学习用户偏好(比如发现你爱吃川菜,优先推荐火锅店)2。

生动例子

场景:旅行Agent规划了“杭州游轮晚餐”,但当天突遇大风停航。

  • 适应性响应
    1. 感知变化 → 从天气API获取停航通知。
    2. 重新规划 → 替换为“西湖夜景餐厅+宋城演出票”。
    3. 通知用户 → 发消息解释原因并附新方案2。

底层支持

  • 知识库动态更新:存储最新规则(如天气影响条款)[1]。
  • 工具灵活调用:切换订票接口(游轮→餐厅)[6]。

三、推理能力:“像福尔摩斯一样思考”

定义:基于逻辑分析复杂问题,生成合理解决方案(像医生结合症状开药)2[5]。

1. 推理三大步骤

1. 任务拆分:把复杂问题拆解成子任务(如“设计旅行” → 拆分成交通、住宿、景点)。
2. 数据关联:结合上下文寻找关联(如预算2000元 → 排除五星级酒店)。
3. 逻辑验证:检查方案是否自洽(如时间是否冲突、预算是否超支)3。

生动例子

场景:用户说:“我想带父母去三亚,他们腿脚不便,预算1万。”

  • 推理过程
    1. 任务拆分:交通(直飞航班)、住宿(无障碍酒店)、景点(少走路的项目)。
    2. 跨工具协调

    • 查航班 → 选中午起降(避免老人早起)。
    • 筛选酒店 → 带电梯且靠近海滩。
    • 推荐景点 → 游轮观光 + 海鲜自助餐厅2。

技术支撑

  • 大模型逻辑链:GPT-4等模型的“思维链”能力(Chain-of-Thought)2。
  • 工具协作验证:调用计算器核算总费用,避免超支3。
flowchart LR
    A[用户需求] --> B(拆解任务)
    B --> C(关联知识库)
    C --> D{逻辑验证}
    D -->|通过| E(生成方案)
    D -->|不通过| F(重新规划)

▲ 推理能力闭环(引用章节2、3、5)


能力总结与章节索引

最终效果

  • 用户省心:只需提需求,Agent自动搞定细节。
  • 效率翻倍:24小时待命,错误率低于人类。

参考资料定位提示:书中关于Agent四要素(规划、记忆、工具、行动)的架构设计(《大模型应用开发:动手做AI Agent 》第2章)和RAG技术(《大模型应用开发:动手做AI Agent 》第5章)是理解上述能力的技术基石。


目录:总目录
上篇文章:大模型应用开发第一讲:AI Agent定义
下篇文章:大模型应用开发第三讲:大模型是Agent的“大脑”,提供通用推理能力(如GPT-4、Claude 3)



kovli
13 声望8 粉丝