机器学习第五讲:强化学习 → 电子宠物狗试错学习,做对给虚拟奖励

资料取自《零基础学机器学习》
查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


一、核心生活比喻:训练电子狗秘籍 🐶(教材第五章入门案例1

真实模拟场景
刚出生的电子狗有三个基本能力:

graph LR
    A["电子狗宝宝"] --> B["向前走"]
    A --> C["左转右转"]
    A --> D["张嘴咬"]

训练规则

flowchart TD
    Action[""做出动作""] --> Env[""环境反馈""]
    Env -->|"撞墙→扣10分"| Penalty
    Env -->|"捡到骨头→+50分"| Reward
    Env -->|"找到水源→+30分"| Reward

二、完整学习周期解析 🔄(教材第五章训练流程2

以「学接飞盘」为例的完整训练过程:

gantt
    title 强化学习训练阶段
    dateFormat  YYYY-MM-DD
    section 训练阶段
    随机扑跳         :a1, 2023-10-01, 3d
    首次成功接住     :a2, 2023-10-04, 1d
    建立条件反射     :a3, 2023-10-05, 5d
    section 熟练阶段
    预判飞行轨迹     :b1, 2023-10-10, 7d
    高难度花式接盘   :b2, 2023-10-17, 6d

三、关键技术要素拆解 ⚙️

  1. 价值函数(Value Function)
    像电子狗记分板,计算每个动作的长期收益:

    向右转可能奖励:立即得5分 + 未来30秒预期20分 = 总价值25分
  2. 探索与利用的平衡(教材第五章重要概念3

    pie
        title 行为决策比例
        "尝试新路线(探索)" : 40
        "走熟悉路线(利用)" : 60
  3. 马尔可夫决策过程
    每次决策只关注当前状况(电子狗不会纠结之前撞墙的失误)

四、对比传统学习方式 🆚

对比维度监督学习强化学习
反馈方式老师批改试卷环境给出实时评分
学习目标记住标准答案探索得分最大化路径
数据特性静态历史数据动态交互生成数据
典型场景房价预测游戏AI成长

五、现实应用全景图 🌟

  1. 游戏领域

    • 《星际争霸》AI对战世界冠军
    • 赛车游戏自动驾驶模块训练
  2. 工业控制

    • 机械臂自学抓取不规则零件
    • 数据中心智能调节空调节能
  3. 新兴领域

    • 对话机器人自主学习话术(如ChatGPT训练机制)
    • 蛋白质折叠预测(AlphaFold核心原理)

六、入门训练模型演示 🕹️

迷宫找宝箱任务

flowchart LR
    Start -->|"直行→碰壁-2分"| A
    Start -->|"右转→进入通道+1分"| B
    B -->|"左转→找到宝箱+100分"| End

学习曲线
前10次平均得分:-15分 → 第100次平均得分:+82分


七、核心限制与挑战 🚧(教材第五章注意事项4

  1. 奖励设计陷阱
    过度奖励前进速度导致电子狗撞墙次数激增
  2. 维度灾难
    当电子狗需要控制20个关节时,可能产生百万级决策路径
  3. 现实迁移难题
    虚拟训练完美的接飞盘技能,遇到现实风速变化仍会失败

八、精要总结 💎

强化学习本质是让智能体像生物进化般,在持续的环境交互中通过「尝试-反馈-优化」的循环,逐步掌握达成目标的最佳策略(教材第五章核心结论1

(如波士顿动力机器人自学家用物品整理技能🧹,其训练机制就采用了深度强化学习)

目录:总目录
上篇文章:机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律



  1. 《零基础学机器学习》第五章第一节"强化学习基本范式",P.202
  2. 《零基础学机器学习》第五章案例5-2"虚拟训练流程",P.215-218
  3. 《零基础学机器学习》第五章第三节"探索利用平衡",P.228
  4. 《零基础学机器学习》第五章第八节"技术挑战",P.247

kovli
13 声望8 粉丝