机器学习第五讲:强化学习 → 电子宠物狗试错学习,做对给虚拟奖励
资料取自《零基础学机器学习》。
查看总目录:学习大纲
关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南
一、核心生活比喻:训练电子狗秘籍 🐶(教材第五章入门案例1)
真实模拟场景:
刚出生的电子狗有三个基本能力:
训练规则:
二、完整学习周期解析 🔄(教材第五章训练流程2)
以「学接飞盘」为例的完整训练过程:
三、关键技术要素拆解 ⚙️
价值函数(Value Function)
像电子狗记分板,计算每个动作的长期收益:向右转可能奖励:立即得5分 + 未来30秒预期20分 = 总价值25分
探索与利用的平衡(教材第五章重要概念3)
- 马尔可夫决策过程
每次决策只关注当前状况(电子狗不会纠结之前撞墙的失误)
四、对比传统学习方式 🆚
对比维度 | 监督学习 | 强化学习 |
---|---|---|
反馈方式 | 老师批改试卷 | 环境给出实时评分 |
学习目标 | 记住标准答案 | 探索得分最大化路径 |
数据特性 | 静态历史数据 | 动态交互生成数据 |
典型场景 | 房价预测 | 游戏AI成长 |
五、现实应用全景图 🌟
游戏领域
- 《星际争霸》AI对战世界冠军
- 赛车游戏自动驾驶模块训练
工业控制
- 机械臂自学抓取不规则零件
- 数据中心智能调节空调节能
新兴领域
- 对话机器人自主学习话术(如ChatGPT训练机制)
- 蛋白质折叠预测(AlphaFold核心原理)
六、入门训练模型演示 🕹️
迷宫找宝箱任务:
学习曲线:
前10次平均得分:-15分 → 第100次平均得分:+82分
七、核心限制与挑战 🚧(教材第五章注意事项4)
- 奖励设计陷阱
过度奖励前进速度导致电子狗撞墙次数激增 - 维度灾难
当电子狗需要控制20个关节时,可能产生百万级决策路径 - 现实迁移难题
虚拟训练完美的接飞盘技能,遇到现实风速变化仍会失败
八、精要总结 💎
强化学习本质是让智能体像生物进化般,在持续的环境交互中通过「尝试-反馈-优化」的循环,逐步掌握达成目标的最佳策略(教材第五章核心结论1)
(如波士顿动力机器人自学家用物品整理技能🧹,其训练机制就采用了深度强化学习)
目录:总目录
上篇文章:机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律
- 《零基础学机器学习》第五章第一节"强化学习基本范式",P.202 ↩
- 《零基础学机器学习》第五章案例5-2"虚拟训练流程",P.215-218 ↩
- 《零基础学机器学习》第五章第三节"探索利用平衡",P.228 ↩
- 《零基础学机器学习》第五章第八节"技术挑战",P.247 ↩
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。