强化学习算法

阅读 1 分钟

0

引言

在强化学习基础文章中我们提到动态规划方法。动态规划作为一种model-based的方法，使用场景具有非常的局限性。本文将从实际应用角度出发，介绍并对比几种model-free的方法。

算法

算法包括：

model-free VS model-based
- 动态规划DP
- 蒙特卡洛MC
Value-based类
- 蒙特卡洛MC
- 时序差分TD：SARSA
- 时序差分TD：Q-Learning
- Deep Q-learning
- Nature DQN
- Double DQN
- Prioritized DQN
- Dueling DQN
Policy Gradient
- reinforce
Policy Gradient + Value-based
- Actor-Critic

阅读 1.8k更新于 2020-10-25

喜东东

17 声望28 粉丝

不积跬步无以至千里.

« 上一篇

一站式机器学习平台建设实践[转]

下一篇 »

运筹优化中的分支定界算法

引用和评论

推荐阅读

chatgpt仅用4步生成交互式地图

喜东东阅读 699

一文掌握 MCP 上下文协议：从理论到实践

陈明勇赞 6阅读 2.2k

开放创新，昇腾 CANN 再向深处

思否编辑部赞 1阅读 15.7k

AI Agent爆火后，MCP协议为什么如此重要！

程序员海军赞 5阅读 1.1k

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

拓端tecdat阅读 33.8k

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

思否编辑部赞 2阅读 6k

MCP 协议为何不如你想象的安全？从技术专家视角解读

Baihai_IDP赞 2阅读 789

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。