引言
在 强化学习基础 文章中我们提到动态规划方法。动态规划作为一种model-based的方法,使用场景具有非常的局限性。本文将从实际应用角度出发,介绍并对比几种model-free的方法。
算法
算法包括:
model-free VS model-based
- 动态规划DP
- 蒙特卡洛MC
Value-based类
- 蒙特卡洛MC
- 时序差分TD:SARSA
- 时序差分TD:Q-Learning
- Deep Q-learning
- Nature DQN
- Double DQN
- Prioritized DQN
- Dueling DQN
Policy Gradient
- reinforce
Policy Gradient + Value-based
- Actor-Critic
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。