TensorFlow强化学习入门（0）——Q-Learning的查找表实现和神经网络实现

发布于 2018-02-24

与利用函数直接将当前观测转化为行动的策略梯度方法不同，Q-Learning尝试学习给定状态下的对应值并据此在给定状态下作出特定的行动。尽管两者作出行动的手段不同，但是都可以达到在给定场合下作出智能的行动的效果。你之前可能听说过深度Q-网络已经可以玩雅达利游戏了。这其实只是我们下面讨论的Q-Learning算法的更大更复杂的实现而已。

TensorFlow强化学习入门（0）——Q-Learning的查找表实现和神经网络实现 - 云+社区 - 腾讯云

https://cloud.tencent.com/developer/article/1042846

阅读 2.7k

0 条评论

得票最新

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。