TensorFlow强化学习入门(0)——Q-Learning的查找表实现和神经网络实现

与利用函数直接将当前观测转化为行动的策略梯度方法不同,Q-Learning尝试学习给定状态下的对应值并据此在给定状态下作出特定的行动。尽管两者作出行动的手段不同,但是都可以达到在给定场合下作出智能的行动的效果。你之前可能听说过深度Q-网络已经可以玩雅达利游戏了。这其实只是我们下面讨论的Q-Learning算法的更大更复杂的实现而已。

阅读 2.7k
0 条评论