TensorFlow强化学习入门（2）——基于策略的Agents

发布于 2018-02-26

在本教程系列的（1）中，我演示了如何构建一个agent来在多个选择中选取最有价值的一个。在本文中，我将讲解如何得到一个从现实世界中获取观测值，并作出长期收益最大的行动的agent。正如前文所说，本文解决的问题将是一个完备的强化学习问题。

阅读 1.4k

0 条评论

得票最新

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。