柯克·罗瑞格 - SegmentFault 思否

柯克·罗瑞格

发布于 2 月 21 日

主要观点：介绍了强化学习中的策略梯度方法，通过简单到复杂的示例来直观理解其核心概念和应用。
关键信息：

策略是根据环境状态决定采取行动的函数，以概率分布形式输出，可通过 softmax 函数实现。
奖励函数用于衡量行动的好坏，可为正或负，引导策略趋向好结果。
计算动作概率是直接提取策略输出概率向量中对应动作的概率。
通过计算所选动作概率关于策略参数的梯度，并使用梯度上升法调整参数，以增加好结果动作的概率，减少坏结果动作的概率。
在更复杂的“冰球世界”示例中，状态空间包括冰球和目标位置，动作空间为同时选择水平和垂直动作，通过特征向量和矩阵乘法定义政策，并根据奖励函数调整参数。
重要细节：
符号说明：标量用常规符号，向量用加粗符号，矩阵用大写符号。
示例细节：如“Hello, World!”示例中简单环境下政策选择动作及调整概率，“冰球世界”示例中环境描述、状态空间、动作空间、政策定义、奖励函数及优化过程等。
资源推荐：如 David Silver 的 RL 课程、相关论文及书籍等。

阅读 7