【CS 285 DRL Homework 1】模仿学习的策略函数

关于 CS 285 深度强化学习 Homework 1 的笔记很少，百度到前年一些同学的笔记，感觉有点不太对。。

这里写一些个人理解，敬供各位批评。

策略（Policy）函数的实现

连续动作空间 & 高斯策略实现

首先明确，这里的 “连续动作空间” ( $\pi(a|s)$ ) 就是单峰的高斯分布。即动作向量的每个分量连续、独立且分别服从不同参数的高斯分布。

因此首先如果是高斯函数 ( $\pi_{\mu,\sigma}(a|s)$ ) , 则待估计的未知参数为期望和标准差。动作值期望随观测值不同而变化。因此反映在 Pytorch 的实现上就是如下可梯度优化的张量。

nn.Parameter 是一个 Tensor 的包装类。可理解为一个可参与反向传播的特殊张量。这个类可以帮助实现某一部分参数与网络输入无关。
策略期望 $\mu$ 是与 observation 相关的参数。因此是承接观测输入的 MLP

class MLPPolicy(BasePolicy, nn.Module, metaclass=abc.ABCMeta):

    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        # init vars
        if self.discrete:
            pass
        else:
            self.logits_na = None
            self.mean_net = ptu.build_mlp(
                input_size=self.ob_dim, output_size=self.ac_dim,
                n_layers=self.n_layers, size=self.size,
            )
            self.log_std = nn.Parameter(
                torch.zeros(self.ac_dim, dtype=torch.float32, device=ptu.device)
            )

离散动作空间 & 离散策略函数

Gym 框架（包括 Gymnasium）中离散动作空间用 Discrete 表示。

它只能表示一个维度的有限离散取值（多选一），而 MultiDiscrete 是表示多维的离散值（分别多选一）

因此在 CS285 Homework 1 代码中，self.logits_na 是一个动作维度不同取值的概率对数（log-likelihood）

class MLPPolicy(BasePolicy, nn.Module, metaclass=abc.ABCMeta):

    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        # init vars
        if self.discrete:
            self.logits_na = ptu.build_mlp(
                input_size=self.ob_dim,
                output_size=self.ac_dim,
                n_layers=self.n_layers,
                size=self.size,
            )
            self.mean_net = None
            self.log_std = None
        else:
            pass

最后使用 torch.distributions.Distribution （的不同子类）定义分布。在 Pytorch 中分布本身是可以传递梯度的。

使用 torch.distributions.Normal 定义一个正态分布（注意：是正态分布，而不是正态分布采样值）。
distributions.Categorical 定义离散分布。Categorical 本身可以定义多维离散分布

class MLPPolicy(BasePolicy, nn.Module, metaclass=abc.ABCMeta):

    # This function defines the forward pass of the network.
    # You can return anything you want, but you should be able to differentiate
    # through it. For example, you can return a torch.FloatTensor. You can also
    # return more flexible objects, such as a
    # `torch.distributions.Distribution` object. It's up to you!
    def forward(self, observation: torch.FloatTensor) -> Any:
        if self.discrete:
            return distributions.Categorical(self.logits_na(observation))
        else:
            mu = self.mean_net(observation)
            std = self.log_std.exp().expand_as(mu)
            return distributions.Normal(mu, std)

最终通过 sample() 方法对 Distribution 对象采样。注意这个采样值是没有梯度的。

def get_action(self, obs: np.ndarray) -> np.ndarray:
    if len(obs.shape) > 1:
        observation = obs
    else:
        observation = obs[None]
    observation = ptu.from_numpy(observation)
    distr = self.forward(observation)
    return ptu.to_numpy(distr.sample())

上述的实现方法可以参考 PPO 的实现方法。（但优化原理上是不同的）

策略概率函数的优化

Stochastic Policy 的优化实现

如下分析属于个人理解。

上述离散、连续只是策略函数的一个分类。还可以是 Deterministic 或 Stochastic（见 Lecture 4：Tradeoff）

Stochastic：策略函数是一个概率函数 $\pi(a_t|s_t)$ 。同一个 state 可能有不同的 action
Deterministic：state 与 action 是完全的函数映射。比如 Policy 网络的输出就是动作值，或 Q-Learning 中查表确定动作。

又因为， 这里实现的的是模仿学习，是 learned policy 与 experts' policy 的拟合（与其他的 RL 算法不同）。因此本质上是一种 参数估计 。（概率论 DNA 动了（大雾））

矩估计：需要对分布采样。learned policy 采样均值可以近似一阶矩 $E(A)$，而 expert policy 采样均值是 $\bar{A}$ ，那么两个 policy 采样并作 MSE Loss 即可。但是 Distribution.sample() 没有梯度信息
所以这里的方法实际是 极大似然估计：极大化如下对数似然函数。其中 $a_i$ 是 $\pi_{expert}(a|s_i)$ 的采样
$$\log L(\mu,\sigma)=\log(\prod_{i=1}^n\pi_{\mu,\sigma}(a_i|s_i))=\sum_{i=1}^{n}\log(\pi_{\mu,\sigma}(a_i|s_i))$$

具体如下：

class MLPPolicySL(MLPPolicy):
    def __init__(self, ac_dim, ob_dim, n_layers, size, **kwargs):
        super().__init__(ac_dim, ob_dim, n_layers, size, **kwargs)
        self.loss = nn.MSELoss()

    def update(
            self, observations, actions,
            adv_n=None, acs_labels_na=None, qvals=None
    ):
        # TODO: update the policy and return the loss
        self.optimizer.zero_grad()
        observations = ptu.from_numpy(observations)
        actions = ptu.from_numpy(actions)
        action_distribution = self.forward(observations)
        loss = -action_distribution.log_prob(actions).mean()
        loss.backward()
        self.optimizer.step()
        
        return {
            # You can add extra logging information here, but keep this line
            'Training Loss': ptu.to_numpy(loss),
        }

Deterministic 和 Stochastic 不仅局限于强化学习。

同样也是个人分析。

Deterministic：有些模型本身就是 输入和输出的函数，是输入空间和输出空间的绝对映射。
Stochastic：有些模型的输出表示的是 概率分布。比如某些分类问题，网络输出表示的是每一类的概率，最终预测值选最大值的标号。

上述的分类问题情形常用的损失函数就是交叉熵 $H(p, q)$：

$$H(p, q)=\mathrm{E}_{p}[-\log q]=H(p)+D_{\mathrm{KL}}(p | q)$$

它是目标分布 p 的熵，加上 p 与模型分布 q 的 KL散度。Stochastic 模型就是 概率分布之间 的趋近。而 Deterministic 模型则是 值与值之间 的拟合，所以相应的目标函数就是输出预测值和真值的误差。

本文参与了 SegmentFault 思否年度征文「一名技术人的 2022」，欢迎正在阅读的你也加入。

【CS 285 DRL Homework 1】模仿学习的策略函数

策略（Policy）函数的实现

连续动作空间 & 高斯策略实现

离散动作空间 & 离散策略函数

策略概率函数的优化

Stochastic Policy 的优化实现

Deterministic 和 Stochastic 不仅局限于强化学习。

Petrickstar

引用和评论

【CS 285 DRL Homework 2】Policy Gradients 策略优化

vLLM 实战教程汇总，从环境配置到大模型部署，中文文档追踪重磅更新

性能远超SAM系模型，苏黎世大学等开发通用3D血管分割基础模型

【vLLM 学习】基础教程

【Triton 教程】triton.heuristics

【TVM 教程】使用 TVMC Micro 执行微模型

登Nature子刊，俄罗斯研究团队基于机器学习实现万亿级质谱数据搜索，发现未知化学反应

【CS 285 DRL Homework 1】模仿学习的策略函数

策略（Policy）函数的实现

连续动作空间 & 高斯策略实现

离散动作空间 & 离散策略函数

策略概率函数的优化

Stochastic Policy 的优化实现

Deterministic 和 Stochastic 不仅局限于 强化学习。

Petrickstar

引用和评论

【CS 285 DRL Homework 2】Policy Gradients 策略优化

vLLM 实战教程汇总，从环境配置到大模型部署，中文文档追踪重磅更新

性能远超SAM系模型，苏黎世大学等开发通用3D血管分割基础模型

【vLLM 学习】基础教程

【Triton 教程】triton.heuristics

【TVM 教程】使用 TVMC Micro 执行微模型

登Nature子刊，俄罗斯研究团队基于机器学习实现万亿级质谱数据搜索，发现未知化学反应

Deterministic 和 Stochastic 不仅局限于强化学习。