pytorch实现简单的straight-through estimator(STE)

现在深度学习中一般我们学习的参数都是连续的，因为这样在反向传播的时候才可以对梯度进行更新。但是有的时候我们也会遇到参数是离>散的情况，这样就没有办法进行反向传播了，比如二值神经网络。本文中讲解了如何用pytorch对二值化的参数进行梯度更新的straight-through estimator算法。

Question

STE核心的思想就是我们的参数初始化的时候就是float这样的连续值，当我们forward的时候就将原来的连续的参数映射到{-1,, 1}带入到网络进行计算，这样就可以计算网络的输出。然后backward的时候直接对原来float的参数进行更新，而不是对二值化的参数更新。这样可以完成对整个网络的更新了。
首先我们对上面问题进行一下数学的讲解。

我们希望参数的范围是$r \in \mathbb{R}$
我们可以得到二值化的参数 $q = Sign(r)$, $Sign$函数可以参考torch.sign函数, 可以理解为取符号函数
backward的过程中对$q$求梯度可得 $\frac{\partial loss}{\partial q}$
对于$\frac{\partial q}{\partial r} = 0$, 所以可以得出 $\frac{\partial loss}{\partial r} = 0$, 这样的话我们就无法完成对参>数的更新，因为每次loss对r梯度都是0
所以backward的过程我们需要修改$\frac{\partial q}{\partial r}$这部分才可以使梯度继续更新下去，所以对$\frac{\partial loss}{\partial r}$进行如下修改: $\frac{\partial q}{\partial r} = \frac{\partial loss}{\partial q} * 1\_{|r| \leq 1}$, 其中

$1\_{|r| \leq 1}$ 可以看作$Htanh(x) = Clip(x, -1, 1) = max(-1, min(1, x))$对$x$的求导过程, 也就是是说:
$$\frac{\partial loss}{\partial r} = \frac{\partial loss}{\partial q} \frac{\partial Htanh}{\partial r}$$

Example

torch.sign

首先我们验证一下使用torch.sign会是参数的梯度基本上都是0:

>>> input = torch.randn(4, requires_grad = True)
>>> output = torch.sign(input)
>>> loss = output.mean()
>>> loss.backward()
>>> input
tensor([-0.8673, -0.0299, -1.1434, -0.6172], requires_grad=True)
>>> input.grad
tensor([0., 0., 0., 0.])

demo

我们需要重写sign这个函数，就好像写一个激活函数一样。先看一下代码, github源码:
LBSign.py

import torch

class LBSign(torch.autograd.Function):

    @staticmethod
    def forward(ctx, input):
        return torch.sign(input)

    @staticmethod
    def backward(ctx, grad_output):
        return grad_output.clamp_(-1, 1)

接下来我们做一下测试
main.py

import torch
from LBSign import LBSign

if __name__ == '__main__':

    sign = LBSign.apply
    params = torch.randn(4, requires_grad = True)                                                                           
    output = sign(params)
    loss = output.mean()
    loss.backward()

然后我们发现有梯度了

>>> params
tensor([-0.9143,  0.8993, -1.1235, -0.7928], requires_grad=True)
>>> params.grad
tensor([0.2500, 0.2500, 0.2500, 0.2500])

explain

接下来我们对代码就行一下解释pytorch文档链接:

forward中的参数ctx是保存的上下文信息，input是输入
backward中的参数ctx是保存的上下文信息，grad_output可以理解成 $\frac{\partial loss}{\partial q}$这一步的梯度信息，

我们需要做的就是让
$$grad\_output * \frac{\partial Htanh}{\partial r}$$ 而不是让pytorch继续默认的 $$grad\_output * \frac{\partial q}{\partial r}$$
但是我们可以从上面的公式可以看出函数$Htanh$对$x$求导是1，当$x \in [-1, 1]$，所以程序就可以化简成保留原来的梯度就行了，然后裁剪到其他范围的。

reference

torch.autograd.Function
Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1
二值网络，围绕STE的那些事儿
 Custom binarization layer with straight through estimator gives error
定义torch.autograd.Function的子类，自己定义某些操作，且定义反向求导函数

pytorch实现简单的straight-through estimator(STE)

Question

Example

torch.sign

demo

explain

reference

gaoliming

引用和评论

树模型（一）： ID3(附录代码)

英伟达新一代GPU架构（50系列显卡）PyTorch兼容性解决方案

PyTorch PINN实战：用深度学习求解微分方程

10招立竿见影的PyTorch性能优化技巧，让模型训练速度翻倍

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践

从零实现基于扩散模型的文本到视频生成系统：技术详解与Pytorch代码实现