Tensorflow中的dropout

Hinton在论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出了Dropout。Dropout用来防止神经网络的过拟合。Tensorflow中可以通过如下3中方式实现dropout。

tf.nn.dropout

def dropout(x, keep_prob, noise_shape=None, seed=None, name=None):

其中，x为浮点类型的tensor，keep_prob为浮点类型的scalar，范围在(0,1]之间，表示x中的元素被保留下来的概率，noise_shape为一维的tensor（int32类型），表示标记张量的形状（representing the shape for randomly generated keep/drop flags），并且noise_shape指定的形状必须对x的形状是可广播的。如果x的形状是[k, l, m, n]，并且noise_shape为[k, l, m, n]，那么x中的每一个元素是否保留都是独立，但如果x的形状是[k, l, m, n]，并且noise_shape为[k, 1, 1, n]，则x中的元素沿着第0个维度第3个维度以相互独立的概率保留或者丢弃，而元素沿着第1个维度和第2个维度要么同时保留，要么同时丢弃。
关于Tensorflow中的广播机制，可以参考《TensorFlow 和 NumPy 的 Broadcasting 机制探秘》
最终，会输出一个与x形状相同的张量ret，如果x中的元素被丢弃，则在ret中的对应位置元素为0，如果x中的元素被保留，则在ret中对应位置上的值为$原始值 \times \frac{1}{keep\_prob}$，这么做是为了使得ret中的元素之和等于x中的元素之和。

tf.layers.dropout

def dropout(inputs,
            rate=0.5,
            noise_shape=None,
            seed=None,
            training=False,
            name=None):

参数inputs为输入的张量，与tf.nn.dropout的参数keep_prob不同，rate指定元素被丢弃的概率，如果rate=0.1，则inputs中10%的元素将被丢弃，noise_shape与tf.nn.dropout的noise_shape一致，training参数用来指示当前阶段是出于训练阶段还是测试阶段，如果training为true（即训练阶段），则会进行dropout，否则不进行dropout，直接返回inputs。

自定义稀疏张量的dropout

上述的两种方法都是针对dense tensor的dropout，但有的时候，输入可能是稀疏张量，仿照tf.nn.dropout和tf.layers.dropout的内部实现原理，自定义稀疏张量的dropout。

def sparse_dropout(x, keep_prob, noise_shape):
    keep_tensor = keep_prob + tf.random_uniform(noise_shape)
    drop_mask = tf.cast(tf.floor(keep_tensor), dtype=tf.bool)
    out = tf.sparse_retain(x, drop_mask)
    return out * (1.0/keep_prob)

其中，参数x和keep_prob与tf.nn.dropout一致，noise_shape为x中非空元素的个数，如果x中有4个非空值，则noise_shape为[4]，keep_tensor的元素为[keep_prob, 1.0 + keep_prob)的均匀分布，通过tf.floor向下取整得到标记张量drop_mask，tf.sparse_retain用于在一个 SparseTensor 中保留指定的非空值。

案例

def nn_dropout(x, keep_prob, noise_shape):
    out = tf.nn.dropout(x, keep_prob, noise_shape)
    return out


def layers_dropout(x, keep_prob, noise_shape, training=False):
    out = tf.layers.dropout(x, keep_prob, noise_shape, training=training)
    return out


def sparse_dropout(x, keep_prob, noise_shape):
    keep_tensor = keep_prob + tf.random_uniform(noise_shape)
    drop_mask = tf.cast(tf.floor(keep_tensor), dtype=tf.bool)
    out = tf.sparse_retain(x, drop_mask)
    return out * (1.0/keep_prob)


if __name__ == '__main__':
    inputs1 = tf.SparseTensor(indices=[[0, 0], [0, 2], [1, 1], [1, 2]], values=[1.0, 2.0, 3.0, 4.0], dense_shape=[2, 3])
    inputs2 = tf.sparse_tensor_to_dense(inputs1)
    nn_d_out = nn_dropout(inputs2, 0.5, [2, 3])
    layers_d_out = layers_dropout(inputs2, 0.5, [2, 3], training=True)
    sparse_d_out = sparse_dropout(inputs1, 0.5, [4])
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        (in1, in2) = sess.run([inputs1, inputs2])
        print(in1)
        print(in2)
        (out1, out2, out3) = sess.run([nn_d_out, layers_d_out, sparse_d_out])
        print(out1)
        print(out2)
        print(out3)

tensorflow中，稀疏张量为SparseTensor，稀疏张量的值为SparseTensorValue。3种dropout的输出如下，

SparseTensorValue(indices=array([[0, 0],
       [0, 2],
       [1, 1],
       [1, 2]], dtype=int64), values=array([ 1.,  2.,  3.,  4.], dtype=float32), dense_shape=array([2, 3], dtype=int64))
[[ 1.  0.  2.]
 [ 0.  3.  4.]]
 
[[ 2.  0.  0.]
 [ 0.  0.  0.]]
[[ 0.  0.  4.]
 [ 0.  0.  0.]]
SparseTensorValue(indices=array([], shape=(0, 2), dtype=int64), values=array([], dtype=float32), dense_shape=array([2, 3], dtype=int64))

Tensorflow中的dropout

tf.nn.dropout

tf.layers.dropout

自定义稀疏张量的dropout

案例

AGUILLER

引用和评论

条件随机场

打工人逆袭指南：用“多巴胺看板”轻松搞定KPI！

OpenBayes 教程上新丨字节开源 InfiniteYou 图像生成框架，实现高保真面部特征迁移

书籍-《使用TensorFlow和Keras的神经网络》

单卡 4090 即可启动，一键部署 QwQ-32B-AWQ 教程

OpenBayes 教程上新丨CSM 驾到，统统闪开！更鲜活的语音生成，从此告别延迟呆板机械味

[OpenVLA] All attempts to get a Google ... token failed