卷积自编码

作者：chen_h
微信号 & QQ：862251340
微信公众号：coderpai
简书地址：https://www.jianshu.com/p/ec4...

这篇教程是翻译Paolo Galeone写的卷积自编码分析教程，作者已经授权翻译，这是原文。

卷积操作符会对输入信号进行滤波操作，以便提取其内容的一部分。在传统的方法中，自编码没有考虑到信号可以被看做是和其他信号的和。相反，卷积自编码就是使用卷积操作来做信号的叠加之和。他们对一组简单的输入信号进行编码，然后对这些信号再进行重新建模。

卷积

图 1. 输入的维度是 4*4*1的，卷积核的维度是 3*3*1的，所以输出的特征图是 2*2*1的

在一般连续状态，卷积被定义为两个函数（信号）被反转和移位之后的乘积的积分：

作为结果，卷积操作会产生一个新的函数（信号）。卷积满足交换操作，因此：

在一般的 n 维空间输入，自编码可以被用来训练解码（编码）。实际上，自编码通常用于对二维的，有限和离散输入信号进行特征提取，比如数字图像。

在二维离散空间，卷积操作可以被定义如下：

因为图像的范围有限，所以该公式可以变为：

其中：

O(i, j) 表示输出像素，位置是 (i, j)
2k+1 是表示矩形奇数卷积核的一条边
F 表示卷积核
I 表示输入图像

对于图1所示，单个卷积核操作在输入图像 I 的每个位置 (i, j) 进行卷积操作。

图2：利用一个手工制作的卷积核对图片进行卷积操作，从而提取输入图像的边缘

从图2可以很容易的看出，卷积操作的结果取决于卷积核的值。根据不同的卷积核设置，每个卷积核可以用于不同的图像处理任务，比如去噪，模糊处理等等....

离散二维卷积操作有两个附加参数：水平和垂直移动步数。它们是在执行单个卷积步骤之后，沿着图像 I 的各个维度跳过的像素的数量。通常，水平和垂直移动步数是相等的，它们被标记为 S 。

对于一个正方形的图像 Iw = Ih （这是为了简单描述，如果要扩充到一般的矩阵图像，非常方便），以步数 2k+1 ，进行二维的离散卷积操作之后，我们可以得到如下的图像 O ：

到目前为止，我们已经利用了单个卷积核对图像进行灰度级（单通道）操作的情况。如果输入图像具有多个通道，即 D 个通道，那么卷积算子沿着每一个通道都要进行操作。

一般规则下，一个卷积核的输出通道数必须和输入图像的通道数一样。所以可以概括为，离散二维的卷积是将信号进行堆叠处理。

各个维度上的卷积

长方体完全可以由三元组 (W, H, D) 来表示，其中：

W≥1 表示长度
H≥1 表示高度
D≥1 表示深度

很明显，一个灰度图像可以看做是深度 D = 1 的长方体，而RGB图像可以看做是深度 D = 3 的长方体。

一个卷积核也可以看做是一个具有深度 D 的卷积核。特别地，我们可以将图像和滤波器视为单通道图像/滤波器的集合（与顺序无关）。

如果我们考虑图像的深度，那么以前的卷积公式可以概括为：

在图像上进行卷积之后，得到的结果称为激活图（activation map）。激活图是深度 D = 1 的长方体。

可能听起来很奇怪，在一个三维图像上的卷积得到的结果是一个二维的结果。实际上，对于具有深度 D 的输入信号，卷积核执行精确的 D 个离散的二维卷积操作。所产生的D个二维的激活图，之后将这D个激活图进行处理，从而得到一个二维的卷积结果。以这种方式，所得到的激活图 O 的每个单位 (i, j) 包含的信息是提取该位置所有信息的结果。

直观地来说，可以将该操作认为是将输入的RGB通道转换成一个单通道进行输出。

卷积自编码

卷积自编码（CAE）从不同的角度来定义滤波器的任务：而不像平时我们遇到的那些工程上的卷积滤波器，它们的作用就是让模型学习到最佳滤波器，从而使得重构误差最小。然后，这些训练好的滤波器就可以被使用到任何其他的计算机视觉任务。

目前利用卷积核进行无监督学习的最先进工具就是卷积自编码（CAE）。一旦这些卷积核被训练学习之后，它们将被应用到任何的输入数据去进行特征提取。然后，这些特征就可以被用于任何的任务，例如分类问题。

CAE是卷积神经网络（CNN）的一种类型：CNN和CAE之间最主要的区别在于前者是进行端到端的学习滤波器，并且将提取的特征进行组合从而用来分类。事实上，CNN通常被称为是一种监督学习。相反，后者通常被用来训练从输入数据中提取特征，从而重构输入数据。

由于它们的卷积性质，不管输入数据的维度是多大，CAE产生的激活图的数量都是相同的。因此，CAE完全忽略了二维图像本身的结构，而是作为了一个通用特征提取器。事实上，在自编码（AE）中，图像必须被展开成单个向量，并且网络对输入向量的神经元个数有一定的约束。换句话说，AE迫使每个特征是全局的（即，跨越整个视野），所以它的参数中是存在冗余的，而CAE不是。