头图

动机

GAN 中的生成器通常以随机采样的潜在向量 z 作为输入,生成高保真图像。通过改变潜在向量 z,我们可以改变输出图像。

然而,为了改变输出图像中的特定属性(例如头发颜色、面部表情、姿势、性别等),我们需要知道移动潜在向量 z 的特定方向。

以前的一些文章试图以监督的方式解释潜在的语义。他们通常标记数据集并训练属性分类器来预测图像的标签,然后计算每个标签的潜在代码 z 的方向向量。虽然这项任务有一些无监督的方法,但它们中的大多数都需要模型训练和数据采样。

论文提出了一种名为 SeFa 的封闭形式和无监督方法,可以无需数据采样和模型训练并找出这些方向向量来改变输出图像中的不同属性。

  • 封闭形式的解决方案是具有有限数量的标准操作的数学表达式。
  • “无监督”一词意味着我们不需要标记数据集。

移动潜在代码

为了有意义地改变潜在代码,需要首先识别一个语义上有意义的方向向量 n。新的潜在代码计算为 z'=z+αn,其中 α 是朝向 n 方向的步数。

问题是我们如何找出语义上有意义的方向向量 n?

相关研究——PCA 方法

在之前发表的论文 GANSpace: Discovering Interpretable GAN Controls 中,Härkönen 等人对采样数据进行主成分分析(PCA)以找出潜在空间中的主要方向向量。

提醒一下,PCA 是一种找出大变化轴的工具

我们以 StyleGAN 中的生成器为例。在进入每个中间层之前,潜在代码 z 将被发送到全连接层 (FC)。

提出的方法如下:首先采样 N 个随机向量 {z₁, z₂, …, zₙ},然后将它们输入 FC 层以获得投影输出 {w₁, w₂, …, wₙ}。因此,我们将 PCA 应用于这些 {w₁, w₂, ..., wₙ} 值以获得 k 维基础 V。

给定一个由 w 定义的新图像,可以通过改变 PCA 坐标 x 对其进行编辑,然后将其输入合成网络,如下所示。

虽然这种 PCA 方法是无监督的,但它需要数据采样,并且效率低下。但是提到这种方法,因为它与今天的主题——SeFa 有相似之处。

SeFa - 语义分解

最先进的 GAN 模型通常由多个层组成。每一层都学习从一个空间到另一个空间的转换。论文的重点研究第一个变换,它可以表述为仿射变换,如下所示。

如果我们将 z'=z+αn 应用于输入潜在代码,则第一个转换公式可以简化如下。

由于G₁(z+αn)=G₁(z)+αAn,我们知道如果给定一个潜在码z和方向向量n,则可以通过在变换后的投影码上加上αAn来实现编辑过程。

从这个角度来看,权重参数A应该包含图像变化的基本知识。因此,可以通过分解 A 来发现重要的潜在方向。

SeFa 算法类似于之前的 PCA 方法。但是它不是将 PCA 应用于投影的潜在代码 G₁(z)=y,而是直接将非常相似的过程应用于投影层的权重(G₁ 的权重)。

就像 PCA 一样,这个过程也是为了找出在 A 的投影后可能导致较大变化的方向向量。它被表述为以下优化问题。

要找出 k 个最重要的方向 {n₁, n₂, ..., nₖ}:

这里的 N = [n₁, n₂, ..., nₖ] 对应于 top-k 语义

为了防止方程在 ||nᵢ|| 时产生解 → ∞,我们将 nᵢ 限制为单位向量,并将拉格朗日乘数 {λ₁, λ₂, ..., λₖ} 引入方程。

通过对每个 nᵢ 进行偏导,我们有:

这与 PCA 非常相似,唯一的区别是 SeFa 方法将协方差矩阵 S 替换为 AᵀA,其中 A 是 G₁ 的权重。

其中 λ 是特征值,n 是特征向量

SeFa 不是计算协方差矩阵的特征向量,而是计算 AᵀA 的特征向量。因此不需要采样任何数据来计算投影向量的协方差矩阵。这使得算法更容易和更快,也使它成为封闭形式。

泛化性

论文展示了他们如何将 SeFa 算法应用于以下 3 种类型的 GAN 模型:PGGAN、StyleGAN 和 BigGANs。以下是显示他们每个人如何将潜在向量 z 输入到他们的生成器的简要图表。

PGGAN

PGGAN 生成器就像传统的生成器一样,其中潜在代码 z 在进入合成网络之前被馈送到全连接层 (FC)。对于这种生成器结构,SeFa 研究了从潜在代码到特征图的转换。(第一个 FC 层的权重)

StyleGAN

在 StyleGAN 生成器中,潜在代码被转换为样式代码,然后被发送到每个卷积层。SeFa 算法非常灵活,因此它支持解释所有或任何层子集。沿第一轴连接所有目标层的权重参数(即 A),形成更大的变换矩阵。

BigGAN

在 BigGAN 生成器中,潜在代码将被输入初始特征图和每个卷积层。BigGAN 的分析可以看作是上述两种 GAN 的组合。

结果

引用

[1] E. Härkönen, A. Hertzmann, J. Lehtinen and S. Paris, “GANSpace: Discovering Interpretable GAN Controls”, arXiv.org, 2022.

[2] Y. Shen and B. Zhou, “Closed-Form Factorization of Latent Semantics in GANs”, arXiv.org, 2022.

https://www.overfit.cn/post/e9e614d774f743509fc9ede06e8c16f9

作者:Steins


deephub
119 声望92 粉丝