人工智能 - MM2022 | 用StyleGAN进行数据增强，真的太好用了 - 个人文章

MM2022 | 用StyleGAN进行数据增强，真的太好用了

【写在前面】

本文研究了生成文本-图像对的开放性研究问题，以改进细粒度图像到文本跨模态检索任务的训练，并提出了一种通过揭示StyleGAN2模型隐藏的语义信息来增强配对数据的新框架。具体来说，作者首先在给定的数据集上训练StyleGAN2模型。然后，将真实图像投影回StyleGAN2的潜在空间，以获得潜在代码。为了使生成的图像具有可操作性，进一步引入了潜在空间对齐模块来学习StyleGAN2潜在代码与相应文本字幕特征之间的对齐。当进行在线配对数据增强时，作者首先通过随机token替换生成增强文本，然后将增强文本传递到潜在空间对齐模块以输出潜在代码，最后将潜在代码馈送到StyleGAN2以生成增强图像。作者在两个公共跨模态检索数据集上评估了本文的增强数据方法的有效性，其中有希望的实验结果表明，增强的文本-图像对数据可以与原始数据一起训练，以提高图像到文本的跨模态检索性能。

1. 论文和代码地址

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval

论文地址：https://arxiv.org/abs/2207.14428

代码地址：未开源

2. Motivation

为基于深度学习的模型训练收集大量数据标注通常比较困难或昂贵，因此自动数据扩充已被广泛用作提高模型性能的实用技术。现有方法主要局限于单模态数据增强。具体而言，视觉Transformer采用了随机增强和随机擦除，以提高模型性能。然而，目前关于成对跨模态文本图像数据的数据增强技术的研究很少。如果想同时对文本和图像进行数据扩充，并构建有用的文本图像对，挑战似乎是：如何生成具有相同语义信息的扩充文本图像对？

为了解决图像到文本跨模态检索任务的成对数据增强问题，作者提出了一种新的成对文本图像数据增强算法，该算法可以与当前流行的单模态数据增强策略一起使用，并且易于插入现有的检索方法。具体而言，由于文本是由各种词token的组合形成的，因此增加语义词组合的数量可以是一种简单而有效的方法，以产生更多样化的文本特征，从而实现稳健的推理。这意味着可以随机替换文本标题中的部分单词，以构建增强文本。为了进一步匹配增强文本和图像之间的语义一致性，作者从增强文本生成增强图像。

作者利用StyleGAN2模型，该模型可以生成高质量和多样性的图像。值得注意的是，作者在没有条件文本输入的情况下训练StyleGAN2，否则模型生成性能将受到有限的文本图像对的限制。由于StyleGAN的潜在空间W已被证明与语义内容分离，StyleGAN2的分离性使得能够对生成的图像进行有效的语义操作。为此，作者首先将真实图像投影回经过训练的StyleGAN2的潜在空间W，在那里可以获得可用于重建给定图像的潜在代码W。利用投影的w和相应的文本标题，将文本特征映射到空间w，并学习成对w-文本特征表示之间的对齐模型。该过程如上图所示。作者将增强文本输入到经过训练的潜在空间对齐模块中，输出可以用作StyleGAN2的潜在代码w，以生成增强图像。因此，可以获得语义一致的成对增强文本图像数据。

为了评估增强配对数据的有效性，作者对细粒度图像到文本跨模态检索任务进行了实验。受现有生成模型生成能力的限制，很难生成具有多个对象的图像，例如COCO数据集的图像。最近提出的XMC-GAN采用复杂的体系结构来生成像样的COCO图像，这不可能在检索训练期间从文本在线生成增强图像。因此，这里重点关注具有单对象图像的数据集。

在图像到文本跨模态检索任务中，给定一个模态（例如文本）的样本，模型需要从另一个模态中找到相应的数据样本（例如图像），反之亦然。由于本文的跨模态数据增强方法可以在线提供无限的原始文本-图像对，因此可以在现有数据增强方法和检索模型的基础上使用。作者使用多个设置和模型主干进行了实验，实验表明，使用本文的方法的模型可以在两个公共数据集上提高原始性能。最后，作者还给出了扩充数据的定性结果。

在本文中，作者开发了一种新的框架来生成新的文本-图像数据对，以解决跨模态数据扩充问题。本文的模型包括几个新的贡献：（i）提出了一种方法来解决生成的文本和图像之间语义一致性的挑战，这可以通过StyleGAN2模型的投影潜在代码来实现；（ii）作者用随机方法构造增广文本token替换，然后将增强文本传递到潜在空间对齐模块以给出潜在代码，这些代码被馈送到StyleGAN2中以生成增强图像；（iii）作者将所提出的算法应用于图像到文本检索任务，并提高了基准模型的性能。

3. 方法

本文提出的成对交叉模态数据增强方法如上图所示。整个流程可总结为以下三阶段训练方案：

阶段1：仅使用图像训练StyleGAN2模型。StyleGAN2模型将随机噪声空间Z映射到样式潜在空间W，该空间被分离并有助于生成高质量和多样性的图像。

阶段2：将真实图像投影回潜在空间W，并获得给定图像的潜在代码w。然后，学习一个潜在空间对齐模块$E_{l}$ , 其中，文本特征映射为与相应的潜在代码w对齐。

阶段3：以在线方式进行跨模态数据扩充。通过随机token替换来构造增强文本。然后，将增强文本输入到经过训练的对齐模块中$E_{l}$ , 其输出可用作StyleGAN2的潜代码w以生成增强图像。

3.1 Image projection to latent space

StyleGAN2模型可以表示为$G(\cdot): \mathcal{Z} \rightarrow \mathcal{X}$，其中模型使用多层感知器 (MLP) 将初始噪声空间Z映射到样式潜在空间W。然后，StyleGAN2根据解纠缠空间W的潜在代码w生成图像。在给定数据集上训练StyleGAN2模型后，将真实图像投影回潜在空间W。

在这个模块中，将潜在代码w∈ W用于优化。具体地说，首先运行10000个随机噪声输入z，以产生映射的潜代码w=MLP（z）。使用平均值$\mu_{\mathrm{w}}=\mathbb{E}_{\mathrm{Z}} \operatorname{MLP}(\mathrm{z})$作为w的初始化，并且w的近似尺度可以设置为：$\sigma_{\mathrm{w}}^{2}=\mathbb{E}_{\mathrm{z}}\left\|\mathrm{MLP}(\mathrm{z})-\mu_{\mathrm{w}}\right\|_{2}^{2}$，是到中心的平均平方欧几里德距离。作者采用$\tilde{\mathrm{w}}=\mathrm{w}+\mathcal{N}\left(0,0.05 \sigma_{\mathrm{w}} k^{2}\right)$作为生成图像的输入，其中𝑘 从一逐渐变为零。高斯噪声在w上的使用增加了优化过程的随机性，并使全局最优解的找到变得稳定。

作者的目标是从投影的潜在代码的重建图像$\mathrm{x}^{\prime}=G(\tilde{\mathrm{w}})$与原始真实图像x相同。为此，作者采用感知损失作为优化目标，其可以表示为：

$$ \min _{\mathrm{w}} \mathcal{L}_{p}=\|F(\mathrm{x})-F(G(\tilde{\mathrm{w}}))\|_{2}^{2} $$

其中，$F(\cdot)$表示VGG 特征提取模型。优化结果$\mathrm{W}_{o p t}$是可以重建给定真实图像的最接近的潜码。

3.2 Latent space alignment

对于图像x，将图像投影到潜在空间W，得到相应的潜在码$\mathrm{W}_{o p t}$ 。StyleGAN2的潜在空间W已被证明与语义内容分离，其具有与文本特征空间相同的属性。因此可以将文本表示映射到与W相同的空间。此外，由于文本表示可以随原始文本输入进行语义更改，当可以实现文本特征空间和StyleGAN2潜在空间W之间的多模式对齐时，生成的图像可以用给定的文本进行操作。

具体来说，作者采用了LSTM$E_l$为了对文本标题进行编码𝑆 并输出文本表示$\mathrm{t}=E_{l}(S)$, t与w的特征尺寸相同。由于图像和潜在代码之间以及图像和文本之间的配对关系可用，可以采用成对排序损失来学习t和$\mathrm{W}_{o p t}$之间的对齐 ,：

$$ \min _{\Theta_{E_{l}}} \mathcal{L}_{E_{l}}=\left\|\mathrm{w}_{o p t}-\mathrm{t}\right\|_{2}^{2} $$

$\Theta_{E_{l}}$表示文本编码器$𝐸_𝑙$的参数 , 这是潜在空间对齐模块，$\mathrm{W}_{o p t}$在训练期间固定。

这是学习文本编码器$𝐸_𝑙$ 特征空间和StyleGAN2潜在空间W之间对齐的简单而有效的方法，可以利用StyleGAN2的不可分离性并揭示潜在空间W的隐藏语义结构，从而生成的图像可以通过文本进行操作。在对潜在空间对齐模型进行训练后，将文本数据输入到训练后的模型中$𝐸_𝑙$ , 输出文本表示可以被视为StyleGAN2生成图像的潜在代码w。

3.3 Online paired data generation

根据标题，获得了词汇表𝑉 由给定数据集的所有现有单词组成。此外，对于标题中的每个单词token，作者采用spaCy库进行词性标注，例如形容词和名词。然后，作者还收集了一个POS词汇表$V_{p o s}$ , 其中可以从词性标注中检索一组词。

给定标题词token列表$S=\left\{s_{1}, \ldots, s_{N}\right\}$, 作者首先基于替换率𝑟在S中选择部分token , 然后在中随机选取其他token 𝑉 或$V_{p o s}$ 以替换选定的原始token。随机替换后的token列表可以表示为增强文本数据$S^{\prime}$ 。然后输入增强文本$S^{\prime}$进入经训练的潜在空间对准模块$E_{l}$, 输出$E_{l}\left(S^{\prime}\right)$ 可以用作StyleGAN2生成增强图像的潜在代码$I^{\prime}=G\left(E_{l}\left(S^{\prime}\right)\right)$。值得注意的是，更换率𝑟 以及增强策略（例如𝑉 或$V_{p o s}$ ) 是超参数，下面的算法描述给出了完整的过程。

在一个mini-batch中，有原始文本图像对𝐷 = (𝑆, 𝐼) 以及增强对$D^{\prime}=\left(S^{\prime}, I^{\prime}\right)$ 用于训练。在这里，作者使用提出的在线配对数据增强方法进行跨模态检索任务。$E_{t x t}(\cdot) , E_{i m g}(\cdot)$分别表示文本和图像编码器。$F_{D}=\left(E_{t x t}(S), E_{i m g}(I)\right)$和$F_{D^{\prime}}=\left(E_{t x t}\left(S^{\prime}\right), E_{i m g}\left(I^{\prime}\right)\right)$ 表示mini-batch中原始数据和增强数据的提取特征集。

作者采用triplet损失来学习文本和图像数据之间的相似性，如下所示：

$$ \mathcal{L}_{t r i}=\sum_{D, D^{\prime}}\left[d_{a p}-d_{a n}+m\right]_{+} $$

这意味着当使用图像$I_{a}$时作为anchor样本，配对文本$S_{p}$用作正样本。然后选择一个文本$S_{n}$或图像$I_{n}$ 来自不同对的样本作为负样本。作为anchor的文本数据的三元组可以以类似的方式构造。求和符号意味着构造三元组，并对mini-batch的所有文本和图像实例进行训练，包括原始数据𝐷 以及增强数据$D^{\prime}$。为了提高训练的有效性，我们采用了难例样本挖掘方法。

4.实验

作者有两种文本替换策略，即随机替换和POS替换。这两种策略的区别在于，随机替换从要替换的整个词汇表，而词性替换考虑被替换单词的词性token，并检索另一个具有相同词性token的随机单词来替换。

在上表中，作者展示了使用随机替换策略训练的模型的评估性能。

在上表中，作者给出了POS替换策略的结果，其中替换率𝑟 = 0.7用于以下所有实验。

上表展示不同实验设置下的实验结果。

CUB上现有的跨模态检索工作主要集中在类级检索设置上，作者将提出的方法与上表中的各种模型进行了比较。

上表展示了对比各种Recipe1M instacne级检索基准，评估本文提出的方法的性能。

上表展示了在COCO数据集上的检索结果。

上图展示了从增强文本生成的增强图像的可视化，其中使用随机替换策略。

上图展示了原始图像和增强图像

5. 总结

本文提出了一种新的配对跨模态数据增强框架，该框架可以生成无限量的配对数据来训练跨模式检索模型。具体来说，作者使用随机文本替换策略来生成增强文本。为了从增强文本中生成相应的增强图像，首先采用StyleGAN2模型生成高质量和多样性的图像。然后，提出通过本文的潜在空间对齐模块来弥合文本和图像数据之间的差距，该模块将文本特征映射到StyleGAN2的潜在空间W。作者使用StyleGAN2的学习对齐模块的输出来生成增强图像，从而获得增强文本-图像对。通过两个公共数据集上的图像到文本检索任务，作者进一步评估了增强数据的质量。实验结果表明，提出的方法可以在几个不同的基准上有效地提高最新模型的性能。

【项目推荐】

面向小白的顶会论文核心代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向小白的YOLO目标检测库：https://github.com/iscyy/yoloair

面向小白的顶刊顶会的论文解析：https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

“点个在看，月薪十万！”
“学会点赞，身价千万！”

【技术交流】

已建立深度学习公众号——FightingCV，关注于最新论文解读、基础知识巩固、学术科研交流，欢迎大家关注！！！

请关注FightingCV公众号，并后台回复ECCV2022即可获得ECCV中稿论文汇总列表。

推荐加入FightingCV交流群，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请添加小助手wx：FightngCV666，备注：地区-学校（公司）-名称

本文由mdnice多平台发布

MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 用StyleGAN进行数据增强，真的太好用了

【写在前面】

1. 论文和代码地址

2. Motivation

3. 方法

3.1 Image projection to latent space

3.2 Latent space alignment

3.3 Online paired data generation

4.实验

5. 总结

【项目推荐】

【技术交流】

FightingCV

引用和评论

【万字长文】大模型开源开发全景与趋势解读

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略