ICCV2021|你以为这是一个填色模型？其实我是检索模型！

【写在前面】

语言引导的人称搜索的关键是在视觉输入和文本输入之间建立跨模态关联。现有方法侧重于设计多模态注意机制和新的跨模态损失函数来隐式学习这种关联。作者提出了一种基于颜色推理（LapsCore）的语言引导人搜索表示学习方法。它可以明确地双向建立细粒度跨模态关联。具体来说，设计了一对双子任务，图像着色和文本完成。在前一个任务中，学习富文本信息以对灰度图像进行着色，后一个任务要求模型理解图像并完成标题中的彩色文字空缺。这两个子任务使模型能够学习文本短语和图像区域之间的正确对齐，从而可以学习丰富的多模态表示。在多个数据集上的大量实验证明了该方法的有效性和优越性。

1. 论文和代码地址

LapsCore: Language-guided Person Search via Color Reasoning

论文地址：https://ieeexplore.ieee.org/document/9711140/

代码地址：未开源

2. Motivation

语言引导的人搜索在智能监控中有着广阔的应用前景，因此引起了人们的广泛关注。如上图所示，它旨在从与自然语言描述查询最匹配的大型图像数据库中检索人物。与基于图像和基于属性的person ReID相比，语言查询比图像查询更容易获得，并且提供了比属性更全面和准确的描述。

在语言引导的人员搜索任务中存在两个主要挑战。首先，由于跨模态间隙，很难计算视觉文本的真实性并构建图像-文本对齐。其次，人员搜索是一项细粒度的检索任务：（1）文本为目标人提供非常详细的描述；（2）人物形象在外观上存在明显的跨类差异。

在语言引导人搜索的开创性工作之后，人们投入了大量精力来应对这项任务的挑战。一些工作设计高级模型，学习更好的图像和文本表示。另一些工作中开发了注意力机制，以建立局部图像-文本关联。还有一些工作提出了新的损失函数来缩小视觉和文本特征之间的距离。然而，所有这些方法都隐含地学习了跨模态局部关联，这对模型的学习能力留下了严格的测试。从大量的语言引导人搜索实验中，作者观察到颜色在检索中起着重要作用。面对个人图像，人类倾向于接受视觉颜色来提取外观信息，然后理解与这些颜色相关的衣服或装饰品。因此，作者受到启发，提出了一种新的表示学习方法LapsCore，通过求解颜色推理子任务，引导模型明确学习细粒度跨模态关联。

如上图所示，第一个子任务，文本引导图像着色（IC），是根据其文本描述对灰度图像进行着色。在该任务中，模型能够正确探测文本中丰富的颜色信息，并将其与相应的图像区域对齐。例如，在上图中，不仅需要提取单词“red”，还需要将“shirt”的语义与“red”配对，并且图像中表示“shirt”的空间区域应为红色。因此，可以构造文本到图像的局部关联。对于相反方向的图像到文本，设计了另一个子任务图像引导文本完成（TC）。具体来说，在每个描述句子中，删除所有颜色词，这些空缺需要利用成对的彩色图像来完成。这样，有效的图像区域可以显著地表示，然后与相关的文本短语相关联。虽然颜色推理任务对于人类来说并不复杂，但它们需要模型的全面跨模态理解来解决。通过使用这两个子任务，可以在主任务图像文本匹配中利用更好的多模态表示。此外，作者提出了另一个“颜色”推理子任务$\mathrm{IC}_{f}$，旨在使用字幕完成缺失通道的图像特征，该任务将IC任务从图像颜色通道完成推广到特征语义通道完成。给定输入图像的特征表示，作者部分屏蔽了一些通道，并使用标题来恢复它们。在此过程中，可以探测和利用包括颜色在内的一般文本信息。因此，在颜色不是标题中的主要信息的情况下，它赋予了本文的方法鲁棒性。

为了解决第一个子任务IC，作者将其转化为像素回归问题。将原始图像处理为灰度图像作为输入，并使用成对字幕恢复原始图像。TC任务可以被视为视觉问答问题，其中问题是一个带有颜色词空缺的句子，答案是候选颜色之一。在图像特征通道完成子任务中，作者首先在个人ID分类任务上预训练特征提取器，然后屏蔽视觉特征图，以便使用字幕进行恢复。作者在语言指导的人员搜索数据集cuhk-pedes上进行了广泛的实验。实验证明，该方法可以显著提高性能。对通用图像文本检索数据集的验证也证实了其有效性，包括加州理工大学UCSD Birds、Oxford-102 Flowers、Flickr30k和MSCOCO。

综上所述，本文工作的主要贡献包括:

1）提出了一种新的表示学习方法LapsCore，以便于明确学习细粒度跨模式关联。它通过求解颜色来工作推理子任务、图像着色、文本完成和图像特征通道完成。

2）在具有挑战性的语言指导的人员搜索数据集CUHK-PEDES上进行了广泛的实验。事实证明，LapsCore可以有效地带来可观的性能提升并实现最先进的结果。

3）所提出的方法被证明是通用的，可以纳入不同的基线并带来改进。在其他跨模态检索任务中也证实了该方法的有效性。

3. 方法

在本节中，将介绍所提出的方法LapsCore。如上图（左部分）所示，LapsCore通过两个颜色推理子任务（文本引导图像着色（IC）和图像引导文本完成（TC））生成代表性的多模态特征。

3.1. Text-guided Image Colorization

IC任务旨在利用文本描述对灰度图像进行着色，这些灰度图像从原始图像处理为灰度图像。在此任务中，模型努力理解标题，并探索用于着色的有效信息。因此，可以构建文本到图像的关联。

整个任务可以转化为像素回归问题。多模态回归模型表示为$f_{i c}$，以灰色图像$I_{g r a y}$和描述语句$T_{\text {color }}$对作为输入，并输出恢复的图像。将原始彩色图像I设置为目标，并使用像素均方误差损失$\mathcal{L}_{i c}$：

$$ \mathcal{L}_{i c}=\left\|f_{i c}\left(I_{g r a y}, T_{c o l o r}\right)-I_{\text {color }}\right\|_{2}^{2} $$

为了处理这项任务，作者采用了U-Net框架，该框架对灰色图像进行编码，并通过融合文本信息将其解码为彩色图像，如上图（左上角）所示。在编码阶段，我们从输入中提取多尺度视觉特征。将比例为s的特征图表示为$\mathbf{Y}^{s} \in \mathbb{R}^{h_{s} \times w_{s} \times c_{s}}$，其中h、w、c分别表示高度、宽度和通道。在文本分支中，描述语句被标记并输入到嵌入层。然后，LSTM提取文本特征$\mathbf{X} \in \mathbb{R}^{N}$。

在解码阶段，视觉特征应与文本特征融合以进行着色。因此，我们设计了多模态SE块，应用通道注意机制，以便文本信息可以影响图像特征通道。多模SE块中的操作如上图所示（右上角的灰色虚线框）。首先，视觉特征图Y通过全局池化被压缩为特征向量$\mathbf{v}^{s} \in \mathbb{R}^{c_{s}}$。与文本特征向量X concat，然后将$\mathbf{V}_{s}$馈入两层多层感知器和softmax层以生成注意向量$\mathcal{A}^{s} \in \mathbb{R}^{c_{s}}$。最后，利用$\mathcal{A}^{s}$将$\mathbf{Y}^{s}$更新为多模式表示$\mathbf{Z}^{s}$：

$$ \mathbf{Z}_{i}^{s}=\mathbf{Y}_{i}^{s} \cdot \mathcal{A}_{i}^{s} $$

其中下标$i \in\left\{1,2, \ldots, c_{s}\right\}$表示通道的索引，$\mathbf{Z}_{i}^{s}, \mathbf{Y}_{i}^{s} \in \mathbb{R}^{h_{s} \times w_{s}}, \mathcal{A}_{i}^{s}$是标量。

U-Net的解码器由几个反卷积层组成。首先，编码器中的最后一个$\mathbf{Y}^{s}$穿过第一个反卷积层，以生成特征映射$\mathbf{W}^{s} \in \mathbb{R}^{h_{s} \times w_{s}}$。每个$\mathbf{W}^{s}$与SE块输出$\mathbf{Z}^{s}$串联，并通过反卷积层生成更大的$\mathbf{W}^{s}$。作为最后一步，给定最后一个反卷积层中的$\mathbf{W}^{s}$，使用简单的上采样和卷积来预测目标。

3.2. Image-guided Text Completion

双重任务TC需要利用彩色图像来完成带有彩色单词空缺的文本描述。对于每个句子，删除所有颜色单词以创建 “无色” 描述。这些空位应该通过分析不同图像区域的前景色来填充。这样，可以桥接图像到文本的关系。

此任务可以视为VQA问题。VQA模型，表示为$f_{t c}$，以彩色图像，$I_{\text {color }}$和带有空缺的文本句子$T_{q}$作为输入，并输出缺少的颜色单词。目标答案是从原始描述中删除的颜色单词$T_{a}$。采用典型的交叉损失$\mathcal{L}_{t c}$，公式为:

$$ \mathcal{L}_{t c}= CrossEntropy \left(f_{t c}\left(I_{c o l o r}, T_{q}\right), T_{a}\right) $$

作者参考了流行的VQA模型 (双线性注意网络 (BAN)) 的结构来解决TC任务。见上图（右下角），视觉和文本特征由MobileNet和LSTM从输入数据中提取。将文本特征表示为$\mathbf{X} \in \mathbb{R}^{N \times \rho}$和视觉特征为$\mathbf{Y} \in \mathbb{R}^{M \times \phi}$，其中N是序列长度，ρ是LSTM输出维度，φ表示MobileNet输出的通道号，M=h×w是空间维度的乘积。给定两个模态特征X和Y，通过计算特征patch之间的模糊度分数生成若干双线性注意力图$\mathcal{A}_{g}$，公式如下：

$$ \mathcal{A}_{g}=\operatorname{softmax}\left(\left(\left(\mathbf{1} \cdot \mathbf{p}_{g}^{\top}\right) \circ \mathbf{X}^{\top} \mathbf{U}\right) \mathbf{V}^{\top} \mathbf{Y}\right) $$

其中$\mathbf{U} \in \mathbb{R}^{N \times K}$和$\mathbf{V} \in \mathbb{R}^{M \times K}$是投影矩阵，$\mathbf{1} \in \mathbb{R}^{\rho}$是一个全一向量，$\mathbf{p}_{g} \in \mathbb{R}^{K}$，其中g表示注意力图索引，$\mathcal{A}_{g} \in \mathbb{R}^{\rho \times \phi}$，$0$表示Hadamard积。

在注意力图的帮助下，X和Y融合成联合表示。残差学习方法用于提高表征能力。在第g个残差块中，输出$\mathbf{F}_{g+1} \in \mathbb{R}^{K \times \rho}$的计算公式为：

$$ \mathbf{F}_{g+1}=\mathbf{P}^{\top} \operatorname{BAN}_{g}\left(\mathbf{F}_{g}, \mathbf{Y} ; \mathcal{A}_{g}\right) \cdot \mathbf{1}^{\top}+\mathbf{F}_{g} $$

其中$\mathbf{1} \in \mathbb{R}^{\rho}$是一个全一向量，投影矩阵为$\mathbf{P} \in \mathbb{R}^{K \times C}$。通过将N设置为K，将X用作初始输入$\mathbf{F}_{0}$。生成中间表示的函数，定义为$\mathbf{f}_{g}=\mathbf{B A N}_{g}\left(\mathbf{F}_{g}, \mathbf{Y} ; \mathcal{A}_{g}\right)$，其中$\mathbf{f}_{g} \in \mathbb{R}^{C}$，其第k个元素计算为：

$$ \mathbf{f}_{g, k}=\left(\mathbf{F}_{g}^{\top} \mathbf{U}^{\prime}\right)_{k}^{\top} \mathcal{A}_{g}\left(\mathbf{Y}^{\top} \mathbf{V}^{\prime}\right)_{k} $$

其中$\mathbf{U}^{\prime} \in \mathbb{R}^{N \times K}, \mathbf{V}^{\prime} \in \mathbb{R}^{M \times K},\left(\mathbf{X}^{\top} \mathbf{U}^{\prime}\right)_{k} \in \mathbb{R}^{\rho}，\left(\mathbf{Y}^{\top} \mathbf{V}^{\prime}\right)_{k} \in \mathbb{R}^{\phi}$，矩阵的下标k表示列的索引。

给定最后一个残差块输出的联合特征表示，采用多层感知器（MLP）分类器预测每个单词空缺的颜色类别。

3.3. Generalized IC: Feature Channel Completion

彩色图像由3个通道“YCbCr”组成，灰度图像是删除两个颜色通道“Cb”和“Cr”的结果。重新思考IC任务，其目的是利用文本颜色信息来恢复两个缺失的通道。虽然这种方法可以通过颜色桥接跨模态关联，但当颜色在描述中很小时（例如，在MSCOCO数据集中），可能无法有效地学习文本信息。因此，我们提出了一种广义的IC，表示为$\mathrm{IC}_{f}$，它使用文本来完成图像特征的缺失通道。

如上图所示，ResNet18在识别任务中预训练，以从图像中提取丰富的表示，然后“冻结”为特征生成器。作者屏蔽了图像特征的一些通道，并将屏蔽后的特征输入到完成模型中，以完整的特征为目标。$\mathrm{IC}_{f}$中的完井模型和损失函数与IC中的相同，只是输入和输出比例相应地调整。

3.4. Incorporation

该方法可以作为一种多模态表示学习方法纳入流行的图像文本匹配算法。交叉模态投影匹配和分类（CMPM/C）模型采用了通用框架，该框架分别采用LSTM和MobileNet作为文本和视觉特征提取器。在这里选择CMPM/C作为跨模式匹配模块来实现LapsCore，并且它可以很容易地推广到该框架的其他方法。为了合并，作者删除了CMPM/C中的特征提取层，替换为IC和TC模块的表示层，如图2的左部分所示。将CMPM/C中的匹配损失定义为$\mathcal{L}_{c m p}$，然后将/总体多任务损失L计算为：

$$ \mathcal{L}=\mathcal{L}_{c m p}+\lambda_{1} \mathcal{L}_{i c}+\lambda_{2} \mathcal{L}_{t c} $$

其中$\lambda_{1}, \lambda_{2} \in \mathbb{R}^{+}$是平衡每个子任务重要性的标量因子。将$\mathrm{IC}_{f}$合并到CMPM/C的方式类似，多任务损失写为：

$$ \mathcal{L}=\mathcal{L}_{c m p}+\lambda_{3} \mathcal{L}_{i c_{f}} $$

其中$\lambda_{3} \in \mathbb{R}^{+}$是一个平衡因子。

4.实验

上表展示了本文方法和SOTA结果的对比结果。

上表展示了本文提出的不同模块对实验结果的影响。

给定相同的语言查询，基线（CMPM/C）和本文的方法（CMP+IC\&TC）的检索结果如上图所示。相比之下，本文的方法更有效地检索匹配的人（第一行）。它还揭示了LapsCore使模型对颜色更敏感，从而使检索结果更合理。

上图展示了本文方法对不同的图片进行着色的结果。

上图展示了对着色模块改为其他方法的可视化。

上表展示了这些变体的性能。

上表展示了在其他图文检索数据集上进行检索的实验结果。

5. 总结

在本文中，作者提出了LapsCore，它使用两个颜色推理子任务来改进语言引导的人搜索的表示学习。第一种方法旨在利用文本信息对灰度图像进行着色。在双向上，利用彩色图像来完成标题中的彩色文字空缺。此外，作者提出了完整的视觉特征通道，适用于一般的图像文本匹配任务，其中颜色在标题中不占主导地位。定量和定性实验结果以及广泛的消融研究表明了该方法的优越性。

已建立深度学习公众号——FightingCV，关注于最新论文解读、基础知识巩固、科技新闻速递，欢迎大家关注！！！

FightingCV交流群里每日会发送论文解析，进行学术交流，加群请添加小助手wx：FightngCV666，备注：地区-学校（公司）-名称

面向小白的顶会论文核心代码学习：https://github.com/xmu-xiaoma...

本文由mdnice多平台发布

ICCV2021|你以为这是一个填色模型？其实我是检索模型！

【写在前面】

1. 论文和代码地址

2. Motivation

3. 方法

3.1. Text-guided Image Colorization

3.2. Image-guided Text Completion

3.3. Generalized IC: Feature Channel Completion

3.4. Incorporation

4.实验

5. 总结

FightingCV

引用和评论

MM2022 | 用StyleGAN进行数据增强，真的太好用了

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？