TIP | 自动化所谭铁牛院士团队提出用带注意力机制的图神经网络GARN,多个数据集上SOTA!

【写在前面】

图像-文本匹配旨在衡量图像和文本描述之间的相似性,最近取得了很大进展。这种跨模态匹配任务的关键是在视觉对象和单词之间建立潜在的语义对齐。由于句子结构的广泛变化,仅使用全局跨模态特征来学习潜在语义对齐非常困难。许多先前的方法试图通过注意力机制学习对齐的图像-文本表示,但通常忽略文本描述中确定单词是否属于同一视觉对象的关系。在本文中,作者提出了一种图注意关系网络(GARN),通过对文本中名词短语之间的关系进行建模来学习对齐的图像-文本表示,以进行身份感知的图像-文本匹配。在 GARN 中,作者首先将图像和文本分别分解为区域和名词短语。然后提出了一种跳过图神经网络(skip-GNN)来学习有效的文本表示,它是文本特征和关系特征的混合体。最后,进一步提出了一种图注意力网络,通过对名词短语之间的关系进行建模,获得名词短语属于图像区域的概率。作者对 CUHK Person Description 数据集 (CUHK-PEDES)、Caltech-UCSD Birds 数据集 (CUB)、Oxford-102 Flowers 数据集和 Flickr30K 数据集进行了广泛的实验,以验证模型中每个组件的有效性。实验结果表明,本文的方法在这四个基准数据集上实现了最先进的结果。

1. 论文和代码地址

Learning Aligned Image-Text Representations Using Graph Attentive Relational Network

论文地址:https://ieeexplore.ieee.org/document/9318563

代码地址:未开源

2. 动机

学习视觉和语言是计算机视觉和模式识别社区的一项重要任务,近年来引起了极大的关注。该领域有各种研究任务,例如图像文本检索、视觉问答和图像字幕。深度学习的发展取得了很大的进步。尽管取得了这些进步,但由于视觉和语言之间的语义差距,跨模式匹配仍有待解决。在本文中,作者研究了身份感知图像文本匹配的任务,该任务旨在搜索与文本查询具有相同身份的图像,并检索描述与图像查询相同身份的文本。

然而,这项任务有几个挑战。首先,语言描述和图像外观之间的复杂关系是高度非线性的,例如名词短语和图像区域之间的对应关系。其次,由于关注点不同,人们通常以不同的描述顺序来描述同一个图像。如上图所示,两个句子都描述了中间图像,但它们没有很好地对齐。左边的文字首先描述了 T 恤,而右边的文字首先描述了头发。由于文本中的循环编码方式,不同的句子结构虽然具有相同的语义,但会导致不同的文本特征。总之,直接使用未探索图像和文本之间的语义对齐的未对齐特征进行匹配是不合适的。因此,这项任务的挑战在于学习对齐的跨模态特征。受类似观察的启发,一些先前的方法提出使用注意力机制将图像区域与文本词进行匹配。但是这些注意方法将句子中的不同单词视为个体,**忽略了决定单词是否属于同一视觉对象的单词之间的关

为了解决上述问题,作者提出了一个图注意关系网络(GARN),通过对局部文本特征之间的关系进行建模来学习对齐的图像-文本表示。模型的框架如图2所示。首先利用视觉卷积神经网络(CNN)来提取视觉特征图。然后通过水平池化获得水平表示。对于文本输入,首先提取名词短语,然后使用双向长短期记忆 (LSTM) 网络来学习文本特征。针对名词短语的特点,提出了一种跳跃图神经网络,图中的节点表示句子中的名词短语,边表示节点之间的关系。这种跳过图神经网络可以通过将文本特征与关系特征相结合来学习更有效的文本表示。为了学习对齐的图像-文本表示,作者提出了一个图注意网络来学习图像区域和名词短语之间的对应关系。该注意力网络通过对名词短语之间的关系进行建模来学习名词短语属于图像区域的概率。在训练模型时,我们不仅执行全局匹配,还执行局部匹配以学习更多的判别表示。此外,成对排序损失识别损失都用于联合最小化身份内距离和最大化身份间距离。为了证明所提出模型的有效性,作者在四个身份感知跨模态匹配数据集上进行了实验:CUHK Person Description (CUHK-PEDES) 、Caltech-UCSD Birds (CUB)、Oxford-102 Flowers 和 Flickr30K ,并取得了最先进的结果。

本文工作的主要贡献有四个方面:

• 提出了一种新颖的图注意关系网络 (GARN) 来学习对齐的图像-文本表示。

• 跳过图神经网络旨在通过将文本特征与关系特征相结合来学习有效的文本表示。

• 通过一种新颖的图形注意网络对潜在的视觉语义对齐进行建模,该网络明确地建模了名词短语之间的关系。

• GARN 在四个具有挑战性的基准测试中取得了最佳性能,这验证了模型的有效性。

3. 方法

在本节中,将详细介绍图注意关系网络(GARN)。为了学习更有效的文本表示,作者提出了一个跳跃图神经网络。此外,作者提出了一个图注意力网络来学习图像区域和名词短语之间的潜在语义对齐。除了局部匹配外,全局匹配还用于学习全局判别表示。最后,作者结合使用识别损失成对排名损失来训练 GARN。

A. Visual and T extual Feature Extraction

给定图像,作者使用视觉 CNN 提取视觉特征。图像特征$\phi^{\prime}(I) \in \mathbb{R}^{m^{\prime} \times n \times d}$在视觉 CNN 的最后一个池化层之前获得。然后将$\phi^{\prime}(I)$划分为 m 个水平条纹。在每个条带中,同一列中的向量被平均为单个列向量。然后将$\phi^{\prime}(I)$转换为 $\phi(I) \in \mathbb{R}^{m \times n \times d}$,其中 m×n×d 表示有 m×n 个区域,每个区域由一个 d 维向量表示。全局视觉表示$\psi(I) \in \mathbb{R}^{d}$定义如下:

$$ \psi(I)=\operatorname{avgpool}(\phi(I)) $$

其中 avgpool 表示沿 m × n 个区域的平均池化。局部特征$V(I)$ 是通过沿列向量平均池化$\phi(I) \in \mathbb{R}^{m \times n \times d}$获得的,其中$V(I)=\left\{v_{1}, v_{2}, \ldots, v_{m}\right\}, v_{i} \in \mathbb{R}^{d}$。作者仅对 CUHK-PEDES 数据集使用水平特征。对于 CUB、Flower 和 Flickr30K 数据集,由于它们不具有与 CUHKPEDES 相似的判别水平特征,通过将图像特征 $\phi^{\prime}(I)$划分为 $m^{\prime} \times n$个视觉特征得到局部部分特征 $V(I)$。

给定一个文本 T,首先将每个单词表示为一个 D 维 one-hot 向量。第 j 个词表示为 $w_{i} \in \mathbb{R}^{D}$,其中 D 是词汇量。然后通过一个嵌入矩阵$W_{e}$将单词嵌入到一个 p 维向量中:

$$ x_{j}=W_{e} w_{j}, \quad j \in[1, z] $$

其中 z 表示文本 T 中的单词数。基于嵌入向量,通过双向长短期记忆网络 (bi-LSTM) 对它们进行编码,该网络包含一个前向$\overrightarrow{L S T M}$和一个后向 $\overleftarrow{L S T M}$:

$$ \overrightarrow{h_{j}}=\overrightarrow{L S T M}\left(x_{j}, \overrightarrow{h_{j-1}}\right), \quad j \in[1, z],\\\overleftarrow{h_{j}}=\overleftarrow{L S T M}\left(x_{j}, \overleftarrow{h_{j-1}}\right), \quad j \in[1, z] $$

LSTM 单元输入当前的词嵌入向量$x_{j}$和之前的隐藏状态$h_{j-1}$,并输出当前的隐藏状态$h_{j}$。全局文本表示$e^{t}$定义为最后隐藏状态$\overrightarrow{h_{z}}$和 $\overleftarrow{h_{1}}$ 的concat:

$$ e^{t}=\operatorname{concat}\left(\overrightarrow{h_{z}}, \overleftarrow{h_{1}}\right) $$

对于给定的文本描述,作者利用 NLTK提取名词短语 N。提取过程如上图所示。与文本描述类似,对于 $N =\left(n_{1}, n_{2}, \ldots, n_{q}\right)$,我们根据类似公式表示它。因此,可以得到所有名词短语$e^{n}=\left(e_{1}^{n}, e_{2}^{n}, \ldots, e_{q}^{n}\right)$的表示。需要注意的是,作者在对全局文本描述和名词短语进行编码时采用了相同的 bi-LSTM。此外,名词短语 q 的数量在不同的文本描述中有所不同。

在获得视觉和文本特征后,衡量它们之间相似度的最简单方法是计算余弦分数。但存在如下一些问题。一方面,直接利用全局未对齐特征无法提取图像区域和名词短语之间的潜在对应关系。另一方面,文本输入之间的错位会影响特征学习和匹配。可以在图 1 中看到,这两个句子都在描述同一个图像,但它们的描述方式不同。因此,学习对齐的图像-文本表示具有重要价值。一些工作提出了许多基于注意力的方法来解决这个问题。他们利用视觉(文本)特征来关注文本(视觉)特征或共同注意。但是这些注意方法将句子中不同的名词短语视为个体,而忽略了它们之间的关系,这对于确定它们是否属于同一视觉区域很重要。例如,手机通常是握在手上的,所以名词短语“phone”和“hand”应该通过建模它们的关系来划分到手的相同视觉区域。因此,应该对对象之间的关系进行建模以进行有效匹配。

基于上述分析,作者提出利用图形神经网络(GNN)来建模对象之间的关系来学习对齐的图像-文本表示。

B. Skip-GNN for Textual Representation

首先,作者使用图神经网络来学习有效的文本表示。典型的图由表示句子中的名词短语的节点和表示节点之间关系的边组成。给定一组节点 N 及其关系 R,图定义为 G = (N, R),其中 N = {n1, n2, . . . , nq}。对于 GNN 中的节点 k,时间步 t 的隐藏状态 $s_{k}^{t}$基于其先前的隐藏状态$s_{k}^{t-1}$和从其邻域接收的消息$\eta_{k}^{t}$以循环方式更新。所有节点同时更新。因此,GNN 的公式定义如下:

$$ \begin{aligned} \eta_{k}^{t} &=f\left(\left\{s_{k^{\prime}}^{t-1} \mid k^{\prime} \in \Omega_{k}\right\}\right) \\ s_{k}^{t} &=g\left(\eta_{k}^{t}, s_{k}^{t-1}\right) \end{aligned} $$

其中 f 是消息传递函数,g 是节点更新函数。

在这项工作中,考虑到 ResNet 和 UNet 取得的巨大成功表明跳过连接对于模型优化和性能改进非常有效,作者提出了一个跳过 GNN 来建模名词短语之间的关系以及它们由 bi-LSTM 编码的初始特征。初始特征$e^{n}=\left(e_{1}^{n}, e_{2}^{n}, \ldots, e_{q}^{n}\right)$被馈送到 skip-GNN 作为初始输入。为简单起见,上图显示了具有四个节点的全连接 skip-GNN 模型的结构和更新机制。可以看到,在时间步 t,第 k 个节点输入输入特征$a_{k}^{t-1}$和消息$\eta_{k}^{t}$。作者用名词短语$e_{k}^{n}$的初始特征初始化$a_{k}^{0}$:

$$ a_{k}^{0}=W_{a} e_{k}^{n}+b_{a} $$

其中$W_{a}$是输入嵌入矩阵。由于节点与不同的邻域节点有不同的关系,我们利用邻域节点先前的隐藏状态来定义消息。因此,具有相似特征的节点彼此之间的关系更加密切。

$$ \begin{aligned} \eta_{k, j}^{t} &=W_{m} s_{j}^{t-1}+b_{m} \\ \eta_{k}^{t} &=\sum_{j \in \Omega_{k}} \eta_{k, j}^{t} \end{aligned} $$

其中$W_{m}$是共享消息嵌入矩阵,$\eta_{k}^{t}$表示整个接收到的消息。然后将$\eta_{k}^{t}$和$a_{k}^{t-1}$连接起来作为最终的输入消息。因此,节点不仅可以从它们的邻居接收消息,还可以从它们自己的初始特征接收消息。通过获取的消息,可以更新节点的隐藏状态:

$$ s_{k}^{t}=g\left(\operatorname{concat}\left(\eta_{k}^{t}, a_{k}^{t-1}\right), s_{k}^{t-1}\right), $$

其中g表示节点更新函数,类似于LSTM单元:

$$ \begin{aligned} f_{k}^{t} &=\sigma\left(W_{f} \cdot\left[s_{k}^{t-1}, \eta_{k}^{t}, a_{k}^{t-1}\right]+b_{f}\right), \\ i_{k}^{t} &=\sigma\left(W_{i} \cdot\left[s_{k}^{t-1}, \eta_{k}^{t}, a_{k}^{t-1}\right]+b_{i}\right), \\ \tilde{C}_{k}^{t} &=\tanh \left(W_{C} \cdot\left[s_{k}^{t-1}, \eta_{k}^{t}, a_{k}^{t-1}\right]+b_{C}\right) \\ C_{k}^{t} &=f_{k}^{t} * C_{k}^{t-1}+i_{k}^{t} * \tilde{C}_{k}^{t}, \\ o_{k}^{t} &=\sigma\left(W_{o} \cdot\left[s_{k}^{t-1}, \eta_{k}^{t}, a_{k}^{t-1}\right]+b_{o}\right), \\ s_{k}^{t} &=o_{k}^{t} * \tanh \left(C_{k}^{t}\right), \end{aligned} $$

其中$W_{f}, b_{f}, W_{i}, b_{i}, W_{C}, b_{C}, W_{o}, b_{o}$是学习参数。值得注意的是,这些参数在不同节点之间共享。

然后更新输入特征如下:

$$ a_{k}^{t}=a_{k}^{t-1}+s_{k}^{t} $$

由于节点特征在每个时间步之后都会更新,因此该输入特征可以通过在$a_{k}^{t}$和$a_{k}^{t-1}$之间的跳过连接来融合初始文本特征和节点关系特征。在迭代消息传递 T 步之后,计算最终的融合表示为:

$$ p_{k}=W_{p} a_{k}^{T}+b_{p} $$

其中 $W_p$ 是输出嵌入矩阵。

由于名词短语q的数量在不同的文本描述中有所不同,对于名词短语少于skip-GNN中节点数的文本描述,我们设置了所有未使用节点的隐藏状态、输入消息和输出消息在每个时间步为零,以确保他们无法接收或发送任何信息。

C. Graph Attention Network for Image-Text Alignment

名词短语之间的关系表明它们是否属于同一视觉区域。为了获得名词短语属于图像区域的概率,作者通过对名词短语之间的关系进行建模,提出了一个图注意力网络。

图注意力网络旨在学习skip-GNN模型节点上的注意力矩阵,可以提取与特定图像区域相对应的节点嵌入。我们首先描述使用 GNN 架构生成注意矩阵,然后讨论给定注意矩阵的注意过程。

通过典型的 GNN 生成注意矩阵,如下所示:

$$ A=\operatorname{softmax}\left(G N N_{a t t}\left(e^{n}\right)\right), $$

其中softmax 函数以逐行方式应用。 $e^{n}$是名词短语特征,它被馈送到典型的 GNN。$G N N_{a t t}$的输出维度对应于预定义的数 m。因此,注意力矩阵$A \in \mathbb{R}^{q \times m}$。

A 的每一行对应于 skip-GNN 的 q 个名词短语表示之一,A 的每一列对应于一个图像区域,这提供了每个名词短语表示到图像区域的软分配。使用计算出的 A,执行以下操作:

$$ A t t=A^{T} P, \quad A t t \in \mathbb{R}^{m \times 2 l} $$

其中注意力矩阵 A 聚合了名词短语表示$P=\left\{p_{1}, p_{2}, \ldots, p_{q}\right\}$到part-level cluster,l是bi-LSTM在文本表示学习中的隐藏维度。

D. Local and Global Matching

利用学习到的对齐图像-文本表示,作者测量图像区域和名词短语之间的局部相似性。首先,将图像区域特征 V(I) 和参与的名词短语表示 Att 转换为相同的特征空间:

$$ \begin{aligned} \tilde{v_{i}} &=W_{v} v^{i} \\ \widetilde{a t t_{i}} &=W_{a t t} a t t_{i}, \quad i=1,2, \ldots, m \end{aligned} $$

其中$W_{v} \in \mathbb{R}^{b \times d}$和$W_{a t t} \in \mathbb{R}^{b \times 2 l}$是两个变换矩阵,b 是变换后的特征空间的维数。$a t t_{i}$表示 Att 的第 i 行向量。

然后,图像区域与名词短语的局部相似度定义为:

$$ \begin{aligned} s_{i} &=\cos \left(\tilde{v}_{i}, a \tilde{t} t_{i}\right), \quad i=1,2, \ldots, m \\ S^{l} &=\sum_{i=1}^{m} s_{i} \end{aligned} $$

其中 cos 表示余弦函数。

除了局部匹配外,全局匹配也被用来衡量它们的全局相似度。作者计算全局视觉表示$\psi(I)$和文本表示$e^{t}$之间的全局相关性。

作者首先将全局视觉表示$\psi(I)$和文本表示$e^{t}$转换为相同的特征空间,如下所示:

$$ \begin{aligned} \tilde{e^{t}} &=W_{e^{t}} e^{t} \\ \widetilde{\psi(I)} &=W_{\psi} \psi(I) \end{aligned} $$

其中$W_{e^{t}} \in \mathbb{R}^{b \times 2 l}$和 $W_{\psi} \in \mathbb{R}^{b \times d}$是两个变换矩阵。

然后按如下方式计算全局相似度:

$$ S^{g}=\cos \left(\widetilde{\psi(I)}, \tilde{e^{t}}\right) . $$

E. Learning Procedure

成对排序损失是匹配任务中常用的损失函数,旨在确保正对比负对更接近。许多以前的工作从数据集中随机选择负对,并忽略了mini-batch中其他负样本的影响。在本文中,作者将最难的负样本集中在一个mini-batch中。给定一个正对$\left(I_{p}, T_{p}\right)$,最难的负对定义如下:

$$ T_{\widehat{h}}=\operatorname{argmax}_{t \neq T} S(I, t)\\I_{\widehat{h}}=\operatorname{argmax}_{i \neq I} S(i, T), $$

其中$T_{\widehat{h}}$是图像$I_{p}$的最难文本样本,$I_{\widehat{h}}$是文本$T_{p}$的最难图像样本。因此,本文的排名损失定义为:

$$ \begin{aligned} L_{r}(I, T)=& \max \left(\alpha-S(I, T)+S\left(I, T_{\widehat{h}}\right), 0\right) \\ &+\max \left(\alpha-S(I, T)+S\left(I_{\widehat{h}}, T\right), 0\right) \end{aligned} $$

其中 α 是边距。此损失函数确保正对比最难的负对更接近,这可能决定由 top-1 准确度衡量的成功或失败。对于全局匹配分数,可以获得全局排名损失$L_{r}^{g}$。

除了ranking loss,identity-level匹配也采用了identification loss。全局图像和文本识别损失 $L_{i}^{g}$和 $L_{t}^{g}$ 定义如下:

$$ L_{i}^{g}=-y_{i d} \log \left(\operatorname{softmax}\left(W_{i d}^{g} \widetilde{\psi(I))}\right)\right.\\L_{t}^{g}=-y_{i d} \log \left(\operatorname{softmax}\left(W_{i d}^{g} \tilde{e^{t}}\right)\right) $$

其中$W_{i d}$是用于对特征表示进行分类的变换矩阵,$y_{i d}$是GT身份, $L_{i}^{g}$和 $L_{t}^{g}$ 分别是全局视觉和文本识别损失。

那么总的全局损失定义为:

$$ L^{g}=L_{r}^{g}+\lambda_{1} L_{i}^{g}+\lambda_{2} L_{t}^{g} $$

类似地,可以得到总局部损失$L^{l}$。 λ 是控制每个损失函数的相对重要性的超参数

最终的损失函数定义为:

$$ L=L^{g}+\lambda_{3} L^{l} $$

在测试阶段,我们计算图像-文本对之间的总相似度 S 用于检索评估,其定义如下:

$$ S=S^{g}+\lambda_{3} S^{l} $$

4.实验

将结果与 CUHK-PEDES 的最新方法进行比较。

将结果与 CUB和FLOWER数据集上的最新方法进行比较。

将结果与 FLICKR30K 数据集上的最新方法进行比较。

在 CUHK-PEDES 上提出的 GARN 中不同成分的消融分析。

提出的 GARN 对来自 CUHK-PEDES 的两个示例的每个图像区域的参与名词短语进行可视化。

通过两种模型(基线和 GARN)在 CUHK-PEDES 数据集上给定文本查询的图像检索的定性结果。

CUHK-PEDES 数据集准确性比较结果 (%)。

在 CUB 和 Flower 数据集上给定文本查询的图像检索和给定图像查询的文本检索的定性结果。

提出的基线、baseline+id 和 GARN 在 CUHK-PEDES 数据集上学习的图像和文本特征的 t-SNE 可视化。

5. 总结

在本文中,作者提出了一种图注意关系网络来学习对齐的图像-文本表示,以进行身份感知的图像-文本匹配。本文的主要贡献是通过建模名词短语之间的关系来改进文本表示和学习图像和文本之间的语义对齐。这些分别通过跳过图神经网络和图注意网络来完成。在匹配过程中,全局匹配和局部匹配都被用来学习更多的判别表示。作者在对四个身份感知数据集进行了广泛的实验,实验结果表明,本文的方法比最先进的方法取得了更好的性能,这验证了本文的 GARN 在身份感知图像文本匹配中的有效性。

【项目推荐】

面向小白的顶会论文核心代码库:https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向小白的YOLO目标检测库:https://github.com/iscyy/yoloair

面向小白的顶刊顶会的论文解析:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

“点个在看,月薪十万!”
“学会点赞,身价千万!”

【技术交流】

已建立深度学习公众号——FightingCV,关注于最新论文解读、基础知识巩固、学术科研交流,欢迎大家关注!!!

请关注FightingCV公众号,并后台回复ECCV2022即可获得ECCV中稿论文汇总列表。

推荐加入FightingCV交流群,每日会发送论文解析、算法和代码的干货分享,进行学术交流,加群请添加小助手wx:FightngCV666,备注:地区-学校(公司)-名称

本文由mdnice多平台发布


FightingCV
12 声望3 粉丝