ViT功能可视化:探索视觉Transformer学到了什么

LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文
知乎【柏企】
个人网站https://www.chenbaiqi.com

本研究解决了在ViT(视觉Transformer)中进行可视化的障碍,并分析了各种ViT变体的机制,包括DeiT、CoaT、ConViT、PiT、Swin和Twin,得出以下结论:

  • 通过语言模型监督(例如CLIP)训练的ViT中的神经元由语义概念而不是视觉特征激活。
  • ViT也可以检测图像背景特征,就像CNN(卷积神经网络)一样,但它们的预测对高频信息的依赖要少得多。
  • 两种架构类型的行为方式相似,特征从早期层的抽象模式到后期层的具体对象。
  • ViT在除最后一层之外的所有层中维护空间信息,其中空间信息被丢弃并表现为全局池化操作。

代码存储库位于:https://github.com/hamidkazemi22/vit-visualization

推荐阅读:【论文讲解25:视觉变形金刚】

ViT功能可视化

从随机噪声开始,采取梯度步骤来最大化特征激活。为了增强画质,惩罚总变化,并采用抖动增强、ColorShift增强和增强集成。发现高斯平滑有助于实验中更好的可视化,这在特征可视化中很常见。

ViT通过使用具有每个补丁多个条目的数组A来表示特定层l处输入图像x的每个补丁p。这些数组有助于形成特征向量f,其中向量中的每个条目来自连接来自每个补丁数组的特定条目。优化目标是最大化特征向量中这些条目在输入上的总和。然后是主要损失:

通过添加一个项来控制可视化的平滑性。增强输入图像并优化这些增强版本(a_k(x))增强了最终的可视化质量。最后,最佳化问题是:

为了更好地理解可视化功能的内容,每个可视化都与来自ImageNet验证/训练集的图像配对,这些图像最强烈地激活了相关功能。本文中的大多数示例都使用ViT-B16。

多头注意力层的特征被可视化,包括键、查询和值的可视化,通过执行激活最大化。可视化的前馈特征被发现比其他层更具可解释性。

在实验中可视化了GELU层的输出

假设网络利用这些高维空间来存储相对松散的表示。另一方面,将特征压缩到低维空间可能会导致特征混乱,产生无法解释的可视化。

最后一层代币混合

据观察,尽管缺乏CNN的归纳偏差,但ViT学会了保留空间信息。然而,网络的最后一层表现不同,似乎起到类似于平均池的作用。

ViT使用仅应用于CLS令牌上的全连接层。网络有可能在最后一层全球化信息,以确保CLS令牌可以访问整个图像。假设CLS令牌在整个网络中扮演相对较小的角色,直到最后一层才用于全球化。

“CLS”表示注意力只在最终注意力块之前的补丁之间进行的实验,而“补丁平均”和“补丁最大值”是指分类头放在单个补丁顶部而不进行微调的实验。

有趣的是,当通过在早期层中删除对CLS令牌的访问并仅在最后一层中重新引入它来测试网络时,网络仍然可以很好地对图像进行分类。这表明CLS令牌主要只在最后阶段收集全局信息。

当训练用于分类图像的分类头应用于CLS令牌顶部的其他补丁时,验证集上的分类精度热图

在另一个实验中,在CLS令牌之上训练用于对图像进行分类的全连接层被获取,并且没有任何微调或适应,并一次应用于每个补丁。这种设置仍然成功地非常准确地对图像进行分类,这表明最后一层全球化行为并不是CLS令牌独有的,而是实际发生在最后一层的每个补丁中。

ViT和CNN的比较

像CNN一样,ViT也经历了注意到颜色和边缘等基本事物的层,然后移动到更复杂的细节,如对象。

ViT B-32可视化特征的进展

内部层中的特征激活映射可以有效地分割图像中相对于语义概念的内容

通过使用ImageNet提供的边界框遮蔽一组评估图像上的前景或背景,还检查了ViT和CNN对背景和前景图像特征的依赖。

ViT更有效地将背景信息与正确的类相关联

ViT似乎擅长使用背景信息来识别事物,而CNN则依赖于背景和前景。即使图像的一部分被删除,ViT仍然表现良好,不像CNN。

为了研究纹理在模型预测中的作用,ImageNet测试图像中的高频分量通过低通滤波被过滤掉。虽然当从输入中删除高频纹理信息时,ResNet的预测会受到很大影响,但ViT似乎是有弹性的。

低通滤波对top-1 ImageNet精度的影响

具有语言模型监督的ViT

使用语言监督训练ViT将要求网络提取不仅适合检测名词的特征(例如像“鸟”这样的简单类标签),而且还可以修改介词和绰号等短语,观察到一些这样的特征,这些特征在仅作为图像分类器训练的ViT中不存在。

左:特征优化显示清晰的边界,最大限度地激活ImageNet示例包含不同的相邻图像。中:特征优化和最大限度地激活ImageNet照片都显示来自高架有利位置的图像。右:特征优化显示一群人,但最大限度地激活图像表明对象的重复比对象的类型更相关。

ViT中使用CLIP训练的与发病率和音乐类别相关的功能。每个类别中左上角的图像:优化以最大限度地激活第10层功能的图像。。

结论

  • ViT即使对于除最后一层之外的所有层的单个通道也会保留补丁的空间信息,这表明网络从头开始学习空间关系。
  • 最后一个注意力层中本地化信息的突然消失是由类似于平均池的学习令牌混合行为造成的。
  • ViT更好地利用背景信息,并且当仅暴露在图像背景下时,能够做出相对于CNN优越得多的预测。
  • 这两种架构共享一个共同属性,即较早的层学习纹理属性,而较深的层学习高级对象特征或抽象概念。
  • 使用语言模型监督训练的ViT学习更多的语义和概念特征,而不是像分类器那样学习特定于对象的视觉特征。

论文

What do Vision Transformers Learn? A Visual Exploration 2212.06727

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
15 声望4 粉丝