MobileViT:适用于移动设备的轻量级通用视觉Transformer


🕙发布时间:2025-02-19

近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企
公众号【柏企科技说】【柏企阅文

MobileViT是一款专为移动设备打造的轻量级通用视觉Transformer。它为利用Transformer进行全局信息处理提供了全新视角。

一、标准ViT模型的问题

标准的ViT模型会将输入X重塑为一系列展平的图像块Xf,将其投影到固定的d维空间Xp,然后通过L层Transformer模块学习图像块之间的特征表示。视觉Transformer中自注意力机制的计算成本为O(N²d) 。由于这些模型忽略了CNN中固有的空间归纳偏差,因此需要更多参数来学习视觉特征表示。此外,与CNN相比,这些模型的可优化性较差。它们对L2正则化敏感,并且需要大量的数据增强来防止过拟合。

二、MobileViT的核心思想

MobileViT的核心思想是像卷积一样,利用Transformer学习全局特征表示。这使得我们能够在网络中隐式融入类似卷积的特性(例如空间偏差),通过简单的训练方法(例如基础数据增强)学习特征表示,并且轻松地将MobileViT与下游架构集成。

三、MobileViT架构

(一)MobileViT模块

MobileViT模块旨在用更少的参数对输入张量中的局部和全局信息进行建模。具体来说,对于给定的输入张量X,MobileViT先应用一个n×n的标准卷积层,接着是一个逐点(即1×1)卷积层,生成XL。n×n卷积层对局部空间信息进行编码,而逐点卷积则通过学习输入通道的线性组合,将张量投影到高维空间(或d维,其中d > C)。

为了让MobileViT能够学习带有空间归纳偏差的全局特征表示,我们将XL展开为N个不重叠的展平图像块XU。对于每个图像块p,通过应用Transformer对图像块之间的关系进行编码,得到XG。

与会丢失像素空间顺序的ViT不同,MobileViT既不会丢失图像块的顺序,也不会丢失每个图像块内像素的空间顺序。因此,我们可以将XG折叠得到XF。然后,使用逐点卷积将XF投影到低C维空间,并通过连接操作与X相结合。最后,再使用另一个n×n卷积层融合这些连接后的特征。

(二)与卷积的关系

标准卷积可以看作是三个连续操作的组合:(1)展开;(2)矩阵乘法(用于学习局部特征表示);(3)折叠。MobileViT模块与卷积类似,因为它也利用了相同的基础组件。MobileViT模块用更深层次的全局处理(一系列Transformer层)取代了卷积中的局部处理(矩阵乘法)。因此,MobileViT具有类似卷积的特性(例如空间偏差)。所以,MobileViT模块可以看作是“像卷积一样的Transformer”。

(三)计算成本

MobileViT和ViT中多头自注意力机制的计算成本分别为O(N²P d)和O(N²d) 。理论上,与ViT相比,MobileViT的效率较低。然而在实践中,MobileViT比ViT更高效。在ImageNet-1K数据集上,MobileViT的浮点运算次数(FLOPs)减少了一半,准确率比DeIT高出1.8%。

(四)MobileViT整体架构

我们的网络设计灵感来源于轻量级CNNs的理念。我们训练了三种不同网络规模的MobileViT模型(S:小型,XS:超小型,XXS:超超小型),这些模型通常用于移动视觉任务。

MobileViT的初始层是一个带步长的3×3标准卷积层,随后是MobileNetv2(或MV2)模块和MobileViT模块。

我们使用Swish作为激活函数。参照CNN模型,在MobileViT模块中我们设置n = 3。特征图的空间维度通常是2的倍数,且h, w ≤ n。因此,我们在所有空间层级上都将h = w = 2 。

四、实现细节与实验结果

(一)图像分类

我们在ImageNet-1k分类数据集上从头开始训练MobileViT模型。

总体而言,这些结果表明,与CNN类似,MobileViT易于优化且稳定性高。因此,它们可以轻松应用于新的任务和数据集。

(二)移动目标检测

我们将MobileViT与单阶段目标检测骨干网络集成。我们在MS - COCO数据集上,以320×320的输入分辨率,对在ImageNet-1k数据集上预训练的MobileViT进行微调。

(三)移动语义分割

我们将MobileViT与DeepLabv3集成。在PASCAL VOC 2012数据集上对MobileViT进行微调。

五、在移动设备上的性能

论文

MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer 2110.02178

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
15 声望5 粉丝