EfficientFormerV2 加速 ViT，更高效的移动端视觉模型

EfficientFormerV2 加速 ViT，更高效的移动端视觉模型出品人：Towhee 技术团队顾梦佳

EfficientFormerV2 仿造卷积结构的 MobileNet，对 transformers 进行一系列针对移动端加速的设计和优化。模型的参数量和延迟对资源受限型的硬件来说至关重要，因此 EfficientFormerV2 结合了细粒度联合搜索策略，提出了一种具备低延迟和大小的高效网络。该网络在同等量级参数量和延迟下，其性能在公开的图像数据集 ImageNet 的验证集上能够比 MobileNetV2 高4%。

EfficientFormerV2Architecture

EfficientFormerV2 全面研究了混合视觉主干，并验证了对于端侧更加友好的网络结构设计。此外，在前一个版本的基础上，它进一步提出了在大小和速度上的细粒度联合搜索，并获得了轻量级和推理速度超快的模型。EfficientFormerV2 遵循了常规的 ViT 架构。它采用相同卷积核大小的深度可分离卷积替换作为 token mixer的平均池化层，这样既不会带来延迟开销，又能提高性能。此外,EfficientFormerV2 在前馈网络中注入了局部信息建模层，将原来的池化层替换成 BottleNeck 的形式。

相关资料：

EfficientFormerV2 加速 ViT，更高效的移动端视觉模型

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

微帧WZVQA：极致还原人眼感知，精准评估视频画质

书籍-《激光雷达遥感入门与应用》

计算机视觉（语义分割） | 皮带跑偏识别冠军方案解读