EfficientFormer 提升速度的同时保持性能,使 ViT 在移动端成为可能

出品人:Towhee 技术团队 顾梦佳

由于大量的参数和其模型设计(注意力机制),基于 ViT 的模型通常比轻量级卷积网络慢几倍。因此,为实时应用程序部署 ViT 特别具有挑战性,尤其是在资源受限的硬件(如移动设备)上。为了让 transformers 同时拥有高性能和速度,EfficientFormer 重新审视了 ViT 模型中使用的网络架构和运算符,引入一个维度一致的纯 Transformer 作为设计范例。 大量实验表明 EfficientFormer 系列模型在移动设备上的性能和速度方面具有优越性。其中最快的模型 EfficientFormer-L1 在公开的图像数据集 ImageNet-1K 上实现了 79.2% 的 top-1 精度,在 iPhone 12 上的运行速度与 MobileNetV2×1.4 一样快。而最大的模型 EfficientFormer-L7 也能够以 7.0 毫秒的延迟获得 83.3% 的准确率。EfficientFormer 证明正确设计的变压器可以使模型在保持高性能的同时,在移动设备上达到极低的延迟。

图片

Overview of EfficientFormer 基于延迟分析,EfficientFormer 的模型设计完全基于 Transformers。该网络首先用一个卷积骨干用作 patch embedding,然后包含了一组 MetaBlock (MB)。其中 MB4D 和 MB3D 拥有不同的 token mixer 配置,即以维度一致的方式排列的局部池化或全局多头自注意力。

相关资料:

代码地址:https://github.com/snap-resea...
论文链接:EfficientFormer: Vision Transformers at MobileNet Speed
更多资料:EfficientFormer:MobileNet 速度下的视觉Transformer


Milvus
我们的愿景是 reinvent data science ,重新定义数据科学。 成立于 2016 年,ZILLIZ 致力于将数据科学与...

Vector database for Enterprise-grade AI

112 声望
807 粉丝
0 条评论
推荐阅读
Auto-GPT 迈向智能体的第一步——从信息增强和上下文理解开始
Auto-GPT 的出现,意味着 AI 已经能够在没有人工干扰的情况下独立地完成目标任务。这个在 GitHub 中不断创造历史的项目,正以惊人的速度发展着、变化着。

Zilliz阅读 464

AI 脸部美容,一键让你变瘦变美变老变年轻
随着这部分技术的开源,会有越来越多的应用,当然我觉得前景更好的是用户可以先通过 AI 技术找到自己最美的样子,然后照着这个样子去改变自己,减肥也好锻炼也好,健康餐也好,让自己更加的完美

tiny极客1阅读 580评论 1

封面图
用 Python 和 OpenCV 实现图像处理基础
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉库,为 Python 和其他编程语言提供了丰富的图像处理功能。在本文中,我们将介绍如何使用 Python 和 OpenCV 实现图像的基本处理操作,如读取...

小小张说故事阅读 848

封面图
StyleGAN 生成 AI 虚拟人脸,再也不怕侵犯肖像权
GAN 是机器学习中的生成性对抗网络,目标是合成与真实图像无法区分的人工样本,如图像。即改变人脸图像中的特定特征,如姿势、脸型和发型,GAN 的主要挑战就是如何图像变得更加逼真。

tiny极客1阅读 393评论 1

封面图
【图搜系列之多模态检索实战篇】基于表征大模型的多模态检索系统
说起表征模型在图搜/多模态检索系统中的作用,可以用“核心作用”来形容。其主要目的是将图片和文本转化成特征向量,有了特征向量才得以进行向量检索索引的构建。模型提取的特征向量对于图片/文本等内容的表征是否...

阿里云开发者阅读 727

SLBR通过自校准的定位和背景细化来去除可见的水印
本文简要介绍了论文“Visible Watermark Removal via Self-calibrated Localization and Background Refinement ”的相关工作。在图像上叠加可见的水印,为解决版权问题提供了一种强大的武器。现代的水印去除方法可...

合合技术团队1阅读 319

封面图
单阈值大津法
大津法属于全局阈值方法中的一种,即是最大类间方差法 大津法主要原理在于会自动找出一个阈值 使得分割后的两部分类间方差最大 适用于有双波峰的图像,大津法作为图像分割中阈值选取的常用算法,计算简单,不受图...

胡子老爷爷阅读 663

Vector database for Enterprise-grade AI

112 声望
807 粉丝
宣传栏