当卷积独挑大梁：ConvMixer 的神奇架构探秘

柏企科技圈

2 月 19 日北京

阅读 1 分钟

0

当卷积独挑大梁：ConvMixer 的神奇架构探秘

ConvMixer在许多方面与视觉Transformer（以及MLP-Mixer）相似：它直接对图像块（patches）进行操作，在所有层中都保持相同分辨率和大小的特征表示，在连续的层中不对特征表示进行下采样，并且将信息的“通道混合”与“空间混合”分离开来。但与视觉Transformer和MLP-Mixer不同的是，ConvMixer仅通过标准卷积来完成所有这些操作。

ConvMixer由一个图像块嵌入层和重复应用的简单全卷积块组成。我们保留图像块嵌入的空间结构。具有图像块大小为 $p$ 和嵌入维度为 $h$ 的图像块嵌入，可以通过输入通道数为 $c_{in}$、输出通道数为 $h$、内核大小为 $p$ 且步长为 $p$ 的卷积来实现：

ConvMixer块本身由深度卷积（即分组卷积，组数等于通道数 $h$ ）和逐点卷积（即内核大小为 $1×1$ ）组成。对于深度卷积，ConvMixer在使用异常大的内核大小时效果最佳。每个卷积之后都跟着一个激活函数和激活后的批归一化（BatchNorm）：

在多次应用这个块之后，我们执行全局池化操作，得到一个大小为 $h$ 的特征向量，然后将其输入到softmax分类器中。

论文：Patches Are All You Need?（2201.09792）

代码实现：ConvMixer

本文由mdnice多平台发布

阅读 470发布于 2 月 19 日

柏企科技圈

23 声望6 粉丝

« 上一篇

FaceBook提出Masked AutoEncoder 掩码自编码器：可扩展的视觉学习器

下一篇 »

DocFormer：用于文档理解的端到端Transformer模型，打破壁垒，重塑文档理解新格局

引用和评论

推荐阅读

从CLIP到未来：深入探讨视觉任务的视觉语言模型VLM

柏企科技圈阅读 728

一文掌握 MCP 上下文协议：从理论到实践

陈明勇赞 6阅读 2k

AI Agent爆火后，MCP协议为什么如此重要！

程序员海军赞 5阅读 548

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

思否编辑部赞 2阅读 5.4k

MCP 协议为何不如你想象的安全？从技术专家视角解读

Baihai_IDP赞 2阅读 575

🔥吐血整理 Bolt.diy 部署与应用攻略

北京宏哥阅读 6.1k

常见的 AI 模型格式

HuggingFace赞 1阅读 734

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。