BEiT:图像Transformer的BERT式预训练

🕙发布时间:2025-02-19

近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企
公众号【柏企科技说】【柏企阅文

直接将BERT式预训练应用于图像数据颇具挑战性。首先,视觉Transformer的输入单元(即图像补丁)不存在预先定义的词汇表。因此,我们不能简单地使用softmax分类器对被掩码补丁的所有可能候选进行预测。相比之下,语言词汇(如单词和字节对编码(BPE))定义明确,便于自动编码预测。一种直接的替代方法是将该任务视为回归问题,预测被掩码补丁的原始像素。

然而,这种像素级的恢复任务往往会在预训练短距离依赖和高频细节上浪费建模能力。BEiT的目标就是克服上述问题,实现视觉Transformer的预训练。

图像表示

在我们的方法中,图像有两种表示形式,即图像补丁和视觉标记。这两种类型分别在预训练期间作为输入和输出表示。

图像补丁

将二维图像分割成一系列补丁,这样标准的Transformer就可以直接接受图像数据。正式地说,我们将图像$x \in R^{H×W×C}$重塑为$N = HW /P^2$个补丁$x^p \in R^{N×(P²C)}$,其中$C$是通道数,$(H, W)$是输入图像的分辨率,$(P, P)$是每个补丁的分辨率。图像补丁被展平为向量并进行线性投影,这与BERT中的词嵌入类似。图像补丁保留了原始像素,并在BEiT中用作输入特征。

在实验中,一张224×224的图像被分割成14×14的图像补丁网格,每个补丁大小为16×16。

视觉标记

与自然语言类似,我们将图像表示为由 “图像标记器” 获取的离散标记序列,而非原始像素。具体来说,我们将图像标记化为$z = [z_1, …z_N] \in V^{h×w}$,其中词汇表$V$包含离散的标记索引。

在实验中,使用由离散变分自编码器学习的图像标记器。在视觉标记学习过程中有两个模块,即标记器和解码器。标记器根据视觉码本(词汇表)将图像像素映射为离散标记。解码器则学习基于视觉标记重建输入图像。

每张图像被标记为14×14的视觉标记网格,词汇表大小设置为8192。

骨干网络:图像Transformer

遵循视觉Transformer(ViT),我们使用标准的Transformer作为骨干网络,这样在网络架构方面,结果可以直接与先前的工作进行比较。

Transformer的输入是一系列图像补丁。这些补丁随后被线性投影以获得补丁嵌入。此外,一个特殊标记 [S] 被添加到输入序列的开头。同时,一个标准的可学习的1D位置嵌入也被添加到补丁嵌入中。输入向量$H_0 = [e[S], Exp_i, . . . , Exp_N] + E_{pos}$被输入到Transformer中。

编码器包含L层Transformer块。最后一层的输出向量被用作图像补丁的编码表示。

预训练BEiT:掩码图像建模

作者提出了掩码图像建模(MIM)任务,即随机掩码一定比例的图像补丁,然后预测与被掩码补丁对应的视觉标记。

预训练设置

BEiT在包含约120万张图像的ImageNet-1K训练集上进行预训练。增强策略包括随机裁剪、水平翻转和颜色抖动。需要注意的是,在自监督学习中我们不使用标签。

在实验中使用224×224的分辨率。因此,输入被分割为14×14的图像补丁,以及相同数量的视觉标记。最多掩码75个补丁(即大约占总图像补丁的40%)。

微调BEiT用于下游视觉任务

  1. 图像分类:对于图像分类任务,我们直接使用一个简单的线性分类器作为任务层。具体来说,我们使用平均池化来聚合表示,并将全局表示输入到softmax分类器中。类别概率通过softmax计算得出。BEiT在包含1000个类别和130万张图像的ILSVRC - 2012 ImageNet数据集上进行评估。
  2. 语义分割:对于语义分割,我们使用预训练的BEiT作为骨干编码器,并结合几个反卷积层作为解码器来生成分割结果。该模型也像图像分类一样进行端到端的微调。BEiT在包含2.5万张图像和150个语义类别的ADE20K基准上进行评估。我们报告所有语义类别上平均的交并比(mIoU)指标。

论文:BEiT: BERT Pre - Training of Image Transformers
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
15 声望5 粉丝