DeiT:仅在ImageNet上训练的无卷积且极具竞争力的Transformer模型
🕙发布时间:2025-02-19
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
DeiT是一个仅在ImageNet上训练的无卷积且极具竞争力的Transformer模型。它引入了一种专门针对Transformer的师生策略。该策略依靠一个蒸馏令牌(distillation token),确保学生模型通过注意力机制向教师模型学习。
DeiT的架构设计与ViT提出的架构相同,没有卷积层。我们的唯一区别在于训练策略和蒸馏令牌。
注意力蒸馏
软蒸馏
最小化教师模型的softmax输出与学生模型的softmax输出之间的KL散度(Kullback-Leibler divergence)。用公式表示为:
,其中$p$代表教师模型softmax输出的概率分布,$q$代表学生模型softmax输出的概率分布。通过最小化这个散度,让学生模型的输出尽可能接近教师模型的输出分布。
硬标签蒸馏
我们将教师模型的硬决策(hard decision)作为真实标签。即教师模型对样本的最终分类结果,直接被当作正确答案,让学生模型去学习。
蒸馏令牌
我们在初始嵌入(图像块嵌入和类别令牌)中添加一个新的令牌——蒸馏令牌。我们的蒸馏令牌与类别令牌的使用方式类似:它通过自注意力机制与其他嵌入进行交互,并在网络的最后一层之后输出。其目标是由损失函数中的蒸馏部分给出。蒸馏嵌入使我们的模型能够像在常规蒸馏中一样,从教师模型的输出中学习,同时与类别嵌入相辅相成。
有趣的是,我们观察到学习到的类别令牌和蒸馏令牌会收敛到不同的向量:这些令牌之间的平均余弦相似度等于0.06。由于类别嵌入和蒸馏嵌入是在每一层计算的,它们在网络中逐渐变得更加相似,一直到最后一层,它们的相似度很高(余弦相似度为0.93),但仍小于1。这是预期的,因为它们旨在产生相似但不相同的目标。
带蒸馏的微调
在微调阶段,我们在更高分辨率下同时使用真实标签和教师模型的预测结果。我们使用具有相同目标分辨率的教师模型,通常是从较低分辨率的教师模型获得的。我们也仅使用过真实标签进行测试,但这会降低教师模型的作用,并导致性能下降。
我们方法的分类:联合分类器
在测试时,Transformer生成的类别嵌入或蒸馏嵌入都与线性分类器相关联,并且都能够推断图像标签。然而,我们的参考方法是对这两个单独的头部进行后期融合,即我们将两个分类器的softmax输出相加来进行预测。
卷积神经网络教师模型
我们观察到,使用卷积神经网络(ConvNet)作为教师模型比使用Transformer能获得更好的性能。卷积神经网络是更好的教师模型,这可能是由于Transformer通过蒸馏继承了其归纳偏差(inductive bias)。
蒸馏方法的比较
蒸馏令牌比类别令牌的效果略好。它与卷积神经网络的预测也更相关。这种性能差异可能是因为它从卷积神经网络的归纳偏差中受益更多。
与教师模型的一致性和归纳偏差
我们的蒸馏模型与卷积神经网络的相关性比与从头开始学习的Transformer更高。正如预期的那样,与蒸馏嵌入相关联的分类器比与类别嵌入相关联的分类器更接近卷积神经网络,反之,与类别嵌入相关联的分类器与未进行蒸馏学习的DeiT更相似。不出所料,联合类别+蒸馏分类器提供了一个折中的结果。
迁移学习:下游任务的性能
消融研究
论文
Training data-efficient image transformers & distillation through attention 2012.12877
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。