FastBERT:具有自适应推理时间的新型可调节速度语言变换器
🕙发布时间:2025-02-19
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
FastBERT是一种新型的具有自适应推理时间的可调节速度语言变换器。
FastBERT由主干和分支组成。主干基于12层Transformer编码器构建,并带有一个额外的教师分类器,而分支则包含学生分类器,这些学生分类器被附加到每个Transformer的输出上,以实现早期输出。
主干由三部分组成:嵌入层、包含多个Transformer块堆栈的编码器以及教师分类器。嵌入层和编码器的结构与BERT的结构一致。
教师分类器提取用于下游推理的领域内特征。它有一个全连接层,将维度从768缩小到128;还有一个自注意力层连接着一个向量大小不变的全连接层;最后是一个带有softmax函数的全连接层,将向量投影到一个N类指示符$p_t$ 。
分支
为了让FastBERT具有更强的适应性,在每个Transformer块的输出上添加了多个与教师分类器架构相同的分支,即学生分类器,以便在一些简单的情况下实现早期输出。
预训练
主干的预训练方式与BERT类似,就像我们的主干与BERT相似一样。FastBERT甚至不需要自行进行预训练,因为它可以自由加载高质量的预训练模型。
主干微调
对于每个下游任务,我们将特定任务的数据输入到模型中,对主干和教师分类器进行微调。在这个阶段,所有的学生分类器都未启用。
分支自蒸馏
在主干经过良好训练用于知识提取后,其输出作为包含原始嵌入和通用知识的高质量软标签,用于训练学生分类器。
由于各个学生分类器相互独立,它们的预测结果$p_s$分别与教师软标签$p_t$进行比较,差异通过KL散度来衡量。
由于FastBERT中有$L - 1$个学生分类器,它们的KL散度之和被用作自蒸馏的总损失。
由于这个过程只需要教师的输出,我们可以自由使用数量不限的无标签数据,而不受限于有标签数据。
此外,我们的方法与之前的蒸馏方法不同,因为教师和学生的输出都在同一个模型内。
自适应推理
FastBERT以自适应的方式进行推理,这意味着我们可以根据样本的复杂程度调整模型中执行的编码层数。
评估
论文
FastBERT: a Self-distilling BERT with Adaptive Inference Time 2004.02178
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。