ColD Fusion,分布式多任务微调的协同 “密码”
🕙发布时间:2025-02-19
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
在预训练模型的基础上进行改进,有望提升所有基于它微调的模型性能。然而,预训练往往需要巨大的计算成本,因此从业者很少会去尝试预训练新的、更优的模型。相比之下,微调的成本通常要低得多,所以一个预训练模型可能会被多次微调。受此启发,我们研究了微调后的模型能否被 “回收利用”,从而创建出更好的预训练模型。
在多任务学习中,一个模型会同时在多个数据集上进行训练,以实现以下两个目标之一:
- 独立完成那些原本需要多个专门模型才能完成的任务。
- 提供比预训练模型更好的起始点。
鉴于现在有许多微调后的模型可供使用,我们的目标是通过混合多个模型,而非多个数据集,来获得多任务学习的益处。
协同多任务学习指在受限环境中进行多任务学习:我们假设多个贡献者各自在一个数据集上对模型进行微调。贡献者之间不会共享他们的数据集,也不会改变各自的微调方式,但他们同意共享训练出的模型。这种设定与从业者通常使用的现有微调流程相契合。
然而,通过只要求共享微调后的模型,微调步骤可以被重新视为对集体有益的训练步骤。通过这种方式,我们的方法能够重新利用从业者和研究人员消耗的计算资源和数据。我们将这种方法称为协同下降(Collaborative Descent),简称ColD。
ColD Fusion
ColD(协同下降)融合是一个迭代过程,旨在上述受限环境中进行多任务学习。具体而言,ColD融合是一个迭代过程,每个贡献者在自己的数据集上对当前模型进行微调,将得到的模型反馈给资源库,资源库融合所有贡献者的模型,并将其设置为当前模型。
在正文的实验中,我们使用RoBERTa-base作为初始模型θ0。为了证明我们方法的通用性,我们还在T5模型上复现了一些结果。
对于基线预训练模型,我们考虑了RoBERTa-base,以及在所有数据集上进行多任务微调的RoBERTa-base。多任务变体为每个数据集训练一个专门的分类头。此外,我们还考虑了MUPPET模型,这是一个经过高度优化的多任务模型,其训练所使用的数据集比我们研究中涉及的更多。MUPPET是目前基于RoBERTa-base架构的最先进基础预训练模型。
在微调过程中,我们使用以下超参数:学习率为5e-5,线性衰减为0.0006,批量大小为256。如果在训练256K个样本后,开发集上的准确率提升小于0.001,则执行早停法。
论文 :ColD Fusion: Collaborative Descent for Distributed Multitask Finetuning 2212.01378
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。