Transformer²:自适应大模型的创新突破
🕙 发布时间:2025-02-25
更多 LLM 架构文章:LLM 架构专栏
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从 Transformer 到 DeepSeek-R1 的 AI 变革之路
3. 2W8000 字深度剖析 25 种 RAG 变体:全网最全~没有之一
4. 3W6000 字了解大模型 LLM:部署、优化与框架
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
Sakana AI 发布了一篇名为《Transformer²(Transformer Squared)》的开创性论文,为自适应大型语言模型(LLM)提出了全新框架。这一框架致力于打造能像章鱼根据环境变色一样,依据不同任务和环境动态调整自身行为的大语言模型。接下来,让我们深入探究论文中的关键概念、方法及创新之处。
1. 核心思想:自适应 LLM
自适应 LLM 的核心理念是让模型能够自主评估并修改自身行为,以适应运行环境的变化。这意味着模型可依据输入提示动态调整权重,无需外部干预。
Sakana AI 从章鱼变色融入环境这一现象中获取灵感。类似地,他们提出的 LLM 会调整自身“颜色”(即权重),以契合当前任务。比如,遇到数学问题时,模型会动态更新权重,专注于数学推理,给出精准答案。
2. 变压器 ²:两步过程
Transformer² 这个名字体现了其独特的两步处理过程:
- First Pass:模型接收用户查询,识别任务类型(如数学、推理或语言相关任务 )。
- Second Pass:模型根据识别出的任务,动态更新权重,生成特定任务的输出结果。
这一过程可直观理解为一种转换:在第二次传递时,模型的 “颜色” 从通用的黑色转变为特定任务的红色。其中的关键创新点在于,模型具备动态修改权重的能力,能够实时进行专业化处理。
3. 自适应 LLM:两种可能的架构
论文深入探讨了自适应 LLM 的两种主要架构:
- 多个专家 LLM:在这种架构下,会使用多个 LLM,每个 LLM 专注于特定任务(如数学、推理或语言任务 )。系统会自动将输入查询转发给合适的专业 LLM,由其生成回答。这就像是一个集成系统,每个模型都贡献自己的专业知识。
- 具有模块化专业化的单个 LLM:此架构中,单个 LLM 包含多个内部模块,每个模块负责特定任务。收到查询后,模型会将其分配到相关模块,由该模块生成回复。这种方式与“专家混合(MoE)”范式类似,但在路由执行方式上有所差异。
4. 关键区别:样本级模块选择
“专家混合(MoE)”采用令牌级策略将查询发送到专用模块,而 Transformers Squared 则运用样本级模块选择策略。这意味着在选择使用哪个模块前,模型会综合考量整个输入样本(比如一整个问题 )。例如,当输入为 “What is the weather like today?” 时,模型会先评估整个问题,再将其发送到语言模块处理。
5. 用于微调的奇异值分解(SVD)
论文的一大重要贡献,是运用奇异值分解(SVD)对 LLM 进行微调。神经网络由权重矩阵构成,SVD 可将这些矩阵分解为三个部分:U、Σ(对角矩阵)和 Vᵀ 。通过修改对角矩阵 Σ 中的值,模型无需重新训练整个网络,就能实现对权重的精细调控。
5.1 基于 SVD 的微调的好处
- 可忽略不计的参数:仅需修改对角矩阵 Σ,就能大幅减少可训练参数的数量。
- 满秩操作:与 LoRA 等低秩方法不同,SVD 支持对权重矩阵进行满秩操作,增强了模型的表达能力。
- 高组合性:可以对对角矩阵进行加法、插值等代数运算,实现灵活的模型组合。
- 正则化:基于 SVD 的微调是一种有效的正则化手段,即便数据有限,也能降低过拟合风险。
6. 训练和推理
6.1 训练:
模型采用可追溯至 1992 年的强化学习算法 REINFORCE 进行训练。每个生成的答案都会被标记正确性(分数在 -1 到 1 之间),并利用 KL 散度惩罚对算法进行正则化处理。最终得到一组 K 向量(例如,一个用于数学,一个用于推理,一个用于语言),这些向量代表了每个任务的专用权重。
6.2 推理:
在推理阶段,模型运用两次传递策略:
- First Pass:模型判断输入属于哪类任务。
- Second Pass:模型应用相应的专用权重生成输出。
推理过程中,有三种任务选择技术:
- Prompt Engineering:通过预定义的提示,将输入归类到某一任务类别中。
- Classification Head:训练一个独立的分类器,把输入路由到合适的特定任务向量。
- Few-Shot Adaptation:根据输入提示计算特定任务向量的加权和,实现灵活适配。
7. 实验结果
论文开展了大量实验,将 Transformer² 与 LLaMA-3 8B、Mistral 7B 和 LLaMA-3 70B 等前沿模型进行对比。结果显示,在准确性和效率方面,Transformer² 优于基于 LoRA 的微调方法。此外,该框架在视觉语言任务中也表现卓越,进一步证实了其通用性。
8. 总结
Transformer² 在自适应 LLM 的发展进程中意义重大。借助奇异值分解和创新的样本级模块选择策略,Sakana AI 构建的框架使 LLM 能以极小的计算成本,动态适应各类任务。这种方法不仅提升了性能,还降低了过拟合风险,为实际应用带来了广阔前景。
随着 AI 技术持续进步,像 Transformer² 这样的框架将在打造更灵活、高效、智能的系统中发挥关键作用。Sakana AI 的成果彰显了创新的力量,也让我们看到机器学习蕴含的无限可能。
推荐阅读
1. DeepSeek-R1 的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解 GRPO 和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。