主要观点:质疑自回归模型(ARMs)是大型语言模型(LLMs)基石的观念,介绍从头开始在预训练和监督微调(SFT)范式下训练的扩散模型 LLaDA,其通过前向数据掩码过程和反向过程分布数据,由普通 Transformer 预测掩码标记,通过优化似然边界提供原则性生成推理方法,在广泛基准测试中展示强可扩展性,优于自建的 ARM 基线,LLaDA 8B 在上下文学习中可与 LLaMA3 8B 竞争,微调后在多轮对话等案例中表现出出色的指令遵循能力,还解决了反转诅咒,在反转诗歌完成任务中超越 GPT-4o,确立扩散模型作为 ARMs 的可行且有前途的替代方案。
关键信息:
- 模型:LLaDA 是扩散模型。
- 训练范式:预训练和 SFT 范式。
- 优势:强可扩展性,优于 ARM 基线,在多方面表现出色。
- 相关链接:项目页面和代码[https://ml-gsai.github.io/LLa...],提交历史包括 v1 和 v2 版本。
重要细节: - LLaDA 通过特定过程分布数据并由 Transformer 预测掩码标记。
- 在不同基准测试中表现良好,如在上下文学习、多轮对话等方面。
- 解决反转诅咒并超越 GPT-4o。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。