主要观点:Answer.AI 发布首个项目,能在普通台式机上用两个或更多标准游戏 GPU 高效训练 700 亿参数大语言模型,结合了 FSDP 和 QLoRA,是与多方面合作的成果,将帮助开源社区发布更好模型。
关键信息:
- 有数据中心级硬件和桌面电脑含游戏 GPU 两种硬件用于训练深度学习模型,游戏 GPU 性能接近但价格便宜很多。
- QLoRA 是量化和 LoRA 的结合,能在 48GB 卡上训练 650 亿参数模型,但仍有局限性,如内存限制、训练速度慢等。
- FSDP 可将大模型跨 GPU 分片并行训练,突破单 GPU 内存限制,如 700 亿参数模型需 140GB 内存,4 个 H100 GPU 可满足。
- 将 FSDP 和 QLoRA 结合,通过量化减少模型大小,用 FSDP 跨 GPU 分片,成功在双 3090 游戏 GPU 上微调 700 亿模型,还利用了多种技术如梯度检查点、CPU 卸载、Flash Attention 2 等。
- 可通过 Runpod Community Cloud 等租用双 3090 设备使用 FSDP/QLoRA,代码已纳入 Axolotl 库并用于训练 Mixtral 等模型,后续将提供基准测试和建议文章。
重要细节: - 开源社区如 Teknium 对能在本地训练大模型表示欢迎。
- Answer.AI 是盈利性研发实验室,适合解决使大型模型训练更廉价和可及的问题,因其团队能理解各部分如何配合。
- QLoRA 训练时存在内存不足、序列长度和批量大小受限等问题。
- FSDP 跨 GPU 分片训练时需注意数据同步等问题。
- 结合过程中发现了如 FSDP 未复制量化信息等问题并加以解决。
- 发现 HQQ 结合了 GPTQ 和 bitsandbytes 的优点,与 FSDP 配合良好。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。