你现在可以在家训练一个 700 亿参数的语言模型 - Answer.AI

主要观点:Answer.AI 发布首个项目,能在普通台式机上用两个或更多标准游戏 GPU 高效训练 700 亿参数大语言模型,结合了 FSDP 和 QLoRA,是与多方面合作的成果,将帮助开源社区发布更好模型。
关键信息

  • 有数据中心级硬件和桌面电脑含游戏 GPU 两种硬件用于训练深度学习模型,游戏 GPU 性能接近但价格便宜很多。
  • QLoRA 是量化和 LoRA 的结合,能在 48GB 卡上训练 650 亿参数模型,但仍有局限性,如内存限制、训练速度慢等。
  • FSDP 可将大模型跨 GPU 分片并行训练,突破单 GPU 内存限制,如 700 亿参数模型需 140GB 内存,4 个 H100 GPU 可满足。
  • 将 FSDP 和 QLoRA 结合,通过量化减少模型大小,用 FSDP 跨 GPU 分片,成功在双 3090 游戏 GPU 上微调 700 亿模型,还利用了多种技术如梯度检查点、CPU 卸载、Flash Attention 2 等。
  • 可通过 Runpod Community Cloud 等租用双 3090 设备使用 FSDP/QLoRA,代码已纳入 Axolotl 库并用于训练 Mixtral 等模型,后续将提供基准测试和建议文章。
    重要细节
  • 开源社区如 Teknium 对能在本地训练大模型表示欢迎。
  • Answer.AI 是盈利性研发实验室,适合解决使大型模型训练更廉价和可及的问题,因其团队能理解各部分如何配合。
  • QLoRA 训练时存在内存不足、序列长度和批量大小受限等问题。
  • FSDP 跨 GPU 分片训练时需注意数据同步等问题。
  • 结合过程中发现了如 FSDP 未复制量化信息等问题并加以解决。
  • 发现 HQQ 结合了 GPTQ 和 bitsandbytes 的优点,与 FSDP 配合良好。
阅读 10
0 条评论