GitHub - pytorch/torchtune: PyTorch 原生的训练后库

主要观点:torchtune 是一个 PyTorch 库,用于轻松编写、后训练和实验语言模型,提供多种训练食谱、模型支持、内存优化等功能,近期有多个模型和功能的更新,还与众多生态工具集成,重视社区贡献,有详细的安装、使用指南及引用说明等。
关键信息和重要细节

  • 近期更新:2024 年 12 月支持 Llama 3.3 70B,2024 年 11 月发布 v0.4.0 包含新功能,添加 Gemma2 等模型,支持多种新的 Llama 版本模型等。
  • 概述:提供多种训练食谱如 SFT、KD、RLHF 等,支持多种状态-of-the-art 模型,如 Llama 系列等,利用最新 PyTorch API 提高效率等。
  • 内存和训练速度:以不同 Llama 3.1 模型为例展示内存需求和训练速度,通过多种优化技术可显著提升性能。
  • 安装:仅测试与最新稳定 PyTorch 版本及预览 nightly 版本兼容,需安装 torchvision 和 torchao,有稳定版和 nightly 版安装方法及确认安装是否正确的命令。
  • 开始使用:有详细的教程,包括下载模型、运行训练食谱、修改配置、自定义数据集和设备等步骤及示例命令。
  • 社区:与众多生态工具集成,社区贡献者有很多,如添加多种模型和训练相关功能等。
  • 引用:若使用 torchtune 库,需按规定引用,包括作者、标题、网址、许可证等信息。
  • 许可证:发布于 BSD 3 许可证下,但使用其他内容可能有其他法律义务。
阅读 12
0 条评论