DLRover(Distributed Deep Learning System)是蚂蚁集团 AI Infra 团队维护的开源社区,是基于云原生技术打造的智能分布式深度学习系统。DLRover 使得开发人员能够专注于模型架构的设计,而无需处理任何工程方面的细节,例如硬件加速和分布式运行等。目前,DLRover 支持使用 K8s、Ray 进行自动化操作和维护深度学习训练任务。
AI Infra Chat 第 1 期邀请到了蚂蚁集团技术专家、AI 系统工程师王勤龙跟大家分享 《DLRover:蚂蚁大模型训练弹性容错与自动优化》。
直播主题与时间
DLRover:蚂蚁大模型训练弹性容错与自动优化
2023 年 9 月 14 日(下周四)
19:00 - 20:00
嘉宾简介
王勤龙(花名:长凡)
蚂蚁集团技术专家
AI 系统工程师
议题简介
本次分享将介绍 DLRover 云上弹性容错的分布式训练架构,包括介绍 DLRover 的容错如何提高大规模分布式训练的稳定性和训练的自动优化。同时还会介绍 DLRover 分布式训练的资源自动扩缩容功能如何降低分布式训练门槛,提升训练性能和集群效能。
听众收获
- 了解 DLRover 项目及架构
- 了解分布式训练弹性、容错和自动扩缩容的原理
- 了解分布式训练自动调优的原理与实现
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。