活动介绍

DLRover(Distributed Deep Learning System)是蚂蚁集团 AI Infra 团队维护的开源社区,是基于云原生技术打造的智能分布式深度学习系统。DLRover 使得开发人员能够专注于模型架构的设计,而无需处理任何工程方面的细节,例如硬件加速和分布式运行等。目前,DLRover 支持使用 K8s、Ray 进行自动化操作和维护深度学习训练任务。

AI Infra Chat 第 1 期邀请到了蚂蚁集团技术专家、AI 系统工程师王勤龙跟大家分享 《DLRover:蚂蚁大模型训练弹性容错与自动优化》。

直播主题与时间

DLRover:蚂蚁大模型训练弹性容错与自动优化

2023 年 9 月 14 日(下周四)

19:00 - 20:00

嘉宾简介

王勤龙(花名:长凡)

蚂蚁集团技术专家

AI 系统工程师

议题简介

本次分享将介绍 DLRover 云上弹性容错的分布式训练架构,包括介绍 DLRover 的容错如何提高大规模分布式训练的稳定性和训练的自动优化。同时还会介绍 DLRover 分布式训练的资源自动扩缩容功能如何降低分布式训练门槛,提升训练性能和集群效能。

听众收获

  • 了解 DLRover 项目及架构
  • 了解分布式训练弹性、容错和自动扩缩容的原理
  • 了解分布式训练自动调优的原理与实现
发布于 2023-09-07
0 条评论
组织者
主办方
蚂蚁集团 AI Infra 团队