阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%

公司简介

vivo是专注于智能手机领域的国际化品牌，vivo追求乐趣、充满活力、专业音质、极致影像、愉悦体验的智能产品，并将敢于追求极致、持续创造惊喜作为vivo的坚定追求。 2014年vivo品牌的国际化之路全面开启，除中国大陆市场外，vivo进驻的海外市场包含印度、泰国、缅甸、马来西亚、印度尼西亚、越南和菲律宾。

业务痛点

GPU利用率不高，资源浪费明显：VIVO客户的业务场景中使用的是大规模多模态模型。对该类模型进行分布式训练时，通常使用单步更新的训练模式，即每一次单步训练之后都会进行一次梯度通信，这样会导致短时间内出现大量的通信请求，造成很大的通信压力。同时，该模型的参数量较大，每次梯度通信的通信量与模型参数量成正比，这进一步的增加了通信压力。另外，该模型的训练过程中也没有对计算和通信进行时间上的重叠，这也显著的导致了训练过程中的通信时长的增加。整个分布式训练过程中大量的时间被梯度通信占据，GPU的计算资源在大多数时间处于等待状态，无法完美发挥作用。
训练时间长，业务模型迭代周期太长：客户业务模型的更新频率很高，每次模型迭代期间不仅要进行模型的分布式训练，还要进行测试，上线等流程。在这个迭代周期内，分布式训练占据了大量的时间，导致其它流程不得不精简以保证迭代周期，这也使得客户的业务团队承担不小的压力。

解决方案

对大规模多模态模型进行分布式训练时，由于通信压力巨大，相比于单机训练，多机训练获得的性能增益并不多，在双机场景下甚至观察到性能的负增长。于是，阿里云的神龙AI加速引擎AIACC团队，针对VIVO的场景，在底层针对通讯、计算、时延和带宽等做了深度优化。由于客户训练集群的网络状况有可能发生变化，AIACC团队采用了自适应优化策略，能够实时的根据网络状况对通信优化策略进行调整，从而大大提升了GPU的利用率。
在多种复杂的网络条件下，将大规模多模态模型的训练性能提升了30%-70%。AIACC团队协助VIVO客户大大的缩短了的模型训练时间，加速了模型迭代，助力业务模型快速上线。

业务价值

在多种复杂的网络条件下，将大规模多模态模型的训练性能提升了30%～70%。
缩短了客户业务模型的迭代周期，为客户的业务团队减轻了压力。

阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%

公司简介

业务痛点

解决方案

业务价值

相关产品

神龙AI加速引擎

GPU云服务器

阿里云弹性计算

引用和评论

深度解读｜NebulaGraph x 阿里云计算巢，云上构建超大规模图数据库

GPUDirect RDMA 的演进与实现

阿里云 ESA 游戏行业解决方案｜安全防护、加速、低延时的技术融合

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

云电竞巅峰对决：ToDesk/网易云/START实战测评，谁是真王者？

算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案

计算加速技术比较分析：GPU、FPGA、ASIC、TPU与NPU的技术特性、应用场景及产业生态