头图

一、大模型规模描述

存储作为AI大模型训练的重要基础设施,贯穿大模型全流程,存储的能力和性能,直接影响大模型训练周期,影响整体成本付出。
目前,受多个因素影响,大模型训练一次耗时很长,少则几天,多则数周,这取决于训练规模,比如Llama2大模型有70B规模,这里的70B指的是参数数量,70B也就是700亿,预训练数据集达到了4.5TB,所以,大模型训练是耗硬件大户,什么GPU算力、内存容量和速率、网络带宽,存储IO和吞吐量,每个环节都影响训练的时长,也就是训练成本。
image.png

二、大模型训练过程简述

大模型训练一般分为如下四个步骤,采集、调试、训练和推理,每个阶段对于存储需求是不同的,采集和调试属于准备阶段,训练也就是模型训练环节,推理也就是大模型的应用
①数据采集和清洗 => ②开发调试 => ③模型训练 => ④模型推理
image.png

三、大模型各个阶段的挑战和存储需求?

image.png

关注博主,且看Ceph存储如何满足这些需求?

想了解Ceph存储搜索:Ceph存储从入门到突破


毕辞数据Aaron
1 声望0 粉丝

10+年菊厂研发经验,在分布式系统领域深耕多年,精通分布式文件系统、存储系统架构