一、大模型规模描述
存储作为AI大模型训练的重要基础设施,贯穿大模型全流程,存储的能力和性能,直接影响大模型训练周期,影响整体成本付出。
目前,受多个因素影响,大模型训练一次耗时很长,少则几天,多则数周,这取决于训练规模,比如Llama2大模型有70B规模,这里的70B指的是参数数量,70B也就是700亿,预训练数据集达到了4.5TB,所以,大模型训练是耗硬件大户,什么GPU算力、内存容量和速率、网络带宽,存储IO和吞吐量,每个环节都影响训练的时长,也就是训练成本。
二、大模型训练过程简述
大模型训练一般分为如下四个步骤,采集、调试、训练和推理,每个阶段对于存储需求是不同的,采集和调试属于准备阶段,训练也就是模型训练环节,推理也就是大模型的应用
①数据采集和清洗 => ②开发调试 => ③模型训练 => ④模型推理
三、大模型各个阶段的挑战和存储需求?
关注博主,且看Ceph存储如何满足这些需求?
想了解Ceph存储搜索:Ceph存储从入门到突破
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。