GitHub - deepseek-ai/3FS: 一个旨在应对 AI 训练和推理工作负载挑战的高性能分布式文件系统。

主要观点:介绍了 Fire-Flyer File System(3FS)这一高性能分布式文件系统,包括其设计特点、多种工作负载支持、性能表现(峰值吞吐量、GraySort、KVCache 等)、文档资源、源代码获取、依赖安装、构建过程以及运行测试集群和报告问题的相关内容。

关键信息

  • 采用解耦架构,结合数千 SSD 的吞吐量和数百存储节点的网络带宽,实现本地无关的存储访问。
  • 实现强一致性的 Chain Replication with Apportioned Queries(CRAQ),使应用代码简单易理解。
  • 提供数据准备、数据加载、检查点和 KVCache 等多种工作负载支持。
  • 峰值吞吐量在 180 节点集群中可达约 6.6 TiB/s。
  • GraySort 测试在 25 存储节点和 50 计算节点的集群中,30 分 14 秒完成 110.5 TiB 数据排序,平均吞吐量为 3.66 TiB/min。
  • KVCache 读取吞吐量峰值达 40 GiB/s,展示了其在 LLM 推理中的优化效果。

重要细节

阅读 8
0 条评论