近日,焱融科技发布分布式文件存储产品 YRCloudFile V7.0.0 版本。在该版本中,YRCloudFile 增加对 EC (Erasure Code)纠删码的支持,同时还进行了多项技术优化,大幅提升了存储系统的可靠性、稳定性和可用性,产品功能更具灵活性。
YRCloudFile 是焱融科技自主创新研发的高性能文件存储系统,基于灵活的 SDS 架构,既具备传统并行存储的高性能,又满足企业关键业务和新兴业务需求的存储系统。不仅可以广泛应用于企业级文件共享,大容量数据存储、大数据等通用场景,还能更成熟的应用于 AI 大模型 、HPC 高性能计算、智自动驾驶、生信分析、GIS 等高性能计算应用场景,为企业级用户及应用提供高效的数据存储和管理服务。
7.0.0 版本YRCloudFile 有以下重要更新
- 数据冗余保护增加了对 EC (Erasure Code)纠删码的支持
- 系统内核升级:为系统提供更好的稳定性
- 支持通过 CSI 容器存储接口(Container Storage Interface) 对接多存储集群
高效冗余,存储利用率大幅提升
基于 SDS 的分布式存储系统底层硬件通常由 x86 服务器节点构成。其中节点失效或硬盘损坏的情况时有发生,为了保证信息可靠性和安全性,通常采用多副本策略进行存储。
即:同一数据保存多份,分别保存在多个节点的多块硬盘中,即使其中任意一块磁盘损坏,其他磁盘上仍保存有数据副本可用。采用这样的方式实现简单,能有效保证数据可靠性,但存储效率较低,相应地提高了数据的存储成本。
尤其对于全闪存储来说,普遍采用 NVMe SSD 作为存储介质,目前相近容量单块硬盘的成本是 HDD 机械硬盘的 4 倍左右。纠删码是 RAID 技术的延伸,传统集中式存储大多采用 RAID 技术,而分布式存储系统则采用配置更加灵活的 EC 纠删码技术。
与副本技术相比,纠删码(Erasure Code,即 EC )能够在保证相同数据可靠性的同时,提升磁盘空间利用率,从而有效降低数据存储成本。纠删码 EC 原理把写入存储系统的数据切割成若干个固定长度的数据块(N),之后再根据数据块计算出若干个校验数据块(M),最后将数据块和校验块一并存储在系统中的不同节点或不同磁盘上。
对于这N+M 块的元素,当其中任意的 M 块元素出错(包括原始数据和冗余数据)时,均可以通过对应的重构算法恢复出原来的N 块数据。如下图所示,以 4+2 为例,说明 EC 数据块和校验块写入的过程:
与副本方式相比,在相同的数据可靠性等级下,纠删码可以大幅提升存储利用率。比如典型的 EC 8+2 的配置,存储利用率可以达到 80% 左右,而三副本模式存储利用率提升了 2 倍。焱融存储系统目前支持哪些 EC 模式?焱融分布式文件存储系统 YRCloudFile 支持灵活的 EC 配置模式,支持的纠删码数据冗余配置如下表所示:
*说明:
●其中加粗字体为推荐配置,10 节点以上请参考 10 节点配置策略。
●其空间利用率都没有考虑磁盘容量损耗。
值得注意的是,EC 纠删码会因对数据切块造成 CPU 计算资源消耗,并且在读写数据时增加延迟。然而这些问题对于全闪存储来说却不是事儿,因为全闪存储通常会配置高性能的 CPU,数据切块带来的消耗影响不大;另一方面,全闪存储节点网络会采用 100/200GbE 以上的以太网,甚至是200/400Gbps 的 InfiniBand 高速网络,这极大地规避了网络延迟带来的性能影响。
综上所述,EC 纠删和全闪存储的结合完美兼顾了存储成本和高性能。02焱融全闪存储 F8000X 在 EC 模式下的性能表现焱融全闪存储 F8000X 提供了在 AI 大模型时代的海量数据支持、超高性能、大模型全流程高效数据流转及建设成本都可兼顾的统一解决方案。
采用全 NVMe SSD、InfiniBand 高速网络,支持 200Gb/400Gb Infiniband 网络及 NVIDIA GPUDirect Storage 技术。以下为在焱融实验室实测数据:3个节点组成的焱融全闪存储 F8000X集群,每台配置双 200Gbps HDR InfiniBand 网卡,分别在副本模式和 EC 模式下的性能对比测试。如图所示,在大文件读、写场景下,EC 模式能够达到和副本相当的性能表现:
结论:EC 模式可以满足大量的存储和读取数据的需求,是 AI 大模型 、 HPC 和大数据分析等追求高数据吞吐业务场景的最佳存储选择。在该场景下,EC 模式与副本模式的性能相当,但 EC 具有明显的数据存储成本优势。
在 YRCloudFile V7.0.0 版本中,焱融首次支持了EC 纠删码技术,丰富了数据冗余保护技术。用户根据其业务应用场景对性能和存储成本的实际需求,灵活地选择数据可靠性技术。此外,在云原生场景,YRCloudFile 实现了客户端的动态挂载,支持从统一的 CSI 按需对接多个目标存储集群,满足在容器业务需要访问多套存储环境的需求场景。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。