头图

日前,腾讯云专家工程师严俊明老师,在云+社区技术沙龙「云原生」专场,分享了基于对象存储的云原生数据湖最新技术突破,包括云原生数据湖业务场景以及技术架构。

下面,让我们一起回顾下严老师的精彩演讲内容。

一、大数据存储云原生趋势解析

image.png

第一阶段:存储一体,孤岛。十几年前,网络速度远低于本地磁盘吞吐速度的时候,本地化读取数据可以换取更高的吞吐性能。但随着网络速度不断加快,磁盘吞吐速度逐渐成为计算瓶颈,本地盘HDFS压力加大,运维成本升高,可网络带宽资源却闲置,导致业务效率低下。

第二阶段:存算分离,存储、计算解耦。 解耦计算和存储负载,系统负载均衡调度更加灵活,系统的资源利用率提高,节约成本,可以满足业务快速增长的需求。

第三阶段:数据湖,存储统一。随着业务多样化发展,业务间数据共享变得困难,而数据湖是一个集中式存储池,支持多种数据源,无缝对接各种计算分析和机器学习平台,实现数据处理与分析,打破数据孤岛。

第四阶段:云原生,计算统一。随着数据湖计算节点调度效率降低,云原生技术能构建和运行可弹性扩展的应用,跨多云构建微服务,持续交付部署业务生产系统。

二、对象存储架构及数据湖场景挑战

image.png

对象存储 COS 是腾讯云提供的一种存储海量文件的分布式存储服务,具有高扩展性、低成本、高可靠、高可用、EB级扩展能力。通过控制台、API、SDK 和工具等多样化方式,用户可简单、快速地接入 COS,进行多格式文件的上传、下载和管理,实现海量数据存储和管理。

相比传统分布式存储系统,COS 采用超大规模分布式存储引擎:YottaStore,可轻松操控百万级超大规模存储集群。YottaStore突破了单点Master的瓶颈,做到单集群可达百万节点的控制,且不需要拆分元数据。同时,元数据能存得更小,管理得更多,1Byte元数据可以管理2GB的物理空间。

此外,YottaStore是原生多AZ,在资源管理、调度考虑AZ,所有服务器共同承担吞吐,对数据一致性有天然的保障。加上分钟级RTO,RPO为0,可以彻底解放上层业务,数据冗余度低,存储成本大幅度减少。

为了支持以 COS 为中心的大数据存算分离架构以及云端数据湖,Apache Hadoop-3.3.0发布了COSN文件系统,兼容HCFS接口,全覆盖HDFS大数据计算应用。

而数据湖场景面临的主要有3点:

  • 元数据延时高
  • 元数据非原子性
  • 带宽需求大、成本高

三、对象存储数据湖三级加速

image.png

1. 元数据加速技术(用户侧)

文件组织以文件树形式管理,文件拆成块管理,块又会进一步拆解存储到对象存储 COS 上,是一种扁平化结构。支持目录级别并发,分区可扩展,也可跨分区。

加速读操作,尽可能内存化,从内存直接读取数据。

image.png

2. 缓存加速技术

元数据缓存到计算端(用户侧),提前预热数据,从本地直接读取,减少网络带宽限制,提高访问性能。

提高缓存命中率,提高资源利用率,极大降低网络带宽成本。

支持云原生部署,部署方式灵活

image.png

3. AZ数据加速技术——COS加速器(存储端)

  • AZ Locality
  • 专有加速域名访问资源;
  • 缓存数据强一致;
  • 可以加速Bucket,或者prefix;
  • 同一个Bucket,支持多个加速器
  • 支持存量Bucket,随时Enable/Disable;
  • 如果miss cache,从COS回源

四、EMR On COS 存算分离实践分享

Hive On COS 存算分离优化实践

hive的例子原本是存算一体架构,数据含有大量的本地化策略、逻辑。可数据上传到 COS 后,不再含有本地逻辑,会重新计算、切分数据大小,map从274个减少到5个,从而提高系统并发,降低系统运行时间。

Spark On COS 存算分离优化实践

spark采用串行、单线程操作,网路延时过大。存算分离实践对spark进行并发加速,加快单线程操作时间,从而提高spark的运行速度。

以上是严老师分享内容的简要概括,更多精彩内容,可以点击下方视频观看。
https://www.qq.com/video/w323...

关于我们

云+社区「腾讯云存储团队」主页,涵盖了腾讯云存储团队最新动态、团队信息、产品矩阵、技术文档、视频教程等,欢迎关注或留言,给出您的宝贵建议。


云存储小天使
13 声望2 粉丝

为大家分享更多的云存储技术实战内容!