手把手教你使用 OSS-HDFS 服务平替自建HDFS

2023-08-07
阅读 12 分钟
OSS-HDFS服务是一款基于对象存储OSS之上的云原生数据湖3.0存储产品,基于统一的元数据管理能力,在完全兼容 HDFS 文件系统接口的同时,提供充分的 POSIX 能力支持,能更好的满足大数据和 AI 领域丰富多样的数据湖计算场景。

阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低 HDFS 压力?

2020-01-13
阅读 6 分钟
众所周知 Flink 是当前广泛使用的计算引擎,Flink 使用 checkpoint 机制进行容错处理[1],Flink 的 checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。在 Alibaba 内部我们使用的存储主要是 HDFS,当同一个集群的 Job 到达一定数量后,会对 HDFS 造成非常大的压力,本文将介绍一种大幅度降低 HDFS 压力的方...

阿里巴巴飞天大数据架构体系与Hadoop生态系统

2019-09-12
阅读 7 分钟
Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。