对象存储与HashData多云战略

｜多云架构的应运而生

今天，随着企业数字化进程的推进，多云成为了企业IT基础设施建设的重要特点。多云战略的实施，帮助企业降低了成本，提高了服务效率及安全性。特别是全球性跨国公司，不仅需要业务集中化管理，同时需要满足不同地域的业务运营和监管需求。相比于 AWS、Azure、谷歌云等公有云上的云原生数据仓库，HashData 通过支持多种对象存储，能够提供完全兼容多个公有云与混合云的数据管理能力。

｜对象存储的优势

以Amazon S3为例，如下表格从多个维度将对象存储与Hadoop 体系架构中的HDFS进行比较：

我们可以看到，相对于传统的HDFS分布式存储，以S3为代表的对象存储服务不仅具备弹性能力，同时在可用性与持久性上也提高了约一个数量级，而成本却只有前者的十分之一。由此可见，在云计算时代，对象存储已经全面超越HDFS，成为未来大数据的基础。

此外，对象存储的访问方式是基于HTTP协议的，能够无缝与各种Web应用和工具集成，并应用于广域网，从而实现跨数据中心、跨云平台的数据访问，使多云架构、跨云数据共享成为可能。

｜HashData支持多种对象存储

在主流的数据库系统（包括Oracle、DB2、PostgreSQL等）术语中，都有一个叫表空间（Tablespace）的概念。表空间是数据库系统中，数据库逻辑结构和文件系统物理结构之间建立映射的重要存储结构，它作为数据库与实际存储数据的物理存储设备之间的中间层，用来指明数据库中数据存放的物理位置。任何表的创建都必须显式或隐式地为其指定表空间，且数据库中的所有数据均位于表空间中。

继承于PostgreSQL的表空间，HashData云数据仓库创新性地在传统的表空间与对象存储中的存储桶（Bucket）之间建立映射关系，通过不同的表空间无缝对接多个跨平台、跨地域的对象存储系统，从而实现在一个集群中访问不同平台、不同类型、不同地域的对象存储系统，使得应用可以根据数据重要性、访问地域等因素选择性地将不同数据放在不同的对象存储系统中。

｜产品架构

下面，我们以数据加载为例，比较一下传统ETL架构图（基于Greenplum Database）与HashData基础架构对比图：

HashData 数据库ETL架构（上图右）相对于传统的数据库ETL架构（上图左）不需要额外的ETL服务器支持以及配置复杂的ETL过程。我们只需要将原始数据文件上传到对象存储上，然后在数据库中创建指向这些数据文件的外部表，便可以使用OSS协议，通过segment进行并行的数据导入，并将经过格式转化、编码压缩的数据（方便后续的高效访问）重新落回到对象存储中，完成ETL过程。

｜如何进行应用实践

以某网省数据迁移为例，原本应用的商业版对象存储，在自建对象存储团队后，用自研对象存储替换商业版对象存储，总数据量约为2PB，存储半年数据，应用方案如下：

在原有HashData集群中创建新的表空间，指向新对象存储；
在新的表空间中创建表结构跟原表一样的空表；
从原表中扫描出来数据插入到新表中，完成数据从一个对象存储到另一个对象存储的迁移;

实践中，以下为整个方案的核心过程模拟，通过HashData 集群将数据从一个Bucket（代表旧的对象存储）迁移到另一个Bucket（代表新的对象存储）下面，使用的对象存储是青云QingCloud的对象存储服务QingStor：

｜小结

多云环境下，面对市场上多个公有云厂商（如AWS、阿里云、腾讯云等，它们提供各自的对象存储服务）及种类繁多的私有云解决方案（它们的对象存储大多基于开源的Ceph，Swift，Minio等），如何高效、安全且低成本地实施多云战略是每个CIO需要认真考虑的问题。自公司创立之初，我们就坚信对象存储将成为未来大数据的基础。作为公司旗舰产品，HashData 云数据仓库围绕着对象存储和抽象服务构建，通过将计算与存储解耦，支持多种对象存储，使跨云、跨数据中心的数据共享成为了可能，为企业多云战略的实施提供了一个灵活而易用的解决方案。

对象存储与HashData多云战略

｜多云架构的应运而生

｜对象存储的优势

｜HashData支持多种对象存储

｜产品架构

｜如何进行应用实践

｜小结

酷克数据HashData

引用和评论

PGRX for Cloudberry 开源，pgvector for Cloudberry 升级到 0.8.0

分布式数据库解析

做到真正0丢失、0重复：Apache SeaTunnel 实现万亿级数据一致性全解密

在 Kubernetes 上用 KubeBlocks + Dify 快速构建生产级 AIGC 应用

数据库的下一场革命：S3 延迟已降至原先的 10%，云数据库架构该进化了

Ape-DTS：开源 DTS 工具，助力自建 MySQL、PostgreSQL 迁移上云

好用的开源埋点方案-ClkLog埋点用户分析系统