主要观点:AWS re:Invent 2024 会议推出的 Amazon S3 Tables 对数据库专业人员意义重大,标志着模块化数据分析时代到来,它是带有内置 Iceberg 支持的特殊 S3 Bucket,与其他 Bucket 共同构成 Table Bucket,具有诸多优势,如可扩展性、全托管、性能提升、无缝集成等。通过 Apache Doris 与 S3 Tables 可构建简化的 Lakehouse,操作简便,Doris 作为无状态查询引擎,与 S3 Tables 结合实现数据共享、多样工作负载和协作等功能,Lakehouse 带来新的数据分析范式,后续将继续讨论其更多特征及相关定位。
关键信息:
- S3 Tables 是带有内置 Iceberg 支持的 S3 Bucket,有 General Purpose Bucket、Directory Bucket 和 Table Bucket 三种。
- S3 Tables 具备可扩展性、全托管、性能提升、无缝集成等特点,如查询性能提升 3 倍,每秒事务处理量提升 10 倍等。
- 构建 Lakehouse 时,需购买 Table Bucket,启动 Apache Doris 集群,使用 SQL 进行操作,如创建 Catalog、Database、Table 等,还可进行 Time Travel 操作。
- Lakehouse 的两大特征是数据共享和多样工作负载与协作,数据共享得益于 S3 等存储系统,多样工作负载可让不同引擎在同一数据集上进行处理,Iceberg 通过版本管理增强协作能力。
重要细节:
- 目前通过 AWS 控制台对 Table Bucket 操作有限,需通过 AWS CLI 或其他分析组件进行操作。
- Apache Doris 对 S3 Tables 的官方支持预计 2025 年 Q1 发布,目前需在自己的 dev 分支运行。
- 在 Doris + S3 Tables 场景中,Doris 仅为无状态查询引擎,元数据和数据存储在 Table Bucket 中,可与其他系统共享数据。
- 数据共享可解决不同系统间数据一致性等问题,实现单一真实数据源;多样工作负载让不同引擎在同一数据集上协作处理数据。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。