AWS 推出 S3 Tables Bucket:S3 是否正在成为数据湖仓?

AWS 最近宣布推出 S3 Tables Bucket,这是一种专为分析工作负载优化的托管 Apache Iceberg 表服务。与标准 S3 存储相比,新选项在 Apache Iceberg 表的查询性能上提升了 3 倍,事务处理速率提高了 10 倍。

主要观点

  1. S3 Tables Bucket 的定位

    • S3 Tables Bucket 是 S3 的第三种存储桶类型,与现有的通用存储桶和目录存储桶并列。
    • 它被设计为一个分析仓库,能够存储具有不同模式的 Apache Iceberg 表。
  2. Apache Iceberg 的优势

    • Apache Iceberg 是一种高性能的开源大数据分析表格式,支持 SQL 表操作。
    • 它允许多个引擎(如 Spark、Trino、Flink、Presto 和 Hive)同时访问和操作同一表。
  3. 竞争与集成

    • S3 Tables 与 Databricks Delta Lake 和 Snowflake 的外部 Iceberg 表竞争。
    • 它支持持续表维护,自动优化查询效率和存储成本。
    • 与 AWS Glue Data Catalog 集成,支持 Amazon Kinesis Data Firehose、Athena、Redshift、EMR 和 QuickSight 等分析服务。
  4. 性能优化

    • 通过自动压缩(compaction)技术,S3 Tables 显著提升了查询性能,最高可达 3.2 倍加速。
    • 压缩技术尤其适用于 Apache Parquet 数据集,利用 Iceberg 的类数据库特性(如模式演进、时间旅行和 ACID 事务)。
  5. 社区反应

    • 开发者对 S3 Tables 的发布表示兴奋,认为 S3 可能正在演变为数据湖仓(data lakehouse)。
    • 但也有人对定价和功能完整性提出质疑,认为压缩成本可能对实时工作负载不友好。
  6. 扩展功能

    • AWS 在 re:Invent 上宣布了 S3 Metadata 的预览功能,可自动更新 S3 对象元数据,进一步扩展了 S3 的能力。

关键细节

  • 发布状态:S3 Tables Bucket 目前仅在美国的三个区域可用,与 AWS Glue Data Catalog 的集成仍处于预览阶段。
  • 定价争议:压缩成本为每 GB 处理 0.05 美元,对于处理 PB 级数据的客户可能不具吸引力。
  • 功能完善性:部分开发者认为 S3 Tables 功能尚不完善,AWS 可能会在未来进一步改进。

总结

S3 Tables Bucket 是 AWS 在数据分析领域的重要创新,通过 Apache Iceberg 和自动压缩技术显著提升了查询性能。尽管在定价和功能完整性上存在争议,但其与 AWS 生态系统的深度集成和潜在扩展性使其成为值得关注的新服务。

阅读 59
0 条评论