Amazon S3 Metadata 新功能概述
Amazon Web Services (AWS) 推出了 Amazon S3 Metadata 功能,旨在简化 Amazon S3 用户的数据发现和管理。该功能目前在美国东部(俄亥俄州和北弗吉尼亚州)以及美国西部(俄勒冈州)区域提供预览版本。
主要功能与优势
- 数据查询与分析:
S3 Metadata 允许用户实时查询和分析 S3 数据,支持与 AWS 分析服务集成,确保数据更新的实时性。 - 自动捕获与组织元数据:
该功能自动捕获并组织 S3 对象的元数据,包括系统定义的属性(如对象大小、存储类别、加密状态)和用户自定义标签,帮助企业更高效地管理和利用数据。 - 应用场景:
适用于多种应用场景,包括商业分析、实时推理应用和 AI 模型训练。 - 实时更新:
元数据在 S3 对象发生变化后的几分钟内更新,确保近实时的准确性。 - 存储方式:
元数据存储在 S3 Tables 中,这是一种新的桶类型,称为表桶(Table Bucket),用于存储表作为子资源。
技术细节
- Apache Iceberg 集成:
S3 Metadata 采用 Apache Iceberg,允许用户将元数据存储在完全托管的 Iceberg 表中,支持高性能的查询操作。 - 历史记录:
每次更新都会在表中生成新行,提供对象更改的历史记录,便于检索和分析。 - 兼容工具:
支持与 Apache Spark、Amazon Athena 和 Amazon QuickSight 等 Iceberg 兼容工具集成。
与 AWS 分析工具的集成
- AWS Glue Data Catalog:
目前处于预览阶段,支持与 S3 Metadata 的无缝集成。 - 其他 AWS 工具:
包括 Amazon Athena、Redshift、EMR 和 QuickSight,用于流式处理和查询元数据。 - Amazon Bedrock:
为存储在 S3 中的 AI 生成视频添加元数据,如来源、创建时间戳和使用的模型。
元数据模式
元数据模式包含超过 20 个元素,从桶名称和对象键到加密细节和用户自定义标签。用户还可以通过与应用特定表结合来进一步丰富数据。
启用步骤
- 创建表桶:
使用create-table-bucket
命令、AWS 管理控制台或 API 调用创建用于存储元数据的桶。 - 附加元数据配置:
指定配置文件,将数据桶与元数据表关联。 - 运行查询:
使用 Apache Spark 或 AWS 分析服务查询元数据,获取对象存储、更新等关键信息。
示例查询
spark.sql("SELECT key, size, storage_class, encryption_status FROM mytablebucket.aws_s3_metadata.my_table ORDER BY last_modified_date DESC LIMIT 10").show(false)
用户反馈
- Amrutha Gujjar(Structured Labs CEO):
AWS 采用 Iceberg 符合行业向开放表格式发展的趋势,确保了与 Apache Spark 和 Flink 等工具的互操作性,并为基于 S3 的架构提供了未来保障。 - Ian Mckay(Kablamo 云架构师、AWS Community Hero):
S3 桶现在支持可查询的元数据(Iceberg 表)功能,允许使用 Athena 等工具实时查询对象的创建、更新和删除操作,但需注意使用成本。
管理与定价
- 通过 S3 控制台管理:
用户可以通过 Amazon S3 控制台的 Metadata 标签页配置和管理 S3 Metadata。 - 定价依据:
定价基于更新次数(对象创建、删除和元数据更改)以及元数据表的存储成本。详细的定价信息可在 S3 定价页面 查看。
总结
Amazon S3 Metadata 通过自动捕获和组织元数据,简化了数据管理和发现过程,支持实时查询和分析,并与 AWS 分析工具无缝集成。该功能采用 Apache Iceberg 技术,确保了高性能和历史记录的可追溯性,适用于多种应用场景,包括商业分析和 AI 模型训练。用户可以通过简单的步骤启用该功能,并通过 AWS 工具进行高效的数据处理和分析。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。