亚马逊S3推出元数据功能，预览版提升数据管理与查询能力

Amazon S3 Metadata 新功能概述

Amazon Web Services (AWS) 推出了 Amazon S3 Metadata 功能，旨在简化 Amazon S3 用户的数据发现和管理。该功能目前在美国东部（俄亥俄州和北弗吉尼亚州）以及美国西部（俄勒冈州）区域提供预览版本。

主要功能与优势

数据查询与分析：
S3 Metadata 允许用户实时查询和分析 S3 数据，支持与 AWS 分析服务集成，确保数据更新的实时性。
自动捕获与组织元数据：
该功能自动捕获并组织 S3 对象的元数据，包括系统定义的属性（如对象大小、存储类别、加密状态）和用户自定义标签，帮助企业更高效地管理和利用数据。
应用场景：
适用于多种应用场景，包括商业分析、实时推理应用和 AI 模型训练。
实时更新：
元数据在 S3 对象发生变化后的几分钟内更新，确保近实时的准确性。
存储方式：
元数据存储在 S3 Tables 中，这是一种新的桶类型，称为表桶（Table Bucket），用于存储表作为子资源。

技术细节

Apache Iceberg 集成：
S3 Metadata 采用 Apache Iceberg，允许用户将元数据存储在完全托管的 Iceberg 表中，支持高性能的查询操作。
历史记录：
每次更新都会在表中生成新行，提供对象更改的历史记录，便于检索和分析。
兼容工具：
支持与 Apache Spark、Amazon Athena 和 Amazon QuickSight 等 Iceberg 兼容工具集成。

与 AWS 分析工具的集成

AWS Glue Data Catalog：
目前处于预览阶段，支持与 S3 Metadata 的无缝集成。
其他 AWS 工具：
包括 Amazon Athena、Redshift、EMR 和 QuickSight，用于流式处理和查询元数据。
Amazon Bedrock：
为存储在 S3 中的 AI 生成视频添加元数据，如来源、创建时间戳和使用的模型。

元数据模式

元数据模式包含超过 20 个元素，从桶名称和对象键到加密细节和用户自定义标签。用户还可以通过与应用特定表结合来进一步丰富数据。

启用步骤

创建表桶：
使用 create-table-bucket 命令、AWS 管理控制台或 API 调用创建用于存储元数据的桶。
附加元数据配置：
指定配置文件，将数据桶与元数据表关联。
运行查询：
使用 Apache Spark 或 AWS 分析服务查询元数据，获取对象存储、更新等关键信息。

示例查询

spark.sql("SELECT key, size, storage_class, encryption_status FROM mytablebucket.aws_s3_metadata.my_table ORDER BY last_modified_date DESC LIMIT 10").show(false)

用户反馈

Amrutha Gujjar（Structured Labs CEO）：
AWS 采用 Iceberg 符合行业向开放表格式发展的趋势，确保了与 Apache Spark 和 Flink 等工具的互操作性，并为基于 S3 的架构提供了未来保障。
Ian Mckay（Kablamo 云架构师、AWS Community Hero）：
S3 桶现在支持可查询的元数据（Iceberg 表）功能，允许使用 Athena 等工具实时查询对象的创建、更新和删除操作，但需注意使用成本。

管理与定价

通过 S3 控制台管理：
用户可以通过 Amazon S3 控制台的 Metadata 标签页配置和管理 S3 Metadata。
定价依据：
定价基于更新次数（对象创建、删除和元数据更改）以及元数据表的存储成本。详细的定价信息可在 S3 定价页面查看。

总结

Amazon S3 Metadata 通过自动捕获和组织元数据，简化了数据管理和发现过程，支持实时查询和分析，并与 AWS 分析工具无缝集成。该功能采用 Apache Iceberg 技术，确保了高性能和历史记录的可追溯性，适用于多种应用场景，包括商业分析和 AI 模型训练。用户可以通过简单的步骤启用该功能，并通过 AWS 工具进行高效的数据处理和分析。