AWS Glue 5.0 发布总结
主要观点
在最近的 re:Invent 大会上,亚马逊宣布了 AWS Glue 5.0 的全面可用性,旨在加速基于 Apache Spark 的 ETL 任务。此次发布引入了升级的运行时环境,性能和安全性的提升,以及对开放表格式的支持。
关键信息
- AWS Glue 5.0:一个无服务器的数据集成服务,简化了从多个来源准备和集成数据的过程。
- 升级的运行时:包括 Spark 3.5.2、Python 3.11 和 Java 17。
- 性能提升:作业启动时间更快,自动分区修剪,以及原生的 Amazon S3 访问。
- 开放表格式支持:包括 Apache Iceberg、Delta Lake 和 Apache Hudi。
重要细节
- Spark 3.5.2 的改进:支持 Arrow 优化的 Python UDFs、Python 用户定义表函数,以及 RocksDB 状态存储提供者。
- 性能测试结果:在 Amazon S3 上的 TPC-DS 测试中,AWS Glue 5.0 比 4.0 版本快 58%,成本降低 36%。
- 与 SageMaker 的集成:支持 SageMaker Lakehouse,提供对 Amazon Redshift 数据仓库和 S3 数据湖的统一访问。
- 细粒度访问控制 (FGAC):通过 AWS Glue 5.0 和 Lake Formation 集成,可以在表、列和行级别控制数据湖资源的访问。
专家评论
Adriano Nicolucci,Slalom 的首席顾问,发表了对 Glue 5.0 的评论,认为这些增强将提升性能、降低成本并简化操作。
可用性
AWS Glue 5.0 现在在所有支持 AWS Glue 的地区全面可用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。