AWS Glue 5.0 引入 Spark 3.5.2 并增强 ETL 性能

AWS Glue 5.0 发布总结

主要观点

在最近的 re:Invent 大会上,亚马逊宣布了 AWS Glue 5.0 的全面可用性,旨在加速基于 Apache Spark 的 ETL 任务。此次发布引入了升级的运行时环境,性能和安全性的提升,以及对开放表格式的支持。

关键信息

  • AWS Glue 5.0:一个无服务器的数据集成服务,简化了从多个来源准备和集成数据的过程。
  • 升级的运行时:包括 Spark 3.5.2、Python 3.11 和 Java 17。
  • 性能提升:作业启动时间更快,自动分区修剪,以及原生的 Amazon S3 访问。
  • 开放表格式支持:包括 Apache Iceberg、Delta Lake 和 Apache Hudi。

重要细节

  • Spark 3.5.2 的改进:支持 Arrow 优化的 Python UDFs、Python 用户定义表函数,以及 RocksDB 状态存储提供者。
  • 性能测试结果:在 Amazon S3 上的 TPC-DS 测试中,AWS Glue 5.0 比 4.0 版本快 58%,成本降低 36%。
  • 与 SageMaker 的集成:支持 SageMaker Lakehouse,提供对 Amazon Redshift 数据仓库和 S3 数据湖的统一访问。
  • 细粒度访问控制 (FGAC):通过 AWS Glue 5.0 和 Lake Formation 集成,可以在表、列和行级别控制数据湖资源的访问。

专家评论

Adriano Nicolucci,Slalom 的首席顾问,发表了对 Glue 5.0 的评论,认为这些增强将提升性能、降低成本并简化操作。

可用性

AWS Glue 5.0 现在在所有支持 AWS Glue 的地区全面可用。

阅读 15
0 条评论