Databricks 向 Apache Spark 贡献 Spark 声明式管道

发布于 7 月 3 日

主要观点：Databricks 在 6 月 10 日至 12 日美国旧金山的[Databricks Data+AI Summit]上宣布将 Delta Live Tables（DLT）背后的技术贡献给 Apache Spark 项目，名为 Spark Declarative Pipelines，此举利于 Spark 用户开发和维护流管道，也体现其对开源的承诺。
关键信息：

新特性可让开发者无需创建 Spark 中的常规命令即可定义数据流式管道，简化了管道代码编写和维护任务，但仍需了解 Spark 运行时行为及故障排除。
可通过 SQL 语法或简单 Python SDK 定义管道，减少对 Apache Airflow 等协调器的需求，框架会解释查询并创建依赖图和优化执行计划。
支持从 Apache Kafka 等流数据源的流表和存储聚合及结果的物化视图，物化视图会随新数据自动更新。
提供了 SQL 语法概述，示例展示了如何通过 CREATE STREAMING TABLE 命令定义流并在后续查询中使用 FROM 语句消费。
已有多篇文章描述工程师使用 Databricks DLT 的经验，DLT 能在数小时内构建摄取管道，内置数据质量强制提供额外可靠性。
Spark Declarative Pipelines 还支持变更数据捕获、批处理和流逻辑、内置重试逻辑及可观测性钩子，正被合并到 Spark 项目中，计划于 2026 年 1 月的 Spark 4.10 版本发布，可在 Apache Jira Spark 项目的[SPARK-51727]中跟踪进度。

阅读 282