头图

引言

Apache Flink 社区很开心地宣布,在经过4个月的版本开发之后,Flink CDC 3.4.0 版本已经正式发布。Flink CDC 是流行的流式数据集成框架,CDC 3.4.0 版本强化了框架对于高频表结构变更的支持,框架支持了 batch 执行模式,新增 Apache Iceberg Sink 连接器支持,用户可以使用 Flink CDC 将数据库数据全增量一体化实时写入 Iceberg 数据湖。我们推荐社区用户升级到 Flink CDC 3.4.0 版本。

一、版本数据

Flink CDC 3.4.0 版本吸引了51位社区贡献者,累计完成259次代码提交,关闭65个 issue。这些代码贡献主要分布在连接器组件、运行时引擎、transform 等模块。

图-1: Flink CDC 3.4 版本数据 

现在,您可以访问 Flink CDC Release 页面[1] 下载 Flink CDC 3.4.0 的二进制包,也可以在文档网站[2] 上访问最新版本的文档。如果您在使用时遇到任何问题,欢迎在 Flink 用户邮件列表[3]、用户钉群、GitHub Discussions[4] 或 Flink JIRA 看板[5] 上提出问题或发起讨论。

二、版本概览

此次发版,Flink CDC 重点改进和功能如下:

图-2: Flink CDC 3.4 版本概览

Flink CDC 3.4.0 为数据集成 Pipeline 作业支持了 batch 执行模式,batch 执行模式可以高效实现全量数据同步的需求;在表结构演进功能上完成了高频表结构变更场景的性能优化;同时增加了对 YARN Application 提交模式的支持;新增了 Iceberg Sink 连接器,支持 CDC 数据实时写入 Iceberg,此外还对 Paimon、MySQL 和 MongoDB 连接器做了完善和优化。

三、特性解读

3.1  Flink CDC 框架

Batch 执行模式

在Flink CDC 3.4版本中,CDC Pipeline 框架提供了 execution.runtime-mode参数,当配置该参数为 BATCH时,会创建并提交 Flink batch 作业。在只需执行全量数据同步的业务场景下,使用batch模式能够有效降低作业资源消耗,提升数据同步效率。

目前仅支持 MySQL Source 连接器对接到了batch模式,且需将启动参数配置为 snapshot(仅快照)模式。

Schema Evolution 优化

Flink CDC 3.4 版本优化了多表同步情况下,作业初始化阶段的协调耗时,并修复了高频率执行表结构变更时,偶现的作业挂起问题,同时优化了作业异常时打印更多表结构和数据信息便于问题分析排查。

YARN Application 部署模式

Flink CDC CLI 在3.4版本中支持通过 ./bin/flink-cdc.sh -t yarn-application命令创建一个新的 yarn-application部署作业。在此模式下,框架支持创建一个专用的 JobManager 并提交作业,并在作业执行完成后自动销毁。

3.2  Flink CDC 连接器

Iceberg Pipeline Connector

Apache Iceberg  业界领先的数据湖格式,Flink CDC 3.4.0版本提供了Iceberg Sink 连接器,现在用户可以使用 CDC YAML 作业将来自数据库的CDC数据高效写入到 Apache Iceberg 中,构建基于 Iceberg 的实时数据湖。

Paimon  Pipeline Connector

Paimon 是国内实时数据湖的主流格式,在Flink CDC 3.4版本中,社区升级 Paimon 版本到 1.0.1,这是 Apache Paimon 1.0 的稳定版本。同时优化了checkpoint 阶段执行 commit 的用时,新增对无主键表的写入支持,同时还支持写入完整的 Changelog。

MySQL CDC Connector

MySQL作为重点连接器,在 Flink CDC 3.4版本中,社区支持了将变更流转换为仅追加(Append Only)流,从而实现逻辑删除的功能。同时提供优先处理无界的分片的配置,能够有效避免全量阶段运行时间过长导致 TaskManager 处理最后一个大分片引发的 OOM 问题。

MongoDB CDC Connector

针对社区用户对 MongoDB 对 oplog 中的操作类型访问需求,CDC 3.4 版本对 MongoDB CDC 连接器增加 op_type 元数据,支持读取 oplog 中的操作类型。

3.3 Flink CDC 缺陷修复和改进

除了上述核心特性外,Flink CDC 3.4 版本也包含了多个缺陷修复和改进,包括:

  • 修复了 Pipeline 作业在有状态重启后会重新推导表结构的问题。
  • 修复了 Pipeline 作业在使用 transform 时不支持使用不满足 java 变量名规则字段的问题。
  • 修复了 Pipeline 作业在使用 transform 时不支持覆盖表中已经存在的同名列的问题。
  • 修复了 Pipeline 作业在 transform 中部分算术函数不支持处理 null 值的问题。
  • 修复了 MySQL 连接器开启 scan.binlog.newly-added-table.enabled 时意外捕获其他表的问题等。

四、未来规划

Flink CDC 3.5 版本的规划已经在社区发起讨论,新的版本一方面将会继续聚焦社区用户的共性需求,完善Flink CDC 框架能力,如脏数据处理、数据限流等API设计;另一方面会丰富 Pipeline 连接器生态,在社区贡献者特别是海外贡献者的驱动下支持 PostgreSQL 等海外重点生态;同时面向AI时代,也会完善目前Flink CDC 已有的 AI model 能力,对接更多AI生态。

致谢

特别感谢以下 51 名开发者对 Flink CDC 3.4.0 版本作出的贡献(按字母排序)!:

911432, chenhongyu, ConradJam, Ferenc Csaky, gongzhongqiang, Hang Ruan, He Wang, hiliuxg, Hongshun Wang, Jason Zhang, Jiabao Sun, Junbo Wang, Jzjsnow, Kevin Caesar, Kevin Wang, Kunni, Leonard Xu, lidoudou1993, linjianchang, liuxiaodong, lvyanquan, lzshlzsh, MOBIN-F, moses, North Lin, Olivier, ouyangwulin, Petrichor, proletarians, qinghuanwang, Qingsheng Ren, Robin Moffatt, Runkang He, Sergei Morozov, Seung-Min Lee, Shawn Huang, stayrascal, Thorne, Timi, Umesh Dangat, Vincent-Woo, Vinh Pham, wenmo, Wink, wudi, Xin Gong, yohei yoshimuta, yuanoOo, yuxiqian, zhangzheng


[1] https://github.com/apache/flink-cdc/releases/tag/release-3.4.0

[2] https://nightlies.apache.org/flink/flink-cdc-docs-release-3.4/

[3] https://flink.apache.org/what-is-flink/community

[4] https://github.com/apache/flink-cdc/discussions

[5] https://issues.apache.org/jira/projects/FLINK/summary


更多内容


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?utm_content=g_1000395379&productCode=sc


ApacheFlink
949 声望1.1k 粉丝