Apache SeaTunnel在世界级银行巨头JP Morgan 内部的应用实践

作者系 JP Morgan 大数据工程师，文章内容来源于[DET 网络研讨会] 与 Apache SeaTunnel 的数据集成：https://www.youtube.com/watch?v=ln4mn6vLenc（有兴趣的同学可以观看演讲）

文章介绍了他任职期间使用 Apache SeaTunnel 优化数据操作，利用其与 Spark 集群的无缝集成，从 PostgreSQL、DynamoDB 等源摄取数据并加载至 S3。

SeaTunnel 提供的数据类型转换功能确保数据完整性，JP Morgan 计划进一步探索 Zeta 和 Flink 集群，扩展数据源，并贡献于 SeaTunnel 社区。

背景

摩根大通（JP Morgan）银行是一家拥有超过 200,000 名员工的金融巨头，其中包括 30,000 多名数据专业人员（工程师、分析师、科学家和顾问），正在与复杂的遗留系统和新兴的数据环境作斗争。

file

这个世界级银行巨头在 10 多个不同的数据平台组成的迷宫中运营，迫切需要一种强大、安全且高效的数据集成方法。

挑战

对摩根大通银行来说，主要挑战在于导航复杂的隐私和访问控制网络，尽管这些控制对数据保护至关重要，但往往会延迟数据摄取过程。

file

再加上公司向 AWS 的过渡阶段，尽管已经进行了两年，但仍在进行中，同时还在试验像 Snowflake 这样的现代数据库解决方案，显而易见，迫切需要一个灵活的数据集成解决方案。

寻求解决方案

在追求敏捷性的过程中，摩根大通银行评估了几种选择。其一是Fivetran ，一种流行的云服务，尽管效率很高，但针对数据量收费的费用很高，而且对新增数据源类型的支持较慢，使得试用陷入困境。

其二考虑了Airbyte，尽管 Airbyte 具有开源魅力，但由于它没有使用 Spark 或 Flink 等强大的数据处理引擎，因此在可扩展性方面存在不足。这就需要一种可以利用我们的 Spark 集群来实现最佳性能的替代方案。

SeaTunnel：游戏规则改变者

摩根大通银行发现了Apache SeaTunnel：一种与现有的Spark基础设施兼容的开源商业化的多功能数据集成工具。一个关键优势是它与Java代码库的无缝集成，允许从摩根大通银行的主要编码环境直接触发数据迁移作业。

架构与实施

SeaTunnel的数据架构简单而强大。摩根大通银行利用 SeaTunnel从 Oracle、DB2、PostgreSQL、DynamoDB 和 SFTP 文件等源获取数据，在 Spark 集群上处理数据，并最终将其加载到 S3（摩根大通银行的集中式数据存储库）中。随后集成到 Snowflake 和 Amazon Athena 进行高级分析。

file

Apache SeaTunnel的一个突出功能是它能够显式处理数据类型转换，确保不同系统之间的数据完整性——这是摩根大通银行多元化数据生态系统的重要组成部分。

未来路线图

展望未来，摩根大通银行的目标是减少延迟，并探索 SeaTunnel的Zeta引擎和Flink 集群等引擎在推荐和搜索等实时用例中的潜力。此外，摩根大通银行计划与Apache 一起扩展数据源库，将 Kafka 和 AWS SQS 合并到SeaTunnel框架中。

结论

在不断发展的数据环境中，Apache SeaTunnel已成为摩根大通银行数据战略的关键组件，证明了其作为可扩展、Java 友好的数据集成工具的价值。

本文由白鲸开源科技提供发布支持！

Apache SeaTunnel在世界级银行巨头JP Morgan 内部的应用实践

背景

挑战

寻求解决方案

SeaTunnel：游戏规则改变者

架构与实施

未来路线图

结论

SeaTunnel

引用和评论

重磅预告 | Apache SeaTunnel接入MCP，即将解锁模型上下文协议超能力！

53 倍性能提升！TiDB 全局索引如何优化分区表查询？

分布式数据库解析

做到真正0丢失、0重复：Apache SeaTunnel 实现万亿级数据一致性全解密

在 Kubernetes 上用 KubeBlocks + Dify 快速构建生产级 AIGC 应用

入选AAAI 2025！解决医学图像分割软边界与共现难题，中国地质大学等提出图像分割模型ConDSeg

数据库的下一场革命：S3 延迟已降至原先的 10%，云数据库架构该进化了