Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流处理架构

Yelp 最近通过使用 Apache Beam 和 Apache Flink 重构了其数据流架构，取代了原有的分散数据管道，创建了一个统一且灵活的解决方案，用于将事务数据流式传输到分析系统，如 Amazon Redshift 和内部数据湖。

Yelp 管理其平台上的主要数据实体之一——业务实体的属性，这些属性存储在两个不同的在线系统中：旧版系统使用 MySQL 数据库，而采用微服务架构的新系统使用 Cassandra 存储。

原有解决方案通过独立的数据管道将数据从在线数据库流式传输到离线（分析）数据库：

原有架构存在以下问题：

为了解决上述问题，Yelp 团队决定抽象化在线系统的内部实现细节，为使用分析数据存储的客户端提供一致的体验。高级数据工程师 Hakampreet Singh Pandher 解释了团队的解决方案：

实现统一的流，以一致且用户友好的格式提供所有相关的业务属性数据。
使用 Apache Beam 和 Apache Flink 作为分布式处理后端，从 MySQL 和 Cassandra 表中提取数据，将其转换为一致格式，并发布到单一的统一流中。
使用 Joinery Flink 作业将业务属性数据与相应的元数据合并。
通过 Redshift Connector 和 Data Lake Connector，将业务属性数据同步到两个主要的离线数据存储中。

重构后的流式架构带来了以下好处：

通过这次重构，Yelp 不仅简化了数据流处理的复杂性，还提升了数据分析的效率和准确性。