国内顶级汽车制造厂的创新实践：如何利用实时数据湖为更多业务提供新鲜数据？

使用 TapData，化繁为简，摆脱手动搭建、维护数据管道的诸多烦扰，轻量代替 OGG、DSG 等同步工具，「CDC + 流处理 + 数据集成」组合拳，加速仓内数据流转，帮助企业将真正具有业务价值的数据作用到实处，将“实时数仓”方法论落进现实。

TapData 持续迭代产品能力，优化用户体验的同时，也在不断探索各行各业数据需求的底层逻辑，力求为行业用户提供更加简洁、更具针对性的解题思路。本期内容便是我们在汽车制造行业做出的实践以及展望。

对于汽车制造行业而言，TapData 的出现，在一定程度上打破了兼具高实时性和并发能力的数据中间件的市场空白。在这片荒原之中，它为我们输送了一款介于流和表之间的数据解决方案。而同时解决表形态和流数据处理效率的问题，也正是真正落实实时数据湖的必要前提。在这样的背景下，TapData 自然而然地成为了汽车制造业实时数据湖方案的一块完美拼图。——某国内顶级汽车制造厂

如今的汽车市场，正呈现出造车新势力势头正劲，传统车企在传承中不断创新的局面。

业界有观点指出，“汽车行业的制造商已接近数字化应用的临界点，通过工业4.0可实现更快、更可持续的变革”。随着数据技术、物联网和人工智能的发展，从电动汽车的快速增长到软件定义汽车的普及，汽车行业正在向新一代移动出行大规模转型。

而作为驱动汽车行业向电动化、智能化和新商业模式转型的核心动力，数据的应用成为关键。在这个过程中，数据不仅仅用于车辆的设计和制造，还在优化供应链管理、提升客户体验、实现预测性维护等方面发挥着重要作用。

尤其在全球汽车市场竞争日益激烈的尽头，车企更需要在生产效率、质量管理和市场响应速度上不断优化。中国东北地区某知名汽车制造企业也不例外，近年来一直在积极寻求突破数字化瓶颈的手段，以求进一步释放自身的创新势能。

一、数据能力成为数字化的瓶颈，急需为核心业务开发释放产能

作为中国汽车行业巨头，该大型车企以出色的年产销量表现，长年位居行业第一阵营，且与众多跨国汽车公司建有长期的战略合作关系，业务覆盖近百个国家。

而随着业务的不断拓展，该企业面临的运营和决策需求也日益复杂。为了支持企业的全球化战略和快速增长，开发团队需要处理来自不同业务组的大量数据请求，并在短时间内将这些数据整合到企业的数据湖中。每周需同步 1~3 个业务库的指定表入湖，以确保数据的及时性和一致性。

面对这种复杂性，企业需要高效、灵活的研发响应机制，确保业务需求能够迅速得到满足。然而，由于资源分配和优先级冲突，研发团队难以快速响应业务部门的频繁数据请求，导致决策和运营效率受限。

换言之，数据能力已经成为数字化转型的瓶颈，严重制约了该车企自身 IT 的生产力和业务响应速度。主要体现在以下几个方面：

数据准备耗时长：在数据采集、同步、清洗、去重和建模等过程中，数据准备工作量占到了总工作量的 70%，这大大压缩了应用开发、统计分析、算法调参和页面开发等核心业务的时间，仅剩 30% 用于核心业务开发。
数据源复杂多样：公司内部存在大量异构数据源，包括关系型数据库（如 Oracle、MSSQL、MySQL、PG）、非关系型数据库（如 MongoDB）以及其他数据格式（如 Kafka、Excel、XML）。这些数据源之间的异构性增加了数据整合的复杂度，进一步拖慢了数据处理和分析的速度。
系统孤岛问题严重：数据分散在多个系统中，形成了数据孤岛，难以实现数据的统一管理和高效利用。传统的 ETL（Extract, Transform, Load）方式多为 T+1，不能支持实时业务需求，导致业务响应滞后。
开发效率低下：由于大量的 SQL 脚本和 ETL 流程需要重复开发，开发人员在应对不同业务组提交的数据请求时，难以快速响应，严重影响了开发效率和业务响应能力。
高并发数据处理需求：单表的记录数可以达到几千万，增量并发请求超过 20000+/秒，这对数据处理的时效性和高性能提出了极高的要求。

与此同时，数据的实时性要求也开始被更多强调，以 T3 为例的移动出行业务，对于实时定位的需求非常明确，其一是车辆的最新位置，其二是车的历史轨迹，且都要求支持近实时查询。通过车联网平台，车辆与乘客通过互联网连接，实现了实时的位置追踪和调度。这种实时定位和调度功能是车联网技术的一种应用，它利用了车辆上的传感器和通信技术，将车辆的位置信息传输到云端，然后通过 T3 的平台实现了车辆调度、路线规划等功能。

在这样的背景下，传统的数据管理和分析系统显然已经难以满足现代汽车行业的高效数据获取与处理需求，该车企提出了对新一代数据架构的诉求，需要覆盖实时数据查询、数据发现、统一数据服务、快速建模、高效管理数据资产、快速拓展新业务等职能。该车企考虑引入更加易用的工具和技术，建立高效的自动化 ETL 流程，让企业数据湖得以发挥其真正的价值。

二、数据集成方案的选择：寻找连接业务库和实时数据湖的“腱鞘”

该车企的数据特点：
① 业务需求旺盛：开发人员需要应对不同业务组提交的数据请求，并快速响应；一周同步 1~3 个业务库指定表入湖
② 覆盖系统多样：包括会员中心、营销中心、采购商城等营销系统，TDS 、MES、CRM、SCM、采购系统等核心系统，以及 BI 系统、大数据分析系统、数据治理中心等分析系统
③数据类型不一：数据库种类及版本多，异构数据库数据同步压力大。其中，关系型包括 Oracle 10g ~ 19c、MSSQL 2012 ~ 2016、MySQL 5.6 ~ 8.0、PG 10 ~ 12；非关系型包括 MongoDB 3.6 ~ 4.0，同时还包含 Kafka、Excel、XML 等类型
④ 数据量比较大：单库几百张表，单表几千万记录，增量并发 20,000+/秒，对方案实时性等方面的性能要求也相对较高

充分考虑到影响自身 IT 生产力发展的主要原因，该车企考虑采纳新一代实时数据湖方案，用于实时接收、存储和处理来自多个数据源的数据存储系统。与传统数据湖不同，实时数据湖能够以接近实时的速度处理数据，从而为企业提供最新的、即时可用的数据支持。

新一代实时数据湖由三层结构组成：

贴源层：直接从源系统获取数据。
主数据层：进行数据的清洗、整合和建模。
应用模型层：根据具体业务需求创建的数据模型。

基于该结构，实时数据湖的工作逻辑包含以下三个关键步骤：

实时采集：通过数据集成工具，实时收集来自各种数据源（如关系数据库、NoSQL 数据库、文件系统等）的数据，解决数据孤岛问题。
快速开发：利用高效的数据建模和计算框架，进行数据的清洗、转换、整合和建模，支持复杂的分析和处理需求。
API发布和数据推送：利用数据接口，发布清洗和处理后的数据，并通过数据推送（例如基于消息队列或实时流的推送机制）将数据快速交付到各下游业务系统（如 BI 系统、营销系统、核心系统等），确保数据的及时交付和使用，支持实时决策和运营。

沿着这样的优化思路，该车企开始尝试为新一代实时数据湖架构挑选合适的组件。其中，数据集成方案的选型将直接关系到湖内的数据质量和数据的实时性问题。

为此，企业在选型过程中综合对比了一系列开源及商业化方案，其中包括：

Golden Gate + Veridata 组合

优点:

稳定性和可靠性：Oracle GoldenGate 是一个成熟的解决方案，广泛应用于高可用性、灾难恢复和实时数据集成。
强大的数据验证能力：Veridata 可以进行数据的一致性校验，确保源和目标系统的数据一致性。
丰富的功能：支持多种数据源和目标，具有复杂的转换和过滤功能。

缺点:

成本高：商业软件，许可费用昂贵。
复杂性：配置和管理复杂，需要专门的技能和培训。
灵活性较低：相对较刚性，适应新环境和需求变化较慢。

Kafka

优点:

高吞吐量和低延迟：Kafka 能够处理大量的数据流，适合实时数据处理。
可扩展性：能够轻松扩展，处理大规模的数据流。
开源社区支持：有广泛的社区支持和丰富的生态系统。

缺点:

管理复杂性：需要管理分区、偏移量等，运维工作量大。
适合流处理：更多偏向于数据流的传输和处理，数据一致性保障相对较弱。
需要额外的处理工具：需要结合其他工具（如 Kafka Connect、Kafka Streams）来实现完整的数据处理流程。

Canal

优点:

开源和免费：Canal 是阿里巴巴开源的项目，免费使用，有助于降低成本。
专注于 MySQL：特别擅长于 MySQL 数据库的日志增量订阅和消费，支持多种 MySQL 版本。
易于集成：能够与 Kafka、HBase、Elasticsearch 等系统集成，扩展性强。
实时性：能够实时捕获 MySQL 的数据变更，并将其推送到目标系统，低延迟。

缺点:

数据库支持有限：主要支持 MySQL，对于其他数据库（如 SQL Server、Oracle）的支持较弱，需要额外的插件或工具。
管理复杂性：需要较高的运维和管理技能，特别是在大规模部署中。
数据一致性：在某些情况下，可能需要额外的机制来保证数据的一致性。
社区支持有限：相比于更成熟的开源项目，社区支持和文档相对有限。

Flink CDC

优点:

实时性：能够实时捕获和处理变化的数据，低延迟。
开源和可扩展：基于Apache Flink的开源架构，具有良好的可扩展性和社区支持。
适合复杂数据处理：支持流处理和批处理，能够处理复杂的数据转换和计算。

缺点:

管理复杂性：需要较高的运维和管理技能，尤其在大规模部署中。
系统集成：需要与其他系统进行集成，可能增加复杂性。
依赖网络环境：在网络环境不稳定的情况下，可能影响数据传输的稳定性。

整体看来，各个方案各有优劣，在选择具体方案时，企业都会根据自身的需求、资源和技术栈，权衡各方案的优劣，选择最合适的工具来构建实时数据湖架构。事实上，考虑到汽车制造的行业特性，该车企在选型过程中，一直在试图寻找能够在业务库与数据湖之间充当某种“软连接”的数据集成工具。

这种连接将不同于 Golden Gate + Veridata 组合这样的传统硬连接，以及更偏向粗放的连接方式（如 Kafka）。软连接应当介于此二者之间，有一定的弹性与强度，高效但不失严肃，能够快速适应不同的环境和需求，同时又能保证数据传输的稳定性和可靠性。

举个例子，在汽车制造业，MOM（Manufacturing Operation Management）生产工艺管理系统是其核心业务系统，有着刚性的技术选型要求——SQL Server。这也就意味着存在一些不可逾越的规则。想要对一个刚性极强的系统进行实时的抽取和适配，行业难度自然也就更大。既然规则是“死的”，企业就必须进一步提高方案的可适配性，更加弹性地去主动适配系统。这也正是所谓“软连接”的重要性与必要性所在。

首先，由于源端是 SQL Server，不适用于传统的 MySQL 或 Oracle 对应的策略，实时抽取并同步数据变得更加复杂，抽取时就已经带着很复杂的逻辑了，其间包含大量的转换和数据结构检查，同时还要兼顾数据的时效性。因此，我们对此处承担这部分职能的组件要求，不再是一个简单的传输工具，还要求其引擎的计算能力足够强大，能灵活够处理负责的逻辑。

此外，这个工具还需要具有耐用性，不致频繁出现故障。考虑到生产线的严肃性，停线事故将导致严重的损失，因此开源工具不再具有优势，更需要一种可定制性、强度、效率都接近于硬件的组件来做中间的连接。

不仅如此，从人力成本的角度来考虑，通过计算发现，如果使用类似 Canal 这样的开源或是偏开源的解决方案，综合考虑开发和运维需求，需要投入一个人均年薪 40 万的 5~10 人团队。

TapData 恰好在此时出现了。作为一款以流驱表模式为底层逻辑设计的工具，它刚好可以用于在大数据分布式引擎和数据库之间，形成一个软连接状态，区别于业界流行的 Flink CDC 等方案，TapData 的优势在于：

灵活性和弹性：设计上具有很高的弹性，适应性强，能够快速适应不同的环境和需求。
高效处理复杂逻辑：具备强大的计算能力，能够处理复杂的逻辑和数据转换。
稳定性和可靠性：专为高可靠性和稳定性设计，适合严肃的生产环境。
体量小：轻量级设计，集成和维护成本低。

对比之下，TapData 凭借其高可靠性、稳定性和灵活性，成为了该车企实时数据湖方案数据集成工具的最终选择。它不仅能够高效处理复杂的逻辑和数据转换需求，还能快速适应不同的环境和需求，确保数据传输的稳定性和可靠性，从而为企业提供最新、即时可用的数据支持。

基于 TapData 构建的高效实时数据湖解决方案，能够实现数据的实时采集、快速开发和 API 发布数据推送，从而融合数据孤岛，提高数据建模和计算能力，最终实现极速数据交付和统一数据服务。

三、TapData + 实时数据湖：现代企业的实时数据引擎

经过几年来的稳定运行，基于 TapData 设计的实时数据化方案在汽车制造行业中的实际应用价值得到了充分的验证。

如上图所示，该实时数据湖架构包含以下几个核心层：

采集层

采集层是数据架构的基础，负责从不同的数据源中获取原始数据。这些数据源包括：

TDS：可能是企业内部的交易数据系统。
营销中心：收集市场营销相关数据，如广告投放、客户反馈等。
财务基台：财务系统，记录企业的财务数据和交易记录。
风控系统：风险控制系统，监控和管理各种业务风险。
ERP V6：企业资源计划系统，管理企业内部资源，如生产、物流、人力资源等。
采购商城：供应链和采购系统，管理企业的采购流程和供应商数据。
……

虚拟数据层
虚拟数据层通过实时数据同步，将采集层的数据整合并构建虚拟模型。这一层分为几个部分：

贴源层：直接从源系统获取数据，确保数据的原始性和准确性。包括客户信息、订单数据、历年财报、风控维度、门店信息等。
虚拟数据模型：创建多个虚拟模型，以便更好地管理和利用数据。这些模型包括：
- 车辆主档案数据模型：整合车辆相关数据，包括车辆识别码（VIN）、车型、规格、制造信息、生产日期等。
- 订单管理数据模型：管理订单数据，包括订单详情、状态、历史记录、交付信息等。
- 风险管理数据模型：监控和评估风险，确保业务的安全性和合规性，包含风险评估、风险预警等信息。
- 财务数据模型：整合财务数据，生成财务报表，支持财务分析和决策，包括收入、支出、利润等数据。
- 员工数据模型：管理员工信息，包括人员配置、绩效考核、培训记录等。
- 经销商数据模型：整合经销商相关数据，如位置、规模、运营状况、销售业绩等。

服务层
服务层通过 API 接口，将虚拟数据层的模型数据暴露给上层系统。这些 API 接口包括：

汽车模型API
订单模型API
组织架构API
风控模型API
财务报表API
认证服务API

这些 API 接口使得上层业务系统能够方便地获取和利用数据，支持业务运营和决策。

业务层

业务层是数据的最终消费者，使用数据来支持各种业务系统和应用。这一层包括：

智能网联云平台 TSP1.0：支持智能网联汽车的各种服务，如远程控制、数据分析等。
数字投放平台：管理数字广告投放，优化广告效果。
预批量管理系统：管理生产和供应链中的预批量生产过程。
采购满意度：评估和提升采购过程中的客户满意度。
智能网联运营服务升级：优化智能网联汽车的运营服务。
分析系统：如红旗工厂供应链BI系统、红旗DMS-BI系统、财务报表、繁荣生产调度中心大屏，用于深入分析和展示数据。

数据管理功能
右侧的功能支持数据的整体管理和治理，确保数据的一致性、质量和可靠性。这些功能包括：

数据目录：管理和组织数据资产，提供数据的目录服务。
数据治理：确保数据的质量和一致性，包括数据标准化、数据清洗、数据安全等。
数据开发：支持数据的开发和处理，提供开发工具和平台。
数据同步：实现数据在不同系统之间的同步和共享，确保数据的实时性和一致性。

该架构通过将不同的数据源整合到虚拟数据层，利用服务层提供 API 接口，支持上层业务系统的各种需求，实现了数据的实时同步和高效利用。从而支持企业复杂的业务需求，确保数据的一致性、准确性和实时性。

成果收益

通过实施实时数据湖解决方案，企业在多个方面获得了显著的收益：

支撑业务部门取数：
- 支持超过60个业务部门的使用需求。
- 在6个月内，开发了29条业务数据链路，满足了多样化的业务需求。
大幅提升开发效率：
- 实现了从数星期到1天的数据链路开发时间的缩短。
- 为数据开发团队提供了快速开发数据链路的能力，大幅提高了开发效率。
构建实时数据同步链路：
- 解决了传统 ETL 的通病，即离线数据不实时的问题。
- 通过实时数据同步，维护成本低，学习周期短，极大地提升了数据的时效性和准确性
企业数据目录的建设：
- 研发团队可以在平台上快速查找到所需的数据，减少了70% DBA的日常查询工作量。
- 提升了90%开发效率，无需跨部门沟通数据，极大地简化了数据查询和使用流程。

通过这些改进，企业在数据管理和业务支持方面取得了显著的进步，实现了更高效的数据处理和业务响应，为企业的持续创新和市场竞争力提升提供了坚实的数据基础。

体验反馈

全面的数据源与目标支持
TapData 内置 100+ 数据连接器，支持各类常见数据源与目标之间的的全增量同步，且部署、配置简单，运行稳定。数据同步方案灵活，适用于多种需求场景。
学习曲线简单，轻量易上手
作为一种轻量级的数据同步解决方案，设计简洁，用户友好，拖拉拽的可视化模式非常简单清晰，适合快速部署和使用。其直观的界面和易于理解的操作流程，方便快速掌握和操作，减少了学习时间和培训成本。
出色的实时性表现
TapData 在数据同步和计算方面表现出色，能够实现毫秒级的实时同步和计算，确保数据的及时性和准确性。
实时增量同步：基于数据库事务日志解析（如 Oracle 的 Log Miner，MySQL 的Binlog，SQL Server 的 CDC 等），TapData 能够在增量数据到达时，迅速对数据进行计算、清洗和多表关联，并将处理后的数据毫秒级同步到目标表。这种高效的处理能力确保了数据在整个传输过程中保持实时更新，满足企业对数据及时性的要求。
主从合并：TapData 支持将来自多个数据库表的数据整合到一个单一的宽表中，确保主数据和从数据的一致性和完整性，保证数据的准确性和及时性。便于统一管理和查询，从而有效支持决策与运营。
强大的计算能力
TapData 拥有强大的计算引擎，能够高效处理复杂的数据转换和计算任务。无论是简单的数据清洗，还是复杂的数据聚合和分析，TapData 都能以高效、稳定的方式完成。这使得企业能够快速响应业务需求，提供实时的决策支持。
高可靠性和稳定性
TapData 在系统设计上具备完善的错误处理和故障恢复机制，确保数据同步过程中的一致性和完整性。即使在高负载和大规模数据处理的情况下，TapData 依然能够稳定运行，不易出现数据丢失或系统崩溃的问题。
实时监控和管理
TapData 提供实时监控和管理功能，允许用户对数据同步过程进行实时跟踪和控制。通过直观的仪表盘和详细的日志信息，用户可以轻松地监控数据流动情况，及时发现和解决潜在问题，确保数据同步的顺畅进行。
良好的扩展性
TapData 具备良好的扩展性，能够轻松应对业务增长和数据量增加的挑战。无论是增加新的数据源和目标，还是扩展现有的同步任务，TapData 都能快速适应，并保持高效的同步性能。这为企业未来的发展提供了坚实的数据基础。
更高的成本效益
与经典的大型云平台相比，TapData Cloud 在构建数仓时具有显著的成本优势，无需昂贵的硬件和专业运维团队，有效降低了基础设施和维护费用。在类似的数仓实践中，能节省不低于 50～75% 的成本，在控制预算的同时实现高效的数据管理。

总结

通过实施 TapData 的实时数据湖解决方案，汽车制造企业成功克服了传统数据处理方式中的瓶颈问题，显著提升了数据处理的效率和业务响应能力。

实时数据湖的建设不仅大幅减少了数据准备的时间，使更多资源得以集中于核心业务开发，还实现了对异构数据源的高效整合，消除了数据孤岛的困扰。通过快速的数据采集和同步，企业能够实时获取和利用数据，支持高并发的业务需求，显著提升了整体 IT 生产力。

最终，TapData 的实时数据湖解决方案为汽车制造企业的持续创新和向新一代移动出行的转型提供了强大的技术支持和数据基础，助力企业在激烈的市场竞争中保持领先地位，推动了企业数字化转型的进程。

未来，TapData 还将持续挖掘实时数据在汽车行业的实用性价值，为行业提供更多运营灵感。

采用 Tapdata 实时数据平台解决方案有哪些优势？
广泛的数据源和目标支持：内置 100+ 数据连接器，稳定的实时采集和传输能力
学习成本低，轻量易上手：开箱即用与低代码可视化操作，支持数据模型预览，无需专业的编程能力，即可完成复杂的数据集成和开发。
更实时，更高效：兼具秒级响应的数据实时计算能力，以及稳定易用的数据实时服务能力
支持数据、任务分类：可根据不同项目自定义标签，方便快速筛选查找，有助于对跨部门协同管理及后续维护
支持平台级数据校验：有效保障数据一致性
可视化任务运行监控和告警：20+ 可观测性指标，实时监测任务最新状态

【相关阅读】

国内顶级汽车制造厂的创新实践：如何利用实时数据湖为更多业务提供新鲜数据？

一、数据能力成为数字化的瓶颈，急需为核心业务开发释放产能

二、数据集成方案的选择：寻找连接业务库和实时数据湖的“腱鞘”

三、TapData + 实时数据湖：现代企业的实时数据引擎

Tapdata钛铂

引用和评论

风霜雨雪总关情：气象局如何推进实时数据在环境和气候科学的应用实践，让气象数据供得出、流得动、用得上

如何利用 StarRocks 加速 Iceberg 数据湖的查询效率

如何设计真正的实时数据湖？

StarRocks Lakehouse 快速入门——Apache Iceberg

Apache Doris 3.0 里程碑版本｜存算分离架构升级、湖仓一体再进化

兼容Trino Connector，扩展Apache Doris数据源接入能力｜Lakehouse 使用手册（四）

StarRocks 社区三周年：初心不忘，进化不止