Tapdata Connector 实用指南:实时数仓场景之数据实时同步至 ClickHouse

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata 是一个以低延迟数据移动为核心优势构建的现代数据平台,内置 60+ 数据连接器,拥有稳定的实时采集和传输能力、秒级响应的数据实时计算能力、稳定易用的数据实时服务能力,以及低代码可视化操作等。典型用例包括数据库到数据库的复制、将数据引入数据仓库或数据湖,以及通用 ETL 处理等。

随着 Tapdata Connector 的不断增长,我们最新推出《Tapdata Connector 实用指南》系列内容,以文字解析辅以视频演示,还原技术实现细节,模拟实际技术及应用场景需求,提供可以“收藏跟练”的实用专栏。本期实用指南以 MySQL → ClickHouse 为例,演示数据入仓场景下,如何将数据实时同步到 ClickHouse。

数智时代当前,数据正以极大量级、极细颗粒度、极高时效性、极智能方式影响着企业运作。业务发展更加依赖数据驱动,如何从类型丰富的海量数据中实时获取有价值的洞察力正在成为新的挑战。正因如此,兼具计算速度、高并发低延迟等性能优势的 ClickHouse 走入大家的视野,基于 ClickHouse 的实时数仓,也成为诸多企业在寻找强时效性、高数据准确性、低开发运维成本的数据分析与运营决策解决方案的优选之一。

同样密切关注实时数据价值与能量的 Tapdata,作为自带 ETL 的实时数据平台,也透过社区看到了大量相关的数据迁移需求,在最新一批数仓目标新增中,ClickHouse 赫然在列。

一、ClickHouse 的实时数仓优势

ClickHouse(全称 Click Stream, Data WareHouse),是一个开源的、面向列的 OLAP(联机分析)数据库管理系统),允许使用 SQL 查询实时生成分析报告。其前身为 Yandex.Metrica,主要用于 WEB 流量分析。除此之外, ClickHouse 官方推出的 ClickHouse Cloud,作为安全可扩展的云服务,支持轻松获取高效的实时分析处理能力,可以简化和加速现代数字企业的洞察力和分析能力。由于不需要管理基础设施,ClickHouse 云架构将存储和计算解耦,并自动扩展以适应现代工作负载,无需调整集群的大小即可满足极高的查询速度需求。

作为数据仓库使用时,ClickHouse 具有以下优势:

  • 高性能的数据处理能力。ClickHouse 设计的天然优势,支持高性能处理大量数据,每秒的数据处理量可达上亿行。
  • 实时分析。支持对大型数据集的实时分析,可满足实时数据处理和分析等场景需求。
  • 列式存储。允许对大型数据集进行快速查询和汇总。
  • 高可扩展性。Clickhouse 在构建时就考虑了水平可扩展性和高可用性,可以通过在集群中添加服务器轻松实现横向扩展,在处理大量数据的同时保障性能不受影响。
  • 数据压缩特性。内置压缩算法,可以大大减少数据所需的存储空间,便于存储和处理大量数据。
  • 生态便利。支持 SQL 查询,方便熟悉 SQL 的数据分析师和开发人员上手试用,更易于集成数据生态系统中的其他工具和应用。
  • 具有成本效益。作为一个开源项目,支持免费下载和使用。此外,活跃的开源社区也对使用者更加友好。

总的来说,ClickHouse 为存储和处理大量数据提供了一种快速、高效和具有成本效益的解决方案。为了实现上述优势,我们需要首先实现数据向 ClickHouse 的同步。

二、MySQL → ClickHouse 的数据入仓任务

点击查看演示视频
(*本演示视频版本为 Tapdata Cloud V3)

版本指路:
点击登录 Tapdata Cloud
申请试用 Tapdata 本地部署版

操作流程详解

① 登录 Tapdata Cloud

  • 默认已完成 Tapdata Cloud 账号注册及 Agent 部署

② 创建数据源 MySQL 的连接

在 Tapdata Cloud 连接管理菜单栏,点击【创建连接】按钮, 在弹出的窗口中选择 MySQL 数据库,并点击确定。
参考右侧【连接配置帮助】,完成连接创建:

③ 创建数据目标 ClickHouse 的连接

  1. 点击左侧菜单栏的【连接管理】,然后点击右侧区域【连接列表】右上角的【创建连接】按钮,打开连接类型选择页面,然后选择 ClickHouse。
  2. 在打开的连接信息配置页面依次输入需要的配置信息。

  • 连接名称:设置连接的名称,多个连接的名称不能重复
  • 数据库地址:数据库 IP / Host
  • 端口:数据库端口
  • 数据库名称
  • 账号:可以访问数据库的账号
  • 密码:数据库账号对应的密码
  • 时间类型的时区:默认使用该数据库的时区;若指定时区,则使用指定后的时区设置
  1. 单击连接测试,提示测试通过后单击保存。(*如提示连接测试失败,可根据页面提示进行修复)

④ 新建并运行 MySQL 到 ClickHouse 的同步任务

三、Why Tapdata

借助 Tapdata 出色的实时数据能力和广泛的数据源支持,可以在几分钟内完成从源库到 ClickHouse 包括全量、增量等在内的多重数据同步任务。

在 Any Source → ClickHouse 的数据同步任务中,Tapdata 展现出如下优势:

  • 内置 60+ 数据连接器,稳定的实时采集和传输能力
    以实时的方式从各个数据来源,包括数据库、API、队列、物联网等数据提供者采集或同步最新的数据变化。支持多源异构数据双向同步,自动映射关系型到非关系型。一键实现实时捕获,毫秒内更新。已内置 60+连接器且不断拓展中,覆盖大部分主流的数据库和类型,并支持您自定义数据源。
  • 具有强可扩展性的 PDK 架构
  • 小时快速对接 SaaS API 系统;16 小时快速对接数据库系统。
  • 对源库几乎无影响
    基于自研的 CDC 日志解析技术,0入侵实时采集数据,对源库几乎无影响。
  • 全链路实时
    基于 Pipeline 流式数据处理,以应对基于单条数据记录的即时处理需求,如数据库 CDC、消息、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范围被响应,计算,处理并写入到目标表中。同时提供了基于时间窗的统计分析能力,适用于实时分析场景。
  • 数据一致性保障
    通过多种自研技术,保障目标端数据与源数据的高一致性,并支持通过多种方式完成一致性校验,保障生产要求。
  • 可视化任务运行监控和告警
    包含 20+ 可观测性指标,包括全量同步进度、增量同步延迟等,能够实时监控在运行任务的最新运行状态、日志信息等,支持任务告警。

【相关阅读】

原文链接:https://tapdata.net/tapdata-c...

钛铂数据(Tapdata)是企业数据即服务DaaS解决方案领导者,致力于打造一站式实时数据融合平台,帮助企业...

6 声望
1 粉丝
0 条评论
推荐阅读
Tapdata 的 ∞ 实践:实时数据赋能电商资源分配,快速落地敏捷、可复用的库存数据服务
如今,客户接触渠道正在变得愈加多样化和复杂化,客户信息的获取也变得更加容易和全面。同时,竞争环境也日趋激烈,企业需要不断提高服务质量、满足客户需求,才有望在市场中抢占先机。

Tapdata钛铂阅读 179

花了几个月时间把 MySQL 重新巩固了一遍,梳理了一篇几万字 “超硬核” 的保姆式学习教程!(持续更新中~)
MySQL 是最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 RDBMS(Relational Database Management System:关系数据库管理系统)应用软件之一。

民工哥14阅读 2k

封面图
硬卷完了!MongoDB 打怪升级进阶成神之路( 2023 最新版 )!
前面我们学习:MySQL 打怪升级进阶成神之路、Redis 打怪升级进阶成神之路,然后我们还在继续 NoSQL 的卷王之路。从第一篇文章开始,我们逐步详细介绍了 MogoDB 基础概念、安装和最基本的CURD操作、索引和聚合、工...

民工哥7阅读 651

封面图
初学后端,如何做好表结构设计?
这篇文章介绍了设计数据库表结构应该考虑的4个方面,还有优雅设计的6个原则,举了一个例子分享了我的设计思路,为了提高性能我们也要从多方面考虑缓存问题。

王中阳Go4阅读 1.8k评论 2

封面图
又一款内存数据库横空出世,比 Redis 更强,性能直接飙升一倍!杀疯了
KeyDB是Redis的高性能分支,专注于多线程,内存效率和高吞吐量。除了多线程之外,KeyDB还具有仅在Redis Enterprise中可用的功能,例如Active Replication,FLASH存储支持以及一些根本不可用的功能,例如直接备份...

民工哥4阅读 1.7k评论 2

封面图
MySQL百万数据深度分页优化思路分析
一般在项目开发中会有很多的统计数据需要进行上报分析,一般在分析过后会在后台展示出来给运营和产品进行分页查看,最常见的一种就是根据日期进行筛选。这种统计数据随着时间的推移数据量会慢慢的变大,达到百万...

一个程序员的成长7阅读 938

封面图
深入理解MySQL索引底层数据结构
在日常工作中,我们会遇见一些慢SQL,在分析这些慢SQL时,我们通常会看下SQL的执行计划,验证SQL执行过程中有没有走索引。通常我们会调整一些查询条件,增加必要的索引,SQL执行效率就会提升几个数量级。我们有没...

京东云开发者3阅读 597

封面图

钛铂数据(Tapdata)是企业数据即服务DaaS解决方案领导者,致力于打造一站式实时数据融合平台,帮助企业...

6 声望
1 粉丝
宣传栏