使用 TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量代替 OGG、DSG 等同步工具,「CDC + 流处理 + 数据集成」组合拳,加速仓内数据流转,帮助企业将真正具有业务价值的数据作用到实处,将“实时数仓”方法论落进现实。
TapData 持续迭代产品能力,优化用户体验的同时,也在不断探索各行各业数据需求的底层逻辑,力求为行业用户提供更加简洁、更具针对性的解题思路。本期内容便是我们在 AI 行业做出的实践以及展望。
我们早在 TapData Cloud 开放免费试用之初就接触到了这款数据 CDC 产品,同时也在调研一些开源方案,综合分析后,考虑到创业团队起步阶段的研发资源分配,最终决定在成熟的商业化方案中做选择。随着C端业务启动,数据需求也在不断加大,横向对比下来,TapData 整体更加轻量、灵活,有明确的 MySQL→Clickhouse 场景支持,页面逻辑清晰,操作简单,支持半私有化部署,稳定性不断优化的同时,在售后服务方面响应快速,性价比也更高。——心识宇宙
人工智能时代,AI 逐渐渗透到我们生产生活的方方面面,AI 应用的“生产者”和“消费者”都越来越多。
国内外科技巨头纷纷入局,正在以惊人的速度推动技术的发展以及智能化进程。与此同时,大量人工智能初创企业也在几年时间里加速涌现,越来越多技术创新和应用在全球范围内生根发芽,并在各行业中推动自动化、提升效率、优化用户体验。这些企业不仅在研发和产品创新上投入大量资源,还积极探索新兴市场,以保持竞争优势。
而作为人工智能发展的核心和基础,数据不仅驱动算法训练和模型优化,还决定了 AI 系统的准确性和性能。高质量、丰富的数据使得人工智能能够识别模式、做出预测,并在复杂任务中表现出色。数据量的增长和数据处理技术的进步,在某种程度上直接推动了人工智能的创新和应用扩展。
左手是 AI 技术发展基因上对于数据的依赖,右手是企业管理、运营团队在 AI 产品或服务优化升级、分析决策等问题上所需的数据参考依据。因此,随着企业的发展,产品线的拓展,AI 行业对于数据资源的需求只增不减。
大中小型企业百舸争流的背景下,作为国内较早一批投入 AI 市场的“领先者”之一,心识宇宙正在用数据辅助智慧运营。
一、To B + To C 双线并进,旺盛的数据需求与数仓 CDC 环节的缺位
创立于2022年1月,坐标新加坡,心识宇宙(Mindverse.ai)的定位是一家通用人工智能(AGI)公司。创始人兼 CEO 陶芳波博士深耕 AI 领域多年,先后在美国微软研究院、Facebook Research、NASA、阿里达摩院神经符号实验等从事研发工作。
在意识到大模型的应用价值后,陶博士选择独立创业,便有了今天的心识宇宙。其愿景是通过人工智能赋能虚拟人大脑,让虚拟人具有思维、意识和人格,成为元宇宙的原住民,陪伴、服务每一个用户。
早在 ChatGPT 上线之前,心识宇宙就一直专注于在大模型上构造虚拟心智,并在国内外尝试了多种业务形式。创业至今,其核心产品 mindos.com,主要能力是帮助用户及客户构建基于大模型的应用层,主打以下两个产品形态:
- ToC 线-meBot:面向注册用户提供 AI 助理,帮助解决生活中的一些问题,偏实用性工具,例如记笔记、规划旅行等。同时支持基于对个人基础信息的了解,定制化私人的 AI 陪伴,将老电影《her》照进现实。
- ToB 线-mindos studio:多与大型企业合作,为其提供基于 AI 的工作链路(workflow)能力,与传统 workflow 想比,能够更智能化地解决问题。字节的“Coze 扣子”就是类似的定位。
在不断优化产品,与用户共同探索更多 AI 应用场景的过程中,心识宇宙各部门都提出了更多数据聚合分析的需求,且各有侧重:
- 管理部门:关注产品增长大盘以及财务报表等关乎战略规划及决策分析的总览型数据。通过这些数据,管理层能够了解企业整体运营状况、市场表现和财务健康,制定长远发展策略。
- 技术部门:关注监控运维数据,如系统水位、指标等监控信息。这些数据帮助技术团队实时监控系统运行状态,及时发现和解决潜在问题,确保系统稳定高效运行。
- 产品部门:关注 A/B test 数据,这些数据帮助产品团队评估不同产品版本或功能模块的效果,进行数据驱动的产品优化和用户体验提升。
- 运营部门:关注用户行为数据,如用户注册量、每日新增用户、用户留存率等。这些数据使运营团队能够分析用户需求和行为模式,优化用户体验和营销策略,提高用户参与度和满意度。
针对这些需求,心识宇宙依靠数仓来进行数据整合和分析。然而,在变更数据捕获(CDC)环节的实现上遇到了一些挑战。作为关乎数仓项目可用性及数仓数据质量的关键技术,CDC 用于实时捕获并处理数据源中的变更。这对于确保数据的及时性和一致性至关重要,但其实现过程复杂,尤其在处理高频率、大规模的数据变更时,技术难度和资源需求较高。
因此,心识宇宙开始寻找能够承担这一关键环节的 CDC 工具。
二、开源工具 vs 商业化工具:小团队更需要“解放双手”,专注更核心的业务
心识宇宙的数据特点:
① 数据需求旺盛:全体部门都重视数据的价值和数据分析的力量,涉及多个数据来源
② 覆盖系统多样:包括用户行为分析、用户量统计、成本管控等 BI 系统,A/B 实验系统,财务系统,以及监控告警系统等
③ 数据类型不一:数仓项目完全自建,底座为 Clickhouse,数据源为在线数据库 MySQL,异构数据库数据同步压力大
开源方案的优势和不足
为了满足 CDC 链路的需求,心识宇宙最先把目光投向了以 Debezium+Kafka 为代表的众多开源工具。在实际应用场景中,其优势和不足都比较明显,尤其是对于初创团队而言:
优点
实时性:
- 实时数据捕获:Debezium 能够实时捕获数据库中的变化,并通过Kafka将这些变化快速传输到消费端,使得数据在传输过程中保持新鲜。
高可靠性和容错性:
- Kafka 的高可用性:Kafka 提供了高可靠性、分布式架构和强大的数据持久化能力,确保数据在传输过程中的安全性和一致性。
- 容错机制:Debezium 结合 Kafka 的容错机制,可以在节点故障时自动恢复,确保系统的稳定运行。
扩展性:
- 横向扩展:Kafka 能够轻松横向扩展以处理大量数据和高并发需求,适应业务的增长。
- 多数据源支持:Debezium 支持多种数据库(如 MySQL、PostgreSQL、MongoDB 等),可以灵活适应不同的数据源需求。
开源社区和生态系统:
- 活跃的开源社区:Debezium和Kafka都有活跃的开源社区,提供丰富的资源和支持,便于开发者解决问题和获取帮助。
- 生态系统支持:Kafka 有广泛的生态系统支持,可以与各种数据处理和分析工具无缝集成,扩展数据处理能力。
不足
复杂性:
- 配置和管理复杂:Debezium和Kafka的部署、配置和管理相对复杂,需要专门的知识和经验来保证系统的高效运行。
- 运维成本高:系统的复杂性增加了运维的成本和难度,需要专业人员进行维护和优化。
延迟问题:
- 潜在的延迟:虽然Debezium和Kafka能够实现低延迟的数据捕获和传输,但在高负载情况下,仍可能出现一定的延迟,影响数据的实时性。
资源消耗:
- 高资源需求:运行Debezium和Kafka需要较高的计算和存储资源,特别是在处理大规模数据时,对硬件资源的需求较高。
数据一致性和完整性:
- 数据一致性挑战:在某些极端情况下,可能会出现数据一致性问题,需要额外的机制来保证数据的一致性和完整性。
- 初始快照问题:对于非常大的数据库,初始数据快照的生成和传输可能会耗费大量时间和资源。
首先,作为业界常用的 CDC 开源方案,其在实时性、可靠性以及可扩展性上的表现都有保障。但考虑到小型创业团队的属性,二次开发及后续运维所需的人力成本都必须综合纳入评估。对于宝贵的技术资源而言,虽然数据的重要性不可否认,但终归只是众多基础模块之一,与其耗时耗力将开源方案打磨到可以满足自身业务需求的程度,不如将专业的事情交给靠谱的供应商来完成,释放开发资源供核心产品迭代优化。
成熟的商业化方案如何选择?
① 全链路、一站式的数据分析工具:以神策、友盟等为代表
放弃开源思路后,心识宇宙开始寻找合适的商业化方案。鉴于数据分析的终极需求,类似于神策、友盟这样的的全链路数据分析工具率先被纳入评估。
一方面,此类产品功能完备,集数据整合、BI、埋点等模块于一体,几乎可以满足数据分析相关的全部数据需求。但从另一方面来看,作为一套放之四海而皆准的通用标准产品,“全面”也不全然是优势:
- 大材小用:对于心识宇宙而言,数据分析主要依赖自建方案,只需要填补 CDC 这一技术环节,选择全链路工具多会导致功能冗余,往往更适用于大型、复杂的企业应用
- 灵活性不足:功能有余而灵活性不足,难以满足特定需求。不同于自建方案,企业用户无法对系统进行细粒度的控制和定制。
- 成本高昂:许可费用一般较高,且资源消耗往往也更高,直接导致总体拥有成本增加。
除此之外,由于诞生于 PC 互联网时代,这一类工具使用的方法论更多是满足上一个时代需求的产物。而随着 ChatGPT 引流新的技术风向,众多 AI 领域的新公司出现,无论是侧重模型层的企业还是类似于心识宇宙这样的 AI 应用层企业,都更倾向于采用自建方案而非外部工具的大包大揽,过程中可能会用到一些现代化的小工具,来更灵活、更稳定地解决更小的问题。
② 现代化数据栈工具:以 TapData Cloud 为代表
以小工具解决 CDC 特定需求的小问题为目标,心识宇宙充分考虑自身规模和业务发展情况, 找到了 TapData Cloud 这样一款以 CDC 能力为核心特性的兼具云原生优势的轻量数据同步工具。
技术场景:
- 数据源:在线数据库 MySQL
- 数据目标:基于 ClickHouse 数仓
- 灵活性优先:考虑到 AI 业务形态变数较大,该数仓项目以自建为主,未使用云厂商提供的封装较为完整的服务,以避免与某个特定云绑定过深。
- 需求:异构数据同步,利用工具搭建数据源与目标间的增量同步链路。
作为一组用于数据集成、存储、处理和分析的技术和平台,以 Fivetran、Airbyte、TapData 等为数据集成层面代表的现代数据栈工具旨在实现高效、灵活、可扩展的数据管理和分析。其各司其职的组合拳逻辑,恰好与心识宇宙的需求吻合,其优势主要体现在:
高效的数据捕获与传输:
- 实时处理:现代数据栈工具支持实时数据捕获和传输,确保数据变更能够立即反映在分析系统中。
- 高吞吐量:可以处理大规模、高频率的数据变更,满足企业级应用的需求。
弹性与可扩展性:
- 云原生架构:借助云数据仓库和云服务的弹性扩展能力,企业可以根据需求动态调整资源,适应数据量和处理需求的变化。
- 分布式处理:支持分布式计算,能够高效地处理大量数据和并发请求。
简化的运维与管理:
- 自动化运维:现代数据栈工具通常提供自动化管理和监控功能,降低运维复杂性和人力成本。
- 统一界面:集成平台通常提供统一的管理界面,简化数据管道的配置和监控。
数据质量与一致性:
- 数据治理:现代数据栈工具内置数据质量监控和治理功能,确保数据的一致性和准确性。
- 容错机制:具有强大的容错和恢复机制,能够应对数据传输过程中的故障和异常情况。
灵活的集成与扩展:
- 多源数据支持:能够轻松集成来自不同数据源的数据,包括传统数据库、流数据和第三方 API。
综合上述因素,心识宇宙最终选定配备中文支持团队的 TapData Cloud 作为与其需求恰好匹配的数据基础工具。
三、TapData Cloud + ClickHouse:保障数仓数据质量的关键一环
经过一年多的使用,以 TapData Cloud 为数据 CDC 组件的数仓方案在心识宇宙的数据分析项目实践中得到了充分的可行性验证。
如上图所示,源系统数据包括:
- 系统监控数据:系统水位、指标等时序数据
- 用户行为数据:用户注册量,每日新增及留存用户数、用户页面行为(如操作链路、按钮点击等)等
- 财务系统数据:包括订阅的一些第三方服务等 IT 常态消耗量,一些定量服务的采买和使用情况等管理层关注的成本分析信息
- ……
上述数据以及一些在线数据库的镜像,都会经由 TapData CDC 同步、传输并存储到数仓的 ClickHouse 中。值得一提的是,针对其中的用户相关数据的脱敏需求,TapData 提供了相应字段的过滤屏功能,支持屏蔽或用自定义方式替换敏感数据,保障用户信息安全。
关于心识宇宙的脱敏说明:
内部数据如系统监控信息无需脱敏处理,可以直接进行全增量同步。然而,对于用户数据,必须遵循 GDPR 和 USDP 等用户隐私标准。因此,需要从全量数据中剔除属于用户隐私的部分。这一过程利用了 TapData 的字段过滤功能,帮助理解并排除敏感数据,以确保数据处理的合规性和隐私保护。
下一步,继续借助 TapData 的 CDC 能力,经过数仓统一集成的数据,将流向下游的用户行为分析、A/B 测试系统等 BI 系统,形成报表供内部分析与决策参考使用。
其中,A/B Test 作为传统高用户增长的 C 端产品的常用分析优化手段,在 AI 行业同样适用,特别是对于心识宇宙这样专注大模型上应用层的企业,这也是其打磨产品的关键思路。
基于大量的经脱敏的用户数据分析,从中获取有价值的用户行为洞察和反馈,帮助优化算法模型、提升产品性能、调整产品功能、改善用户体验,并推动创新和业务增长。这种数据驱动的决策方式,使得AI产品能够不断迭代和改进,更好地满足用户需求和市场变化。数据集成即数据分析的重要性由此可见一斑。
体验反馈
- 明确的 MySQL → ClickHouse 异构 CDC 方案支持
调研之初,心识宇宙发现,业界能提供从 MySQL 到 ClickHouse 同步能力的供应商本身就不多,更多是同类数据体系之间的同步,甚至包括很多开源方案也是如此。而 TapData 内置 100+ 数据连接器,明确支持二者间的全增量同步,且提供 Demo 演示。
- 学习曲线简单,轻量易上手
作为直接使用者,心识宇宙的技术运维人员反馈称 TapData Cloud 主打页面逻辑清晰简洁,包括一个支持log信息查询的监控模块,同样是极简但足够适用。无论是安装部署还是任务运行都以一键式操作为主,上手简单。完全满足内部在数据层面的需求。
- 灵活可扩展
随着需求变化,TapData 可以灵活扩展,适应企业的不同阶段和规模。刚开始接触并试用 TapData 时,心识宇宙的 ToC 业务尚未正式开启,更多在经营国内的大 B 生意,因此对数据的要求并不是很高,TapData 提供的永久免费计划已经可以覆盖住这一部分需求。直到 ToC 业务开始增长,数据需求量随之上升,TapData Cloud 上的任务数也从最初的两条,发展到目前的16条。
- 支持半私有化部署
考虑大奥 AI 行业在数据安全性上更高的要求,TapData Cloud 支持心识宇宙自主提供设备来部署和运维 Agent,为其运行提供计算/存储资源,可充分利用现有硬件资源,获得更低的价格的同时,进一步提升安全性。
- 配套的售后服务与团队支持
作为一套纯国产自研的数据同步产品,TapData Cloud 对于中国背景的团队更加友好,沟通更方便的同时,TapData 还提供专业的售后服务,能够及时解决使用中遇到的问题,并帮助用户快速体验产品稳定性和功能上的优化升级。
- 更高的成本效益
在支持一定规模的免费试用之余,TapData Cloud 提供性价比更高的定价模式。不同于花费较高的按链路数量计费(如 MySQL → MySQL,MySQL → ClickHouse 算作两条链路),以及更为高昂的按数据同步行数计费,Tapdata 采取对用户更加友好的定价模式——按实例规格计费(如 4C8G / 8C16G),取决于用户自身的数据流量,不限链路。该模式最大好处在于,价格相对明确的,所需成本也相对较低。
总结
将整套数据体系视作一个串联的数据流系统,CDC 环节就是其间的必经之路。心识宇宙选择了 TapData 作为这一环节的关键工具。这一选择不仅确保了数据的实时同步和准确性,也保障了数据的安全性和合规性。
通过 TapData,企业得以高效地管理和处理数据,从而为业务决策提供可靠的支持。这种数据驱动的决策方式下,企业将不断改进和优化产品,满足不断变化的市场需求,实现持续的创新和增长。
未来,TapData 还将持续挖掘数据集成在 AI 领域的实用性价值,与 AI 企业共同见证人工智能时代的新发展。
采用 Tapdata 实时数据平台解决方案有哪些优势?
- 广泛的数据源和目标支持:内置 100+ 数据连接器,稳定的实时采集和传输能力
- 学习成本低,轻量易上手:开箱即用与低代码可视化操作,支持数据模型预览,无需专业的编程能力,即可完成复杂的数据集成和开发。
- 更实时,更高效:兼具秒级响应的数据实时计算能力,以及稳定易用的数据实时服务能力
- 支持数据、任务分类:可根据不同项目自定义标签,方便快速筛选查找,有助于对跨部门协同管理及后续维护
- 支持平台级数据校验:有效保障数据一致性
- 可视化任务运行监控和告警:20+ 可观测性指标,实时监测任务最新状态
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。