近日,由中国通信标准化协会、大数据技术标准推进委员会主办,InfoQ 极客传媒联合主办的 “2024 可信数据库发展大会” 在京成功召开。此次大会汇聚了众多数据库行业领军企业、专家学者,共同探讨全球数据库发展趋势,分享最具权威性的产业洞察和前沿的实践案例。

作为国内领先的企业级实时数据仓库产品厂商,飞轮科技首席执行官马如悦受邀出席大会,并带来了现代化实时数据仓库 SelectDB 全方位产品解读, 从数据分析的现代化趋势出发,对 SelectDB 产品核心定位及三大产品形态——多云原生的实时数仓服务 SelectDB Cloud、私有化部署的实时数仓软件 SelectDB Enterprise 以及联合阿里云打造的全托管云上实时数据仓库 阿里云数据库 SelectDB 版进行了全面解读分析。

现代化实时数据仓库 SelectDB 全方位产品解读.PNG

现代化实时数据仓库 SelectDB 产品解读

01 数据分析基础设施的三个阶段

马如悦在现场提出,纵观数据分析的发展历程,数据分析平台数据仓库的演进经历了三个阶段。 每个阶段持续大约 20 年。第一阶段即在 2000 年之前,以 Teradata 为代表的传统数据仓库逐渐成熟占据主流,包括 OLAP、数据仓库、MPP 以及数据仓库一体机的形态。 2000 年前后,随着谷歌三驾马车的问世,以 Hadoop / Spark 为代表的大数据平台成为大数据分析的基座,成为第二阶段的事实标准。从 2020 年开始,现代化的数据分析平台/数据仓库开始成为主流采用形态,也预示着新一个 20 年的周期开始了。现代化的数据仓库产品开始涌现,这些产品兼顾了传统数据仓库的可靠性和性能优势,以及对大数据的高效处理和实时分析能力。总体而言,数据仓库的三大现代化趋势为实时分析、湖仓融合以及云原生化。

数据分析基础设施的三个阶段.PNG

过去,企业大多使用传统数据仓库对历史数据进行批量分析,如今,数据分析逐渐转向实时处理,实时报表和交互式分析逐渐取代传统静态报表,数据结果从一开始的仅供数据分析师使用,逐渐转向为机器和算法使用的实时决策系统。同时,随着业务发展和数字化转型,数据分析需求由内转向外,要求分析系统能适应更多样化的在线分析业务场景。

02 实时分析

在应对大规模数据的实时分析时,核心挑战来自两个方面:

  • 随着数据实时写入数据库,挑战之一是如何以更低的延迟提供数据。我们需要降低数据传输和处理的延迟,以提高数据的新鲜度,并及时处理最新数据的变化。
  • 对于上层数据应用而言,如何提供更快的查询、降低查询耗时。我们需要持续优化查询性能,提高查询的快速响应度,以满足上层数据应用的性能需求。

SelectDB 通过实现了大规模数据实时导入与实时存储和多种查询负载上的极速分析性能,解决了实时分析的难点。

实时分析.png

在数据导入存储方面,SelectDB 完成了以下功能:

  • 秒级的数据实时更新(主键表)与追加:SelectDB 实现了实时数据的秒级可见,在主键表和非主键表上实现了高效的实时更新和追加,相比之下,许多传统数据仓库甚至包括现在广泛使用的 Snowflake 和 Redshift 往往只能支持批量更新、甚至没有主键表的支持,很难实现高频率的实时更新。
  • 数据库 CDC / Kafka 流式数据同步:实时数据仓库的上游数据源往往来自 TP 数据库或 Kafka 消息队列 ,为此 SelectDB 内置了数据库的 CDC(变更数据捕获)功能以及 Kafka 的流式数据同步功能,能够实现秒级的数据同步。
  • 毫秒级轻量化表模式修改:不止数据可以实时写入和更新,对于表的模式(Schema)也需要进行快速变更,以适应当今快速变化的业务环境。而 SelectDB 能够毫秒级提供 Schema 修改的功能,同时 Schema 修改期间完全不影响在线业务的运行
  • 丰富的半结构化数据类型支持:随着不同类型的数据不断增加,半结构化数据类型也日益常见。SelectDB 通过引入 Array、Map、JSON 等数据结构,能够高效支持半结构化数据类型的存储和处理需求。

在查询方面,SelectDB 实现了以下功能,帮助用户获取极速分析性能 :

  • 高并发点查询:SelectDB 实现了单节点 30000 QPS 的超高并发, 真正具备了在一套架构下同时满足高吞吐的 OLAP 分析和高并发的 Data Serving 在线服务的能力,大大简化了混合工作负载下的技术架构,为用户提供了多场景下的统一分析体验。
  • 大宽表查询 :众所周知,ClickHouse 在处理大宽表查询方面表现出色,而在 ClickHouse 所发起的数据库性能排行榜 Clickbench 中,2022 年 10 月 SelectDB 首登榜单即斩获榜单第一名的成绩,这进一步证明了 SelectDB 在处理大宽表查询方面具备出色的性能。
  • 多表 Join 查询:多表 Join 是 Apache Doris 一以贯之的优势,同样也是 SelectDB 的核心优势。在 SSB 和 TPC-H 等多表 Join 的测试中,SelectDB 性能最多可以达到 ClickHouse 的 100 倍、Greenplum 的 5-10 倍;
  • 增量库内 ELT :过去 Spark 被广泛用于批处理的 ETL,而 Flink 则专注于实时 ETL。SelectDB 提供了内置的增量 ETL 功能,相对于 Spark 具备更高的实时性,并且更易于使用。

03 湖仓融合

马如悦提到,在大数据领域,存在众多的系统和组件,它们往往在架构中扮演着不同的角色。而随着时代的进步,架构“减负”已成为企业发展的重要目标。 数据仓库在性能方面表现出色,而数据湖则以其开放性和能够存储各种数据的优势而受到青睐。然而无论湖或仓在场景上都具备一定的局限性,因此如今我们正处于数据湖和数据仓库融合的阶段,要想充分利用数据仓库的高性能和数据湖的开放性,整合这两者变得至关重要。

湖仓融合.png

SelectDB 基于 Federated Query Engine(联邦查询引擎) 和 Open Data Lake(开放数据湖) 特性进行了大量的技术创新,以实现更加彻底的湖仓融合能力。

作为一个高效的联邦查询引擎,SelectDB 可以通过创建外部数据目录的方式与外部数据源进行映射,例如可以将 Hive、Elasticsearch、Iceberg 等数据源映射为外部表,SelectDB 将自动更新元数据,并自动进行外部数据的高速缓存。

除了提供基于 MySQL 协议的 SQL 查询 API,同时还提供高吞吐的数据读写 API,使得可以作为开放的数据湖格式并被其他计算引擎访问,提升湖仓融合开放性。SelectDB 提供了基于 Arrow Flight 的 HTTP Data API 高吞吐数据读写接口,使客户端以并发方式与多个 BE 进行读取,以提供更高的数据读取能力。无论是使用 Flink Connector、Spark Connector,还是通过 Python SDK( 数据科学、机器学习 )都可以快速访问。因此,基于 SelectDB 可以与整个 AI 和数据科学生态进行良好的整合,这也是未来的重要发展方向。

04 云原生与随处运行

SelectDB 不仅提供存算一体的部署方式,也提供更加云原生化的存算分离的使用方式。在产品设计上,马如悦指出,SelectDB 提供三个版本:全托管的云服务版本(SelectDB Cloud)、可私有化部署的企业版(SelectDB Enterprise)以及联合阿里云打造的全托管云上实时数据仓库阿里云数据 SelectDB 版。

全托管的云服务版本 SelectDB Cloud 面向有上云需求的企业。SelectDB Cloud 可以在国内外主流公有云上运行,并在多个云上有一致的使用体验。多云一致并且体验一致是其区别云厂商数仓服务的一大特色。 SelectDB Cloud 对 Apahce Doris 进行了大量重构以便利用云的强大能力,提供更大弹性。存储与计算的分离,可以让存储与计算独立扩缩容;多计算集群的支持,可以在共享一份数据的基础上,可以提供物理隔离的多个计算集群;每一个计算集群都可以进行自动扩缩容。与此同时,SelectDB Cloud 提供了可视化的管理控制台,帮助简化开发运维工作。

云原生与随处运行.png

您可通过上图了解 SelectDB Cloud 整体架构:对于企业而言,可以建立多个仓库、每个仓库可以有多个计算集群,这些集群之间共享对象存储,每个集群由多个计算节点组成,计算节点还可以实现弹性扩缩容。这样的架构也为企业带来了极致性价比:

  • 存储冷热分离:对于面向海量数据分析的 AP 系统而言,不可避免会持续积累历史数据,而这些历史数据会占据大量存储成本。相对于价格高昂的云盘,对象存储的价格低廉且可靠性高,将冷数据卸载至对象存储可以将存储成本降低至原来的五分之一。
  • 弹性计算:我们注意到许多客户计算集群的真实利用率(CPU 利用率)大约只有 20%,这是因为需要满足每天的峰值负载,而大多数时间内 CPU 利用率相对较低。通过弹性扩缩容功能,可以根据负载的需求不断地扩展或缩减节点,使 CPU 利用率保持在 70%-80% 甚至更高,计算效率得到极大幅度提升、计算成本仅需之前的 25%。

SelectDB Enterprise 版本则服务于希望私有化部署 SelectDB 的企业。 作为一款私有部署和自管理的系统软件,SelectDB Enterprise 内核基于 Apache Doris 构建,并且与 Apache Doris 100% 兼容。SelectDB Enterprise 版主要提供一个长周期支持的、稳定的 Doris 内核。 开源的 Apache Doris 内核迭代比较快,新功能不断合入,企业客户在不断体验新功能的同时,也会担忧投入生产后的稳定性问题。所以,SelectDB 基于开源 Doris 提供了一个企业级的稳定内核,会在广大开源用户使用的问题反馈基础上、经过 SelectDB 专职测试团队测试和调优,并且 SelectDB 为每个稳定内核提供长达 12-36 个月的长周期持续维护,免除企业升级带来风险的担忧。 这个内核完全可以与开源 Doris 内核互相兼容,企业随时可以从两个内核互相切换,不用担心被锁定到 SelectDB 的企业内核上。同时,SelectDB Enterprise 版也会提供可视化的 Manager 功能。数据库管理员可以利用 Manager 管理多个集群,完成部署、升级、重启和配置等功能,同时可以诊断、监控和报警等。SelectDB Enterprise 版,也会提供跨集群复制和备份恢复等企业级功能。

SelectDB Enterprise 版本.png

除了企业版的内核和管控工具,马如悦提出,SelectDB 为企业用户提供了专家技术服务,旨在消除用户在生产环境中使用 Apache Doris 的后顾之忧。 作为基于 Apache Doris 的商业化公司,飞轮科技聚集了大量的社区贡献者、Committer 以及 PMC 成员,提供了更加专业的技术支持服务:

  • 消除风险:提供例行巡检,及时消除系统可能的隐患;
  • 解决问题:严格的服务 SLA,确保 7*24 小时专属支持,对紧急 Bug 提供天级别的专属修复版本更新;
  • 优化系统:通过对产品培训、业内最佳实践分享,与客户一起优化系统性能和成本。

阿里云数据库 SelectDB 版是专为现代企业量身定制的实时数仓解决方案,植根于开源 Apache Doris 的坚实基础,却不止于此——深度融合云随需而用的特性,依托阿里云基础设施,构建起云原生存算分离的全新架构,面向企业海量数据的实时分析需求,提供极速实时、湖仓融合统一、简单易用的云上数仓服务。

早在 2023 年初,阿里云与飞轮科技开启战略合作,围绕实时数据仓库这一方向不断深耕,探索符合现代化实时数据仓库的新标准。在历经一年多的研发、邀测及公测阶段后,自 2024 年 5 月起,阿里云数据库 SelectDB 版已全面开启商业化,赢得了数百家企业的信赖与大规模应用实践,正在迎接全球范围内客户在海量数据实时分析领域的挑战!

05 主要应用场景

最后,马如悦也为现场观众介绍了 SelectDB 的各大应用场景,包含:实时报表与实时决策、交互式探索分析、用户行为与画像分析、日志管理与分析,以及混合云和多云部署场景。

主要应用场景.png

  • 在实时分析场景中, SelectDB 支持 100 万行/秒的实时写入,也支持流式的从 OLTP 数据库和 Kafka 同步数据,同时支持亚秒级查询响应,单机上万 QPS 的高并发点查。
  • 在交互式探索分析场景中, SelectDB 在多种查询负载上拥有极速性能,并在外表内表中均可以进行联邦查询分析。做到了无需移动数据,即可使用 SelectDB 完成多种数据源的即席查询分析。
  • 在用户画像与行为分析场景中, SelectDB 支持毫秒级加列、部分列更新。并拥有丰富的行为分析函数,带来开发简化和效率提升,比如 rentention、window\_funnel、sequence\_match 等。同时,SelectDB 可通过高表正交位图实现画像场景的秒级圈人,以做到千亿数据秒级人群预估,秒级别 10 标签圈人,10 秒级别 100 标签人群圈选。
  • 在日志管理与分析场景中, SelectDB 服务端提供的 Group Commit 机制,能保证秒级实时可见前提下写入吞吐到 GB/s。SelectDB 高性价比存储在提升业务效率的同时也做到了成本降低,帮助企业降本增效。
  • 在混合云和多云部署场景中, SelectDB 灵活的产品使用和部署形态、统一的可视化管控工具与便捷的数据贯通和迁移方式,能够最大程度上为用户带来多云一致的体验。

马如悦的现场演讲,不仅让现场观众深入了解到数据仓库领域的现代化发展趋势,更对 SelectDB 的产品形态与应用场景有了清晰的认识。为了让更多用户了解到此次分享的精彩内容,飞轮科技也在下方公开了演讲视频与材料,欢迎前来下载。

点击观看演讲回顾视频

点此下载演讲资料: 现代化实时数据仓库 SelectDB

SelectDB 入选《中国数据库产业图谱(2024)》

在本次大会上,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)重磅发布了《中国数据库产业图谱(2024)》,该图谱旨在全面客观展现我国数据库产业中的关键领域、环节和代表企业。SelectDB 作为全球最受技术人员认可的分析型数据库之一,成功入选该图谱。

中国数据库图谱.png

成功入选此图谱,代表着飞轮科技在技术创新、应用实践及用户体验等方面均达到了行业领先水平。截至目前,飞轮科技已为全球 5000 余家中大型企业核心数据分析场景提供服务。 客户遍布金融、互联网、电信、游戏、零售、制造、交通物流等多个领域,满足不同行业不同场景的数据分析需求,具备丰富的落地实战经验。未来,飞轮科技将继续深化功能创新优化与行业应用实践,为全球用户带来更加实时、统一、弹性、开放的数据分析体验。

飞轮科技加入数据库应用创新实验室金融工作组

除此之外,飞轮科技作为首批共建单位,加入数据库应用创新实验室金融工作组,赋能金融行业数据分析卓越发展。 目前,SelectDB 已在金融行业实时数仓构建、报表分析、CDP 平台建设等场景中广泛使用,为汇添富基金、银联商务、易生支付等客户提供数据分析解决方案。


SelectDB技术团队
34 声望26 粉丝

现代化实时数据仓库 SelectDB,支持大规模实时数据上的极速查询分析。