欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/
作者 / 余继超
本文来源 / 国际金融报
芯片、操作系统、数据库是现代信息技术领域的三大核心基础。相较于芯片与操作系统受到的重视程度,数据库得到的关注相对较小,但重要性不容忽视,其不仅是数据的核心底座,也是社会数智化升级的底层保障,可谓是基础中的基础。
目前,在传统数据库领域,仍以 Oracle 为代表的集中式数据库占据主流。不过,随着互联网时代的加速发展和科技的进步,越来越多的企业进行数字化转型,对业务系统也更加高频的并发访问,当产生庞大的数据处理量,集中式数据库昂贵的成本和存储、计算极为有限的扩展能力开始暴露,企业不得不寻求性价比更高、存储和计算扩展能力更强的数据库。
原生分布式数据库被普遍认为是技术最先进的数据库,以其高可用、可扩展,多地域、多部署形态,混合负载,多租户以及透明兼容性将引领数据库技术的发展潮流。
近日,国内分布式数据库代表企业 OceanBase 首席执行官(CEO)杨冰接受了《国际金融报》记者专访。他向记者分析了国内数字化快速推进的原因,并指出分布式数据库技术较传统数据库技术有突破和超越的趋势,但存在生态建设不足和功能不完善的短板。
杨冰表示,“云+开源”是国内数据库行业未来发展的路线,分布式数据库产业发展需要更多的合作伙伴,丰富数据库功能,构建起生生不息的产业生态。
中国数字化驶入“快车道”
当前,中国正在数字化的快车道上疾驰。据国家网信办报告,我国数字经济发展规模全球领先。2017 年到 2021 年,我国数字经济规模从 27.2 万亿增至 45.5 万亿元,总量稳居世界第二,年均复合增长率达 13.6%,占国内生产总值(GDP)比重从 32.9% 提升至 39.8%,成为推动经济增长的主要引擎之一。
在杨冰看来,政策、技术、商业生态等多重因素助推国内数字经济快速发展。“首先是技术的突破。目前热烈讨论的 Web3.0、元宇宙都是技术比较成熟后诞生的概念,就数据领域而言,分布式技术、云技术等方面的技术突破是推进数字化转型的一大原因”。
“其次,我国数字化进程较快得益于整个数字化商业生态的形成,它不是孤零零的某一个东西被信息化,它是整个产业链端到端形成了一个数字化的商业。”杨冰表示。
第三,人口红利会极大地促进大量数据的产生,人力成本越来越高促使数字化的价值越来越高,导致越来越多的主体进行数字化布局。而人们的生活习惯也越来越受互联网的影响,可能会极大地促进大量数据的产生,沉淀的数据可能变成更强的新的生产力。
第四,疫情也倒逼行业数字化,靠数字化的方式来提升效率以及精准率。银行在治理和管控上面是要求统一集中的,但是在核心系统软件架构上是会往云和分布式去发展的。从终端提升能效这个层面看,企业对数字化的需求也很高。
最后,政策驱动数字经济发展。《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中对于数据化的提法,有很强的纲领性、指引性。
记者注意到,《“十四五”数字经济发展规划》提出,到 2025 年,数字经济核心产业增加值占国内生产总值比重达到 10%,数据要素市场体系初步建立,产业数字化转型迈上新台阶,数字产业化水平显著提升,数字化公共服务更加普惠均等,数字经济治理体系更加完善。
分布式数据库“小有大为”
随着数字经济的快速发展,作为现代信息技术领域的三大核心基础之一的数据库日益受到关注。而在数字化浪潮中,越来越多的企业进行数字化转型,对业务系统也更加高频地并发访问,当产生庞大的数据处理量,以 Oracle 为代表的集中式数据库昂贵的成本和存储、计算极为有限的扩展能力开始暴露。
在此背景下,企业不得不寻求性价比更高、存储和计算扩展能力更强的数据库,原生分布式数据库以其高可用、可扩展,多地域、多部署形态,混合负载,多租户以及透明兼容性而“迅速崛起”。
“分布数据库肯定在处理存储海量数据、处理海量并发上面有绝对的优势,我们在 2020 年正式推出 HTAP(混合事务/分析处理),和过去相比,HTAP的事务处理性能提升 50%,数据分析性能提升 10 倍。”杨冰表示,除此之外,分布式数据库能够做到真正的弹性扩缩容。以往的数据库扩容容易,缩容难。原因在于颗粒度比较粗,单个数据库内若有 20% 可用数据和 80% 废弃数据,不能够准确地剔除废弃数据,只能全盘保留。
记者了解到,传统的 OLTP(联机事务处理)是关系型数据库的主要应用,主要是基本的、日常的事务处理。OLAP(联机分析处理)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLTP 和 OLAP 是两套数据库,需要分别购买,同时数据还要在两个数据库中进行迁移,迁移的过程中还会面临数据丢失和损耗的风险。而原生分布式数据库的 HTAP 则是在一个数据库的基础上,一份数据既满足 TP(在线事务)又满足 AP(数据分析),降低了企业购买和迁移的成本。
分布式数据库之所以能够更加贴近业务、更安全,原因在于它把数据切分成无数个“小”。假设某公司的数据库中存放了 10 个表格,每个表格中的数据为 100 个数据量,若该表格缺失了 2 个数据,将会导致整个数据库的系统无法工作。而分布式则是将每个表格中的 100 个数据进行分区处理,如每 20 个为一组,当需要提取某个数据时,不仅能够定位到相应的表格,同时系统也能对同一表格的不同区进行分区读写,大大提高了可用性和效率。
杨冰还指出,分布式数据库技术虽然有突破和超越的趋势,但存在生态建设不足和功能不完善的短板。 “第一,生态上,无论是对接应用层的 API(应用程序接口)和访问接口,还是下游来去消费 log(日志)数据,都要尽可能国际标准化,我们做兼容、做开源,把技术生态、人才生态慢慢培养起来,另外在商业生态或者整个产品解决方案生态上面还是需要去突破的;第二,功能的完善度相比于发展了 40 多年的 Oracle 数据库和十几年的 MySQL(关系型数据库)还是不够全的,需要时间去弥补”。
“云+开源”建设数据库生态
近年来,随着技术发展、市场成熟,国产数据库也在逐渐崛起。对于国内数据库产业的变化,杨冰深有感触地说,“数据库产业现在更讲究自主可控、原创,我们具备‘0到1’的根创新能力以及国际化的竞争力,这是一个比较明显的变化。”
“国产数据库开始进入社会场景的关键应用/核心系统里面,这也是一个显著变化。”杨冰进一步表示,第三个变化是中国的数据库在很多的技术点上正在引领这个行业的发展。在分布式数据库领域,国内厂商在可扩展同时一致性、数据不丢这件事情上是引领行业的。
据悉,数据库里面有两个指标,一个是RPO,一个是RTO。RPO(恢复点目标)指的是最多可能丢失的数据的时长。RTO(恢复时间目标)指的是从灾难发生到整个系统恢复正常所需要的最大时长。
杨冰指出,原来数据库的恢复时间要不以小时计,要不以分钟计,互联网化、数字化以后,中国有了比海外还要严苛的、更加极致的一些场景,业务是从应用系统、网络机房到数据库端到端连续的,数据库是最底层的。如果数据库RTO能小于8秒,可能助推应用进入秒级时代,这绝对是核心竞争力。
“因为现在太碎片化了,同质化竞争很严重。”杨冰建议,可以更加地聚拢一些真正有实力的厂商,把更多的社会化的资源生态构建起来,中国的软件未来还要把SaaS(软件即服务)发展起来,并注重知识产权的保护。
杨冰认为, 未来基础软件世界一定是构建在“云+开源”之上的,国内的数据库公司基本上都在走“云+开源”的路线,这是一个大的趋势。 “我们希望未来可以更快地往‘多云’方向走,然后更加蓬勃的发展”,也希望监管机构、标准机构或者行业联盟尽快出台一些行业的标准,尽快标准化发展。
杨冰表示,“我们希望一起构建一个开放平等的开源生态,和大家一起把中国的开源数据库做大做强。经过这么多年的发展和积累,中国的基础软件已经进入有能力进行根创新的阶段,我们必须要有信心,同时要有战略定力,只要坚持长期投入,未来中国数据库一定会迎来大爆发。”
欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。