导读

在金融科技迅猛发展的今天,华安基金作为行业的先行者,面临着数据管理和分析的全新挑战。随着业务的不断扩展和数据量的激增,传统的数据库架构已难以满足系统对实时性、灵活性和分析能力的需求。在这样的背景下,HTAP(混合事务/分析处理)数据库成为了数字化转型的关键。

本文由华安基金大数据开发工程师郑圣瑜撰写。探讨了华安基金在 HTAP 场景下的数据库选择。从实际业务场景出发,解析了选择 HTAP 数据库的原因及选择 TiDB 的决策过程;以及如何通过 POC 测试和实际应用,验证 TiDB 的优势;同时展示报表系统后台数据库从 MySQL 迁移到 TiDB 的案例及性能提升,分享测试和使用中的挑战及 TiDB 的新特性应用。

华安基金的数据库升级之路

华安基金管理有限公司,成立于 1998 年,总部位于上海,是中国证监会批准成立的首批 5 家基金管理公司之一。华安基金旗下公募基金规模超过 6000 亿元,非货币公募资产管理规模超过 3500 亿元。公司管理的公募基金共计 248 只,服务的客户数量超过 1.3 亿,累计为投资者实现分红金额超过 1000 亿元。华安基金凭借其出色的资产管理能力,累计获得金牛奖 57 座,另外多次获得金基金奖、明星基金奖等荣誉。

在 2018 年以前,华安基金的数据库技术栈采用了集中式架构,以 Oracle 为主,MySQL 为辅;在 2018 年后,系统的数据量和并发量都有了大规模的增长,数据仓库层面引入了一套基于 Hadoop 生态的国产化分布式数据库;到 2023 年华安基金响应号召进行了国产化改造,进行了国产集中式数据库的选型替换。随着业务的不断发展,面对系统的复杂性,一个既能处理大量事务,又能进行实时分析的数据库解决方案成为了必须,因此,华安基金开启了新一轮的架构选型。

华安基金开启新一轮的架构选型

系统复杂性让 HTAP 数据库成为必选项

华安基金第一次感受到 HTAP 数据库的重要性是在反洗钱系统的研发中。由于该系统既包含批处理场景,也包含交易场景。尤其是审计模块,业务分析前置条件较多、需要处理的数据量很大,服务于 1.3 亿投资人,涉及到大量的数据增删改查操作。

过去,OLAP 请求从上游负责 OLTP 请求的各个信息数据库中提取数据,在数仓进行加工处理,再将处理后的数据推送到下游的各个应用系统中。在纯分析场景中,原有的 Hadoop+分布式数据库架构能够满足需求,但在交易场景中,尤其是审计模块,效率下降得十分明显。

为了应对业务的需求,新的数据库架构必须具备以下能力:

  1. 实时混合交易分析查询能力;
  2. 海量并发数据写入查询能力;
  3. 透明水平弹性拓展能力;
  4. 实时大规模批量更新删除处理能力;
  5. 金融级自愈容灾高可用能力等。

因此,华安基金开启了 HTAP 数据库选型的技术储备工作。

HTAP 场景下的数据库选型历程

国产化改造要求

华安基金是上海仅有的两家基金行业中的国产化改造试点单位之一,根据相关部门要求,需要在 2027 年之前完成所有系统的国产化化改造,目前已经完成了 70%。

TiDB 是新一代分布式数据库的引领者,坚持自主开源的价值主张和全球化策略,2024 年 9 月,依托于 TiDB 经过深度优化与功能增强,为企业级关键业务场景量身打造的分布式数据库平凯数据库首批通过分布式数据库安全可靠测评,现已在金融、运营商、能源、医疗、电力、政企等多个行业的关键业务系统中得到了广泛应用和验证,这也是华安基金选择 TiDB 的前提条件。

透明、灵活、高效、易用的使用体验

在降本增效的大背景下,企业的 IT 人员有限,需要数据库可靠、稳定,并且运维简单;与此同时,金融行业的安全性和审计也至关重要,TiDB 的架构恰好能够满足这些需求:

透明、灵活、高效、易用的使用体验

  1. 原生分布式架构 :TiDB 的使用体验与集中式数据库相似,无需考虑分片键,简化了应用开发和建表的过程。数据库自动实现数据的打散和负载均衡,降低了人工运维成本。
  2. 存储计算分离 :TiDB 的存储和计算分离架构提供了更好的弹性扩展能力,允许存储和计算资源独立扩展。支持在线扩缩容,扩缩容操作在后台异步进行,不影响业务运行。
  3. HTAP 混合负载 :TiDB 支持行存储和列存储引擎,能够同时支持在线交易和实时分析,两种操作互不干扰。这种混合负载能力简化了技术栈,提高了分析效率,替代了原有的 OLTP+ETL+OLAP 架构。
  4. 高可用及易管理 :TiDB 的所有组件都具有高可用性,即使在节点故障时也能保障数据不丢失、业务不中断。此外,它还支持在线 DDL 变更、资源管控、图形化管理和安全审计等,提高了系统的易管理性。

TiDB 凭借先进的架构和透明、灵活、高效、易用的使用体验成为了此次 HTAP 数据库选型中的优选。

测试验证产品能力

在框定了选型范围后,需要通过严格的全链路测试来验证产品能力。在设置测试标准时,主要有两方面考虑:

  1. 本次测试的目标是 构建技术储备 。华安基金希望通过测试不同的数据库解决方案,为未来可能的技术升级和扩展打下基础。最初的设想是,只要新数据库在实时查询场景下,能够达到现有 TP 系统性能的 70%和 AP 系统性能的 70%,就足以满足需求。然而,测试结果表明,TiDB 的性能远超预期。特别是在 AP 场景中,TiDB 在组件带索引查询、多表关联、聚合等操作方面的表现极为出色,甚至超出了对 AP 性能 70%的预期。在 TP 场景中,TiDB 的性能与测试中的另一个 TP 数据库相当,并且在处理大规模批量操作时表现更佳。
  2. 数据导入和导出性能 是关注的重点。引入 TiDB 的出发点是报表数据集市,这是选择 TiDB 的关键应用场景。由于上游是数据仓库,需要导入大量数据,因此评估数据导入和导出的性能至关重要。华安基金期望推广的报表系统能够得到公司业务人员的广泛使用,这就要求查询速度必须足够快。因此,对数据库的导入导出性能进行了严格测试,以确保它能够满足对速度的需求。

根据以上原则,本轮选型测试采用 3 节点国产化硬件服务器以及操作系统进行部署,对百万级/亿级别/百亿级别等 13 项 HTAP 场景进行了业务测试,测试的场景和标准如下:

测试的场景和标准

TiDB 超过 2 TB 级别混合场景中,运维、管控、数据处理、弹性扩容等场景均表现优秀。经过综合评估,TiDB 在 GPT(General Purpose Transactional Processing,通用事务处理)得分上脱颖而出:

TiDB 在 GPT 上的得分

在报表系统的应用效果

在将报表系统升级至 TiDB 之后的性能对比分析显示,原先依赖单机 MySQL 数据库的系统经过升级,采用了三台服务器的配置,性能提升显著,远超三倍的预期。升级后的系统表现赢得了后台运营团队和业务团队的高度满意。

在报表系统的应用效果

TiDB 在华安基金的近期应用主要集中在 OLAP 能力上,支持大规模数据的聚合分析和精确查询,这些场景要求数据库能够处理千万级以上的多表关联和聚合分析,以及百亿级的数据查询和范围扫描。未来,TiDB 在华安基金的应用将扩展到 OLTP 层面,支持更复杂的事务处理和在线交易业务,包括注册登记系统 TA、华安基金 APP、华安基金投资助手公众号,以及反洗钱系统审计等场景。

 OLAP 能力

TiDB 的新特性

在测试过程中,除了对 HTAP 能力的验证,TiDB 的新特性也带给了华安基金惊喜的使用体验。

Pipelined DML

过去,在处理大规模事务的过程中,往往需要调整应用端的业务逻辑和需求以适应大量数据的导入,使用到批处理 DML(Batch DML)功能。随着 TiDB pipelined DML 功能的推出,现在可以通过简单地添加一个参数开关来提升性能,无需再对业务操作进行修改。这一改进显著简化了操作流程,提高了效率。

Pipelined DML

TiDB 的新版本相较于旧版本,在性能上也实现了显著的飞跃。这些性能上的改进极大地提升了华安基金在处理大规模数据时的效率,并且优化了操作流程。

资源管控

TiDB 的资源管控特性为系统提供了关键的资源分配能力。报表系统需要特定的资源分配策略,尤其是确保高层管理部门能够优先获取计算资源。对于后台部门,如执行常规数据处理的,对速度的要求相对宽松。为此,华安基金实施了两个资源池的设置:一个是高优先级的 online(在线)资源池,另一个是 offline(离线)资源池。在系统界面中(RU Consumed by Resource Groups),online 资源池以红色标识,而 offline 资源池以蓝色显示,确保 online 资源池能够获得更高的优先级和使用权限。

资源管控

分区表全局索引

TiDB 的新特性——分区表全局索引,在营销领域的客户持仓分析中发挥了重要作用。面对一张每天新增超过 6000 万条持仓数据的明细表,数据导入过程中的稳定性非常重要,需要开启特定开关来确保操作的安全性。此外,针对业务人员的查询需求,通常基于普通索引执行点查询或小范围查询,TiDB 提供的全局索引(Global Index)功能显著提升了使用的高效性和便捷性。

分区表全局索引

ORC 文件导入

华安基金的上游数据仓库是基于开源 Hadoop 生态系统构建,主要采用 ORC 格式存储文件,TiDB 团队快速响应,在原有的文本文件和 Parquet 文件导入之外,实现了 ORC 文件的导入,从而满足了报表系统下游的多样化需求。

ORC 文件导入

图形化管理监控 TEM

TiDB 的图形化管控界面简化了操作流程,避免了仅依赖命令行进行操作的复杂性,同时集成了告警管理、数据备份和主机管理等关键功能。这些功能的集成与华安基金现有的大数据仓库操作高度一致,从而提高了管理效率和用户体验。

图形化管理监控 TEM

HTAP 技术选型的思路总结与未来展望

HTAP 技术选型的思路总结与未来展望

华安基金在选择 HTAP 数据库的过程中,遵循了一套全面而细致的选型思路,以确保所选技术能够充分满足业务需求并推动公司发展:

  1. 明确需求 :首先评估业务对 TP(事务处理)和 AP(分析处理)的需求比重,确定数据量、查询速度和响应时间,确保数据库能满足业务对实时性的要求。
  2. 技术特性评估 :考虑数据库的实时分析能力、可扩展性、高性能、安全性和灵活性,以支持业务人员实施的场景需求,特别是后台营销人员对数据实时性的需求。
  3. 集成与兼容性 :评估数据库与现有数据库、应用程序和其他关键系统的集成能力,确保数据同步策略的无缝实施。
  4. 安全性与可靠性 :重视数据库的安全性措施、容灾备份机制、数据恢复能力和错误处理机制,保障业务连续性和数据安全。
  5. 成本与投资回报 :分析数据库的购买、部署、维护和升级成本。
  6. 产品成熟度 :考察产品的成熟度、更新频率和技术支持情况,TiDB 已经在全球超过 4,000 家企业中部署,经过了金融、互联网等规模化场景的验证。
  7. 测试与验证 :在做出最终选择前,对 HTAP 数据库进行充分的测试和验证,确保其能满足业务需求。

经过细致的选型过程后,华安基金选择了 TiDB 作为 HTAP 数据库解决方案。现在,TiDB 在华安基金报表系统上已经稳定运行,成为了有参考性的解决方案;反洗钱系统作为金融行业当前的一个重点和难点,华安基金也在积极与众多同业探讨交流,探索 TiDB 的应用场景。

国内金融机构正纷纷借数字化转型建设加大投入,科技对于公募基金行业创新发展的驱动正在进入新的阶段。展望未来,相信 TiDB 有能力支撑华安基金的业务发展和技术需求,更好地服务于广大持有人和投资者。


PingCAP
1.9k 声望4.9k 粉丝

PingCAP 是国内开源的新型分布式数据库公司,秉承开源是基础软件的未来这一理念,PingCAP 持续扩大社区影响力,致力于前沿技术领域的创新实现。其研发的分布式关系型数据库 TiDB 项目,具备「分布式强一致性事务...