头图

在数智化转型的浪潮中,企业业务需求呈现高频迭代特征,这一趋势直接反映在数据模型的频繁调整上。然而,传统数据治理模式下,模型设计往往缺乏系统化冗余评估机制,导致以下问题频发:

1、存储资源浪费:同一字段在多张表中重复存储,造成存储成本激增。例如,某电商企业因订单系统与库存系统独立设计,导致“商品 ID”字段在两个系统中重复存储,年存储成本增加数百万元。

2、数据一致性风险:冗余字段若未同步更新,易引发数据不一致问题。例如,某银行因客户信息在 CRM 与核心系统重复建模,导致客户地址变更后,两系统数据不一致,影响客户体验。

3、系统维护复杂度提升:冗余字段的变更需同步更新多处逻辑,增加运维成本。例如,某制造企业因产品型号字段在 10 张表中重复存储,每次新增型号需耗费 20 人日进行系统调整。

在此背景下,基于新一代数据血缘技术的“自治理”模式受到越来越多关注。

众所周知,数据血缘描绘了数据的起源、流经路径及其转换过程的详尽记录,可以精确追溯数据的初始来源,明晰其历经的各类处理流程,以及最终的应用方式,从而能够帮助企业揭示冗余字段的来源与依赖关系。例如,当发现某字段在订单表、支付表、对账表中均被引用时,通过数据血缘可揭示其是否因业务逻辑拆分或系统整合而重复建模。

而相较于传统被动元数据管理技术的人工登记、静态等待、人工触发模式,主动元数据是一种动态、持续、智能的元数据管理技术,通过主动采集、实时在线、主动触发机制,推动数据全流程各环节如数据探查、应用开发、测试验证、部署实施、运维管理、监控分析等的高效运转,为数据治理提供智能化技术支持。例如,通过主动实时采集字段的使用频率、存储分布、更新时效性等动态特征,企业可量化冗余字段的实际影响。

基于全球独创的算子级血缘解析技术,Aloudata 大应科技推出了全球首个实现算子级血缘解析的主动元数据平台——Aloudata BIG,能够帮助企业实现对冗余模型的主动治理或重构。Aloudata BIG 内置高精度数据相似度评分算法,可自动扫描全域数据资产,精准识别重复计算、发现相似数据,并生成重复资产报告,基于可视化的字段口径及加工链路比对,可快速分析数据异同,让企业有的放矢发起重复模型治理。


通过高性能、高置信的数据链路问题识别算法,Aloudata BIG 可对即使是 EB 级数据,亦可快速精准定位数据链路中存在的模型套娃、烟囱链路、低收益拷贝、不合理依赖等引发时效降低、成本激增、口径不一致等模型设计问题,持续为数据团队进行链路优化和模型重构提供高置信输入和建议。

此外,对于模型变更后的影响,因为算子级血缘能够极致精细地刻画数据间的依赖,如字段间是直接沿袭还是间接影响、在何种条件下影响、影响明细值还是汇总值等,所以 Aloudata BIG 能够针对模型变更对下游的影响,进行细致到行列级的精准评估,从而避免表血缘快速扩散以致无法分析的窘境。

基于自定义数据管理策略,Aloudata BIG 能够可与数据研发工具无缝集成,在深度理解 SQL 算子语义的基础上,提供智能代码建议,如推荐用户引用更优的上游数据或避免重复建设相似数据或提示采用一致的方法操作数据等,让研发协作十倍提效。

目前,借助于 Aloudata BIG 主动元数据平台,招商银行在数据链路分析和迁移等场景中,通过“同粒度模型优化分析”等算法分析程序,实现智能化应用对人工重复和低效工作的替换,辅助建模人员进行建模和下游代码改造,让原本需要数十人日投入的模型分析和代码迁移工作,缩短到数人日内完成,并在数据测试场景中,针对新老模型的数据对比和口径对比实现自动化,安全、安心的进行数据迁移。访问 Aloudata 官网了解更多。


Aloudata大应科技
4 声望5 粉丝

让数据随时就绪 Data Always Ready