数据网格平台如何连接数据生产者和消费者

数据网格:公司数据利用的新范式

公司在利用数据仓库或数据湖中的数据时,常常面临所有权不明确或缺失的问题,导致数据质量下降。数据网格(Data Mesh)是一种组织范式转变,将数据的责任重新交还给数据生产者和消费者。

数据质量与所有权问题

Matthias Patzak在FlowCon France的演讲中指出,公司在利用数据并成为数据驱动型组织时,最大的挑战之一是数据质量。他提到,虽然数据被视为“新石油”,但未经妥善管理的数据会像陈年旧物一样失去价值。数据更像葡萄酒,有些数据需要尽快使用,而有些数据如果妥善保存,其价值和质量会随时间提升。

Patzak指出,分析数据的所有权往往不明确或缺失,导致数据质量下降。分析数据通常由事务系统生成,但了解并拥有这些系统及其底层流程的人员并不负责数据的分析应用。数据通常被提取、转换并加载到数据仓库或数据湖中,由高度专业化的集中部门管理,但这些专家也缺乏真正的所有权意识。

数据网格的概念与架构

数据网格是一种分布式数据基础设施,将数据的使用和创造价值的责任重新交还给数据生产者和消费者。它消除了专业数据组织作为代理和沟通瓶颈的角色,核心是数据产品,这些数据产品本身创造实际的商业价值。

要构建数据网格,需要创建面向领域的架构,每个业务单元将其数据作为产品进行管理,使用自助服务的基础设施和工具进行分类、共享和治理。这种自助服务的基础设施由数据网格平台构建,包括云服务、数据编排工具和CI/CD管道,并得到联邦治理政策和监控系统的支持。

数据网格的实施与优势

Patzak提到,访问由强大的安全机制控制,整个数据基础设施通过基础设施即代码(Infrastructure as Code)实践自动化维护。关键的是,领域团队通过平台团队提供的针对性赋能和培训计划,具备必要的技能,确保技术设置促进自主、质量和协作的文化。

数据网格的优势包括更快的实施时间、减少生产者和消费者的认知负担、一致的工具和公司标准。

数据网格平台的创建与建议

在InfoQ的采访中,Patzak提到从技术角度看,构建数据网格平台的核心服务已经具备,挑战在于确保平台服务被用户接受和使用。这可以通过让平台用户优先考虑平台积压工作,并通过工作轮换让用户团队的开发人员参与平台服务的开发来实现。

Patzak建议组织在利用数据网格时,不要试图一次解决所有问题。可以从一个具体的使用案例开始,选择开放心态的生产者和消费者,利用数据网格的去中心化方法。甚至在准备不足时就开始,并在实践中逐步完善。同时,平台开发应与具体使用案例并行进行。

阅读 23
0 条评论