扩展Uber的批处理数据平台:基于数据网格原则的云端之旅

Uber 大数据平台迁移至 Google 云平台的概述

几个月前,Uber 开始将其批处理数据分析和机器学习平台迁移至 Google Cloud Platform (GCP)。最近,Uber 在其工程博客中提供了更多关于此次迁移的详细信息,其中融入了关键的数据网格原则

Uber 批处理数据平台的重要性

Uber 的批处理数据平台是其数据基础设施的重要组成部分,支持超过 10,000 名内部用户,包括数据科学家、工程师、城市运营人员和业务分析师。该系统管理着大约 1.5 艾字节的数据,这些数据存储在两个本地区域的 Apache Hadoop 分布式文件系统 (HDFS) 中,每天处理超过 50 万次 Presto 查询和 37 万次 Apache Spark 应用程序。

迁移至 Google 云平台的原因

为了提升可扩展性并简化操作,Uber 决定将其批处理数据平台迁移至 Google Cloud Platform (GCP)。迁移过程中,Uber 使用 Google Cloud Storage (GCS) 作为其数据湖,并将其他基础设施迁移到基于云的基础设施即服务 (IaaS)。

迁移过程中的挑战

迁移过程中面临的主要挑战包括云提供商对存储和身份与访问管理 (IAM) 的限制。Uber 需要高效地将 HDFS 文件映射到 GCS 存储桶,同时避免资源过度使用或不足。此外,Uber 还需要在存储层次结构中适当应用访问控制,确保系统安全而不过度提升用户权限。

安全与治理

安全和治理是此次迁移的核心关注点。Uber 的目标是根据数据的用途和生命周期对其进行分类,以确保适当的访问控制。广泛使用的关键数据集存储在具有开放访问权限的专用存储桶中,而不太重要的数据则分别存储,并应用受限的访问和生命周期管理策略。

DataMesh 服务的开发

为了促进这一大规模迁移,Uber 开发了名为 DataMesh 的服务。DataMesh 旨在抽象和管理云基础设施,围绕数据网格原则组织数据资源,专注于分散的数据所有权和特定领域的控制。该服务自动将数据与云资源进行协调,从 Uber 的内部存储库中提取信息,确保数据正确标记、保护和监控。

迁移中的挑战与解决方案

迁移过程中的一个重大挑战是应对数据所有权变化和 GCS 的限制。Uber 实施了自动化流程来监控并在必要时重新分配所有权,确保数据安全存储和管理。此外,Uber 优化了数据分布,以避免达到 GCS 存储限制,确保使用频繁的表分离到各自的存储桶中,以提高性能并简化监控。

数据网格的其他实施案例

其他实施数据网格的案例包括:

  • Gilead Sciences:一家生物制药公司,开发了数据网格架构,旨在创建一个新的组织和运营模型,支持其云转型计划。
  • Saxo Bank:一家金融服务公司,通过实施数据网格,旨在分散数据所有权和治理,使领域团队能够管理其数据产品并提供实时业务洞察。

未来展望

展望未来,Uber 计划进一步扩展数据网格原则的使用,构建一个允许自治理数据领域的平台。这将简化基础设施管理并增强数据治理,最终创建一个更敏捷、安全和成本高效的数据生态系统。

总结

Uber 的批处理数据平台迁移至云端是一项重大工程,通过精心规划和开发创新的工具如 DataMesh,Uber 正在为云端的更大可扩展性、安全性和运营效率奠定基础。

阅读 29
0 条评论