万亿级数据，如何高效进行数据治理

个推资深数据分析师远见

在数据智能时代，对企业而言，“数据驱动业务”或者“数据即是业务”的理念逐渐成为业界的一种共识。然而，数据孤岛、数据标准不统一等问题在一定程度上阻碍了数据资产价值的最大化体现。个推作为专业的数据智能服务商，在数据治理方面有着丰富的实践，旨在帮助提升效率、节省成本、获取数据资产价值。

本文将从三部分讲述个推数据治理：数据治理概念解析、数据实践、常见问题分析。

什么是数据治理

讲具体概念前，我们先看一个生活中的例子。大家去超市买菜或买水果时，通过分区指引很快就会找到对应的蔬菜区和水果区。蔬果有打包好的、散称的，方便大家自助购买。而老的菜市场模式，菜品有些在台面上，有些还在袋子里，我们需要问老板有茄子没？有西红柿没？多少钱1斤等等。或者更原始的自家种菜模式，需要时临时去采摘。通过上述模式对比，如果我们是数据使用者，我们期望通过什么样的方式使用数据呢？数据治理的一个工作就是让数据从混乱无序到规整统一的过程，让数据使用更便捷。

图片来源自摄图网

数据治理目标

企业数据治理的目标主要是为了企业能够快速发展和效益的最大化，比如提升效率（数据开发效率或者使用效率）、节省成本、业务创新增收、风险控制等。企业通过治理运营可以及时发现并规避一些经营风险问题，有效确保数据使用的合理性与合规性。

数据治理规范

根据ISO定义，数据治理 (Data Governance, DG) 就是以服务组织战略目标为基本原则，通过组织成员的协同努力、流程制度的制定以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析，实现数据资产价值获取、业务模式创新和经营风险控制的过程。治理工作旨在让数据使用更便捷，价值更易被挖掘。

上图是我们国家标准化管理委员会于18年6月发布，19年初正式实施的《数据治理规范》。由图可知，数据治理一共分为四大模块：顶层设计、数据治理环境、数据治理域、数据治理过程。其中，顶层设计是数据治理工作的基础。数据治理工作会涉及到多部门、多团队、多工种，需要根据组织当前的业务和数据现状，设定实体或虚拟组织机构，确保治理工作朝着组织战略目标前进。

目前，个推也设立了各专业的委员会和执行组织，负责把控数据工作的目标和方向、指导数据工作的开展落地等。

数据治理环境是数据治理得以成功实施的保障条件。开展数据治理之前我们需要理清领导层、管理层、业务层、执行层等等利益相关方的需求，同时识别出项目支持力量和阻力。值得注意的是，数据治理工作是个长期的过程。有关准备工作和支持力量不容忽视，因为两者直接决定了后续工作的推进是否顺利。

架构中部的数据治理域主要负责治理工作相关的制度规范、流程的制定和落地。数据治理域由数据管理体系与数据价值体系两部分构成。前者主要包括数据质量、数据安全相关的标准制度，后者主要指的是数据共享、数据服务和数据使用分析体系相关的制度。

数据治理工作需要长期持续投入，所以在具体执行过程中，我们就需要考虑用正循环的闭环方式去开展。治理过程主要包括确定数据治理目标、制定数据治理计划、执行业务梳理、设计数据架构、采集清洗数据、存储核心数据、实施元数据管理和数据血缘追踪，并定期检查治理结果与治理目标的匹配程度。

数据治理实践

治理工作的主要流程可以概括为“理—采—存—管—用”。“理”指的是理组织、理业务、理数据；“采”指的是让这些数据能方便地流入到中心集群中；“管”是治理的核心，指的是管元数据、管质量等等。“用”这个环节，常规方式一般是通过API予以提供。基于此流程，个推构建了自己的数据治理平台。

本文主要从系统建设层面论述数据治理的具体实践过程，系统外的工作将不再赘述。

数据集成

系统工作首先需要进行数据集成，该环节也是数据汇集和后续开展治理的前提。目前个推的数据集成模块以标准化接入为主，通过Flume采集数据到Kafka集群，再由Camus进行消费然后落地到HDFS。相较于之前需要多团队协作才能完成的数据接入工作，现在数据分析人员仅通过个推数据集成模块即可完成相应的工作。此外，为了解决数据的异地互备问题，个推还研发了数据拉取、同步功能。核心的底盘数据会通过该功能，同步到多IDC机房和集群，这样一旦某一机房发生故障，业务还可以在其他集群进行正常运转。

安全管理

为保证数据使用的安全性以及授权工作的高效化，个推构建了用户维度的角色体系和数据维度的安全策略体系。管理员根据用户所需的权限，即可进行合理化的授权。

1）用户角色

用户角色的本质在于用户分组。我们将用户分成不同组，并赋予每个组的用户不同的权限等级。权限等级可根据人员的入职时间和岗位要求等予以设定，也可根据线上线下任务情况以及业务场景予以设定。

2）数据安全和策略

数据安全策略支持表、字段、行三种策略。表策略解决DB里相关的表是否可被使用的问题；字段策略解决表中字段是否可见及脱敏问题。个推通过去多重、去标识化的手段进行脱敏处理，有效解决了访问控制问题。

数据治理各阶段常见问题分析

数据查找阶段-表维度

在数据查找环节，我们会对用户设置归属组或者对数据进行打标。用户可以了解其所在组权限内的所有数据。这些数据基于访问热度，从高频到低频进行排序。根据28原则，20%的高频数据能满足80%工作需求。新员工就可以用最快的时间快速熟悉相关业务数据，数据源涵盖了Hive、HBase、MYSQL等介质。

表格上方设置了搜索框，支持表、路径、标签等维度的查询。如果发现所需数据后，我们可以进行收藏。在后续进行数据变更时，该治理平台可以及时通知使用方和收藏方；该平台也可以在新增数据资产时，根据用户使用数据的特点，进行新资产的推荐，从而提升数据使用效率，实现数据价值的最大化。

数据查找阶段-字典维度

除了表维度的查找方式，我们也提供了字典维度的查询。比如上图的地区字段，涉及到了40张表。我们只需要一键点击，这些表格就会自动按照热度进行排序。

数据学习阶段

数据的基本信息模块不仅包含字段说明、简要、生产程序、负责人、大小、标签、权限等信息，还提供对数据各字段的基本描述统计信息和样例展示。如果不满足于平台上已有的信息，我们可以通过该数据的基本信息模块找到数据生产负责人，进行进一步沟通、学习。

数据开发落地阶段

在数据开发和分析环节，个推数据治理平台支持查看数据大小、分区和文件数等信息。处理小量数据时，我们可以采用count(distinct *)方法，操作方便。但当处理百G或T级别数据量时，该方法就不奏效了。我们需要用group by 后再做count。

参照百度百科、维基百科等知识众包平台的理念，数据治理平台还提供了数据的实现逻辑、适用范围、更新历史和最佳实践板块。开发者在使用数据过程中就可以把数据的适用范围和最佳实践等信息更新到平台上。

数据链路的复杂性以及数据使用场景的多样性，会对测试和上线工作带来一定的挑战。为此，我们需要构建一个数据血缘模块，理清数据和服务的上下游。在此基础上，平台还提供了数据近期使用的频次信息，便于我们进行数据上下线的通知，也为后续数据生命周期的科学管理提供决策依据。

本文主要介绍了个推数据治理实践工作。作为拥有海量数据沉淀的数据智能公司，个推也将不断打磨自身技术，持续创新数据治理模式，与开发者一同分享数据治理实践的前沿理念与方法。

完整版分享材料获取

关注【个推技术学院】微信公众号

（微信号：getuitech）

回复关键词“数据智能”

即可领取数据治理实践完整版分享材料！

此外，通过视频链接还可观看本文配套解析：

http://live.vhall.com/221291802

万亿级数据，如何高效进行数据治理

个推

引用和评论

个推助力小米米家全场景智能生活体验再升级

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

智能问数技术路径对比：NL2SQL vs NL2Semantic2SQL

ClkLog埋点分析系统-环境部署配置指南

MCP+Hologres+LLM 搭建数据分析 Agent