大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。
在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识。
随着互联网热潮的退去,互联网开始由消费互联网向产业互联网转移。这也让大数据开始在传统企业发挥作用。目前数据治理的相关岗位已经越来越多了。而有一定大数据技术基础,数据分析基础也更容易从事数据治理的相关岗位工作,待遇也是会提高很多。而数据相关从业人员也是数据治理的从业人员的主要来源,因为目前也没有直接大学毕业就从事数据治理工作的,也都是通过学习转过去的。
这是某大厂对于数据治理的岗位要求,大家可以简单看一下。而且目前很多公司对于数据架构师的要求,也包含了数据治理的相关能力要求。数据架构师一直都是未来一段时间高薪的岗位之一。
数据治理是什么?
当今数字化时代,数据扮演着至关重要的角色,因此数据治理变得越来越重要。数据治理可以理解为一套规范和流程,用于管理和维护组织内的数据资产。
数据治理的目的是确保数据的准确性、完整性、一致性和可靠性。它涵盖了数据的收集、存储、处理、共享和使用等方方面面。通过数据治理,组织能够规范数据的定义、命名和分类,确保数据的标准化和一致性。此外,数据治理还关注数据的质量,包括数据的准确性、完整性和可靠性,通过数据清洗和验证等措施,确保数据的高质量。同时,数据治理还涉及数据的安全和隐私保护,确保数据的机密性和合规性,防止数据泄露和滥用。
数据治理的重要性体现在几个方面。首先,数据是组织的重要资产,对于决策制定和业务运营至关重要。良好的数据治理可以确保数据的准确性和一致性,提高决策的可靠性和准确性。数据驱动的决策能够帮助组织更好地应对市场变化、优化运营和创新发展。其次,随着数据规模和复杂性的增加,数据的合规性和安全性成为关键问题。数据治理可以帮助组织确保数据的合规性,遵守相关法规和行业标准,减少数据泄露和风险。同时,数据治理还能提升组织的数据安全性,确保敏感数据的机密性和保密性。
此外,数据治理还可以促进数据共享和协作。在一个组织内部,不同部门和团队可能会使用不同的数据源和定义,导致数据不一致和冲突。通过数据治理,可以建立共享的数据字典和规范,促进数据的统一和协作。这有助于跨部门的沟通和协作,避免数据孤岛和信息孤立,提高组织的效率和创新能力。
数据治理是一种关键的实践,用于管理和维护组织内的数据资产。它不仅关注数据的准确性、一致性和可靠性,还关注数据的安全性和合规性。通过良好的数据治理,组织可以确保数据的质量和可靠性,支持决策制定和业务运营,提高效率和创新能力。在当今数据驱动的时代,数据治理的重要性不可忽视,它对于组织的成功和竞争优势具有重要的意义。
举个例子
让我们以一个跨国零售企业为例来说明数据治理的概念。
假设该跨国零售企业在多个国家经营,拥有在线商店和实体店面。该企业收集大量的数据,包括销售数据、顾客数据、库存数据等。在这种情况下,数据治理是确保数据管理和使用的一致性和可靠性的关键实践。
首先,数据治理包括规定数据定义和标准。在这个例子中,数据治理会明确定义不同类型的数据,如销售数据、顾客数据和产品数据等。例如,销售数据可能包括订单号、日期、销售金额等字段。这些定义和标准确保了不同团队和系统之间对数据的一致理解,避免了混淆和错误。
其次,数据治理关注数据质量和数据清洗。这意味着对数据进行验证、校验和清洗,以确保数据的准确性和完整性。在这个例子中,数据治理可以识别并纠正错误的销售记录,清除重复或不完整的顾客数据,以提高数据质量并避免基于不准确数据做出错误的决策。
此外,数据治理还涉及数据安全和隐私保护。对于跨国零售企业来说,数据治理需要确保顾客数据的机密性和合规性。这可能涉及采取安全措施来防止数据泄露和未经授权的访问,同时遵守适用的隐私法规和法律。
另外,数据治理还涉及数据访问和共享的控制。在这个例子中,数据治理可以确保只有经过授权的员工能够访问特定类型的数据,并设置访问权限和角色。此外,数据治理还可以建立数据共享的规则和流程,以便不同团队或部门之间可以安全地共享数据,促进合作和决策制定。
数据治理在这个跨国零售企业中起到关键作用。它确保数据的一致性、准确性和完整性,提高数据质量和可靠性。数据治理还确保数据安全和隐私保护,遵守相关法规和合规要求。通过数据治理,这个企业能够更好地管理和利用数据资产,支持决策制定、优化运营,并在竞争激烈的市场中取得成功。
如何入门呢?
入门数据治理并不容易,我们需要做大量工作,比如:
- 了解数据治理的基本概念:开始学习数据治理之前,了解数据治理的定义、目标和基本原则是很重要的。可以阅读相关的书籍、文章或在线资源,获取对数据治理的基本理解。
- 学习数据治理的最佳实践:研究数据治理的最佳实践和行业标准,了解成功的数据治理框架和方法。了解数据治理的关键组件,例如数据质量管理、元数据管理、安全与隐私保护等。
- 评估组织的现状:了解您所在组织的数据管理情况,评估现有的数据管理流程、数据质量和安全性等方面的状况。识别数据治理的痛点和机会,以确定改进的重点。
- 制定数据治理策略:基于组织的需求和目标,制定适合组织的数据治理策略和计划。这包括明确数据治理的目标、范围、流程和责任分配等方面。
- 建立数据治理团队:组建跨职能的数据治理团队,包括业务代表、数据管理专家和技术人员。确保团队具备数据治理所需的技能和知识,并负责推动数据治理计划的执行。
- 确定数据治理流程:制定数据治理的流程和规范,包括数据收集、存储、清洗、共享和安全等方面。确保数据流程符合数据治理策略和最佳实践。
- 实施数据质量管理:建立数据质量管理机制,包括数据质量评估、数据清洗和纠正、数据监控和报告等。确保数据的准确性、一致性和完整性。
- 采用元数据管理:建立元数据管理系统,记录和管理数据的定义、结构、关系和用途等信息。元数据管理有助于更好地理解和利用数据,并支持数据治理流程。
- 加强数据安全与隐私保护:制定数据安全策略和措施,确保数据的机密性、完整性和可用性。同时,遵守相关法规和合规要求,保护用户的隐私。
- 持续监控和改进:数据治理是一个持续的过程。建立监控机制,定期评估数据治理的绩效,并根据评估结果进行改进和优化。
可见数据治理要学习的东西非常多。所以学习数据治理应该理论与实践并行。
理论上,国际上,主流的数据治理框架主要有ISO数据治理标准、DGI数据治理框架、DAMA数据管理框架等。对国际主流数据治理框架的理解有助于我们建立符合企业自身业务需求的数据治理体系。
DAMA(国际数据管理协会)是一个由全球性数据管理和业务专业的志愿人士组成的非营利协会,致力于数据管理的研究和实践。其出版的《DAMA数据管理知识体系指南》(简称DAMA-DMBOK)一书被业界奉为“数据管理的圣经”,目前已出版第2版,即DAMA-DMBOK2。
国内数据治理在数据治理框架和标准体系的研究方面,国内起步相对较晚,目前主要有GB/T 34960和DCMM两个标准。
GB/T 36073—2018《数据管理能力成熟度评估模型》(Data Management Capability Maturity Assessment Model,DCMM)是在国家标准化管理委员会指导下,由全国信息技术标准化技术委员会编制的一份国家标准,于2018年发布并实施。
DCMM按照组织、制度、流程、技术对数据管理能力进行了分析和总结,提炼出组织数据管理的8个过程域,即数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准、数据生存周期。
DCMM将组织的数据能力成熟度划分为初始级、受管理级、稳健级、量化管理级和优化级共5个发展等级,以帮助组织进行数据管理能力成熟度的评价。
目前最权威,也最接地气的,还是DAMA数据管理体系,这也是大家在学习数据治理的时候,为什么会频繁的听到DAMA相关词汇的原因。
作为最权限的数据治理框架,我们只要掌握了DAMA相关知识,最结合实践。做到数据治理的最基本入门是没有问题的,在经过几年企业中的积累,您也可以成为数据治理专家。
理论学习
理论学习方面建议参加CDMP国际数据治理认证考试,有一个证书确实对于证明你在数据治理相关领域的专业度很有帮助。
其实现在关于数据治理的认证很多,我之前也分享过一些。比如某数据治理认证、某某数据管理师认证等等。
由于目前我们国家工信部还没有出大数据或者数据治理的专业资格认证,类似于注册**工程师这种,所以现在比较权威的数据治理认证还是国际的数据治理认证,这个国外国内都是比较认可的。
DAMA数据管理专业认证CDMP
也请大家一定要记住这个拼写CDMP,这个才是国际专业的数据治理认证。
一共分为四级,当然大部分公司对于等级没有要求,拿到A级就是很高的水平了。
这四级的区别如下:
目前招聘企业对于CDMP的认证也逐渐增多了起来,其中对CDMP证书有了直接的要求。
证书长成这样:
通过考试的方式推动自己学习,在拿证的同时,学会相关理论知识也是非常重要的。
实践学习
如何开展数据治理要走顶层开始,从业务端入手。但对于新手,更应该关注的是数据治理的实际工作。
元数据管理是数据治理的起点。
简单地说,元数据管理是为了对数据资产进行有效的组织。
它使用元数据来帮助管理他们的数据。它还可以帮助数据专业人员收集、组织、访问和丰富元数据,以支持数据治理。
三十年前,数据资产可能是 Oracle 数据库中的一张表。然而,在现代企业中,我们拥有一系列令人眼花缭乱的不同类型的数据资产。可能是关系数据库或 NoSQL 存储中的表、实时流数据、 AI 系统中的功能、指标平台中的指标,数据可视化工具中的仪表板。 现代元数据管理应包含所有这些类型的数据资产,并使数据工作者能够更高效地使用这些资产完成工 作。
所以,元数据管理应具备的功能如下:
- 搜索和发现:数据表、字段、标签、使用信息
- 访问控制:访问控制组、用户、策略
- 数据血缘:管道执行、查询
- 合规性:数据隐私/合规性注释类型的分类
- 数据管理:数据源配置、摄取配置、保留配置、数据清除策略
- AI 可解释性、再现性:特征定义、模型定义、训练运行执行、问题陈述
- 数据操作:管道执行、处理的数据分区、数据统计
- 数据质量:数据质量规则定义、规则执行结果、数据统计
目前主流的元数据管理平台,包括Atlas,Datahub等等。以下是功能对比。
这方面的学习要以实践为主,多动手才能更熟练的掌握。
当然目前各种数据治理的开源框架层出不穷,我也一直在保持关注。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。