PowerData

编者荐语:

PowerData数据之力技术丛书首本书籍,首本国内作者编写的数据血缘图书:《数据血缘分析原理与实践》

以下文章来源于大数据流动 ,作者独孤风

[

大数据流动 .

专注于大数据 数据治理 人工智能知识分享;提供数据要素 数据空间 数场 数据资产 数据入表 数字化转型 数据管理 数据架构 实时计算 数据中台 数据仓库 数据湖 元数据管理 DAMA资料;定期组织CDMP培训;开源&技术&数据

](#)

在复杂的社会分工协作体系中,我们只有明确个人定位,才能更好地发挥价值,数据也是一样,于是,数据血缘应运生。

数据血缘的概念随着近期数据要素与数据资产入表的发展,越来越多的被数据从业人员关注。其对于数据关系的探查能力,对于数据开发、数据分析、数据管理、数据治理、数据资产价值评估等工作开展,均有着非常重要的推动作用。

数据血缘的重要性毋庸置疑。但目前业内对于数据血缘的系统化介绍较少。PowerData社区之前发过几篇数据血缘相关文章,详见下方链接:

【实战讲解】数据血缘落地实施

【技术分享】元数据与数据血缘实现思路

数据治理中Oracle SQL和存储过程的数据血缘分析

数据血缘分析~全网最全原创精华(建议收藏)

统一数据治理平台OpenMetadata 1.4.0版本发布!数据血缘、高级数据质量报告功能发布!

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

文章的内容都是较为分散和浅显的,无法详细讲清数据血缘的概念、建设落地、框架模型、技术实现、现有产品、应用场景、深度实践、建设案例等。

所以,你需要一本书,一本好书,一本系统化介绍数据血缘的书,带你深入走进数据血缘的世界,学会数据血缘、建设数据血缘、用好数据血缘。

接下来为大家隆重介绍来自PowerData数据之力技术丛书的首本书籍,也是首本国内作者编写的数据血缘图书:《数据血缘分析原理与实践》 作者:成于念、赛助力

这是一部可以帮助读者从0开始理解、建设并深度实践数据血缘及其系统的专业指导手册。全书所有内容均来自两位作者长期在世界500强企业从事数据相关工作的经验总结,书中不仅从原理层面带领读者深挖数据血缘本质,还从实践层面对数据血缘的建设方法、核心技术、主流工具、在数据治理中的应用、典型行业应用案例进行了全方位剖析。

书籍整体内容如下:

一、概念篇:理解数据血缘的基础

1.1 企业面临的数据问题

在概念篇中,作者首先从企业面临的主要数据问题入手,逐渐延伸到对数据血缘的相关定义、特征、价值,以及数据组成的深度解读。无论是互联网行业的严峻数据安全挑战,还是能源化工行业的数据共享互通能力不足,或者是零售行业的数据分析需求,本书都详细剖析了这些问题,并提出了数据血缘作为解决方案的潜力和应用前景。

1.2 数据血缘的基本概念

什么是数据血缘?数据血缘分析又是什么?这些基本概念在本书中得到了详细阐述。数据血缘是指数据从来源到目的地的流动路径及其间的关联关系。通过数据血缘分析,企业能够追踪数据的来源、变更和流转情况,确保数据的完整性和准确性。

1.3 数据血缘的特征与价值

数据血缘具有多个特征,包括数据的历史性、关联性、可追溯性等。本书从多个维度深度解析了数据血缘的价值,如破除数据质疑、快速评估数据变更影响范围、数据资产价值评估等。这部分内容是真正落地数据血缘项目的基础,帮助读者充分理解数据血缘的本质和应用场景。

二、建设篇:构建数据血缘的实践指南

2.1 “1355”框架模型

建设篇展示了一个可落地的数据血缘框架模型——“1355”框架模型,即1个周期、3种实体、5个类型、5个层级。这是数据血缘建设的基础模型,为读者提供了一个全面、系统的建设蓝图。

2.2 数据血缘实施路径

在详细介绍数据血缘实施路径时,作者列举了可能会面临的问题、具体建设方式和步骤。例如,如何确保血缘质量、实施路径清晰,以及如何自动解析数据血缘关系等。这些实际操作指南将理论与实践相结合,帮助读者在实施过程中少走弯路。

2.3 具体建设步骤

明确数据血缘目标、制定需求范围、构建系统、完成数据血缘收集和初始化、实现数据血缘的可视化,这些步骤详细展示了如何一步步构建一个有效的数据血缘系统。

三、技术篇:深入探讨数据血缘相关技术

3.1 数据血缘应用场景

技术篇重点介绍了数据血缘相关技术和产品,以及其在数据治理中的主要应用场景。作者分析了数据开发、数据资产管理和数据安全等多个场景中的数据血缘应用,提供了实际操作中的技术参考。

3.2 核心技术与产品

数据采集技术(如ETL技术、SQL解析)、数据建模(概念建模、逻辑建模、物理建模)、数据可视化技术以及其他相关技术(如数据挖掘、区块链、人工智能、大数据技术),这些技术在书中都得到了详细介绍。此外,作者还介绍了9款主流的数据血缘产品,如Apache Atlas、LinkedIn的数据平台、马哈鱼数据血缘平台等,帮助读者了解市场上的主流工具。

四、案例篇:典型行业的数据血缘实践

4.1 行业案例分析

案例篇分享了互联网、服务、制造、零售快消等行业中的数据血缘建设案例。例如,字节跳动、Airbnb、Amazon、Netflix、Uber、通用电气、西门子、沃尔玛、Zara等全球知名企业的数据实践。这些案例为读者展示了数据血缘在不同企业和行业中的具体应用情况,提供了宝贵的经验和启发。

4.2 实践中的挑战与解决方案

每个案例不仅展示了成功的经验,也探讨了在实践中遇到的挑战及其解决方案。例如,如何确保数据血缘的准确性、如何应对数据源的复杂性、如何实现跨部门的数据协作等。

《数据血缘分析原理与实践》一书作为PowerData数据之力技术丛书的首本书籍,优质的创作内容离不开两位作者和孙海亮编辑的持续贡献。PowerData将会持续为数据&IT行业种优秀书籍的出版发行提供专业且富有深度的内容保障~


我们是由一群数据从业人员,因为热爱凝聚在一起,以开源精神为基础,组成的PowerData数据之力社区。

如果你也想要加入学习,可关注下方公众号后点击“加入我们”,与PowerData一起成长!


PowerData
1 声望6 粉丝

PowerData社区官方思否账号