简而言之,数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。
— 01 —数据目录的定义和类比
在上文我们简单介绍数据目录的定义,也就是使用元数据来帮助企业管理数据。接下来,我们使用图书馆作类比,带您详细了解数据目录。
当您前往图书馆查找某一图书时,您可以使用图书目录来查找该图书是否存在,了解它的版本、位置以及相关描述。您可以使用所有这些信息来决定是否真的需要这本书,了解如何找到它。
当今的许多对象存储、数据库和数据仓库就相当于一座座图书馆。
我们再回到图书馆和图书目录。现在,我们对图书目录进行扩展,涵盖整个国家的所有图书馆。想象一下,这样您就可以在一个界面中查找整个国家中储藏了您所需图书的所有图书馆,查找关于您所需的每一本图书的所有详细信息。
企业数据目录之于数据,正如图书目录之于图书。它可以为您提供一个整体视图,提供关于您所有数据的深度可见性,而不仅仅是一次只查看某一项数据。
您为什么需要这样一个视图呢?
— 02 —数据目录可以解决哪些问题?
与过去相比,想从如今前所未有的数据海洋中找到正确的数据更加困难。同时,关于数据的监管条例和法规(例如 GDPR)也比过去更多、更严格。在这一背景下,除了数据访问之外,数据治理也成为了一个严峻的挑战。您不仅要了解当前您所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据,还必须避免过多的数据层和封装,避免数据因太难使用而毫无用处。遗憾的是,很多企业和用户在查找和访问数据上面临着很多问题,包括:
- 需耗费大量时间和精力查找和访问数据
- 数据湖变成了数据沼泽
- 无通用业务词汇
- 难以理解“黑暗数据”的结构和类别
- 难以评估数据来源、质量和可靠性
- 无法捕获部落知识或丢失的知识
- 难以重用知识和数据资产
- 需手动和临时进行数据准备
— 03 —哪些用户应使用数据目录?
数据工程师、数据科学家、数据管理员和首席数据官等用户无不受到以上数据管理问题的困扰,无不希望能够轻松访问可靠的数据。他们面临的一些常见的挑战包括:数据工程师想知道任意更改将对整个系统产生哪些影响,他们可能会问:
- 我们 CRM 应用中的模式变更将产生哪些影响?
- Peoplesoft 和 HCM 数据结构有何不同?
数据科学家希望能够轻松访问数据并进一步了解数据质量,他们想了解以下信息:
- 从何处可以找到和查看一些地理位置数据?
- 如何轻松访问数据湖中的数据?
数据管理员负责管理数据流程,关注概念、利益相关者间协议以及数据生命周期管理。他们希望了解:
- 我们是否真的在改善运营数据质量?
- 我们是否为重要的关键数据元素定义了标准?
首席数据官关心哪些人在组织中做了哪些事,一般不使用数据目录。但是,他们仍然希望了解:
- 哪些人可以访问客户的个人信息?
- 我们是否为所有数据定义了保留策略?
有了数据目录,这些问题就能迎刃而解。
— 04 —数据目录使用场景
在过去几年中,随着需要管理和访问的数据的数量日益增长,数据目录这一概念开始流行起来。在这一切的背后,是云、大数据分析、人工智能和机器学习正逐渐改变人们查看、管理和使用数据的方式 — 不仅要管理数据,还要访问和充分利用数据。
数仓治理:数据地图长什么样?
使用数据目录,您可以更好地使用数据,获得以下优势:
- 节省成本
- 提高运营效率
- 增强竞争优势
- 改善客户体验
- 减少欺诈,降低风险
- 等等
这些只是数据目录的一部分使用场景。实际上,数据目录的使用方式多种多样。从根本上说,它的宗旨就是提供更广泛的数据可见性和更深入的数据访问支持。
1.自助分析
许多用户难以找到正确的数据,同时,除了查找数据外,他们还难以判断数据是否有用。例如,您可能会发现一个名为 customer_info.csv 的文件,而又恰好需要一个关于客户的文件。但这并不意味着它就是您需要的,它可能只是 50 个类似文件中的一个。同时,该文件可能包含许多字段,您可能并不了解所有这些数据元素代表什么。对此,您需要通过一种更简单的方法来查看数据的业务上下文,例如它是否是来自正确的数据存储的托管资源以及它与其他数据工件之间的关系。
数据发现还包括通过各种方式来理解数据的形态和特征,例如简单的值分布和统计信息,或者重要且复杂的个人身份信息 (PII) 或个人健康信息 (PHI)。
2.审计、合规和变更管理
随着关于数据的政府监管法规数量不断增长,企业经常需要证明数据的来源,例如特定数据工件的来源,或在实现最终目标之前进行了哪些数据转换;在查看表格、报告或文件时,数据用户通常也希望理解数据的具体来源以及数据通过各种方式在整个组织中的移动过程。同时,对于变更管理来说,一项重要任务就是查看数据管道中某部分的变更将如何影响系统的其他部分。这就是为什么客户希望详细了解数据沿袭的原因。
3.使用业务术语表增强数据治理
如今大多数企业都建立了一个所有人都认可的术语表,就业务概念达成了一致。通常,业务术语表记录在 Excel 工作簿中。其实,数据目录比 Excel 工作簿更适合存储和管理这一重要业务信息。
此外,数据目录还支持在业务术语之间建立链接,从而创建分类;可以记录业务术语与实物资产(例如表和列)之间的关系;可以帮助用户理解哪些业务概念与哪些技术工件相关;可以帮助用户按业务概念线对数据资产分类,随后直接使用业务概念(而不是技术名称)来进行数据搜索和发现。数据目录让用户可以看到与数据相关的所有内容,增强对所查看内容的信任度,为数据治理奠定一个绝佳的起点。
— 05 —如何充分利用数据目录中的数据?
许多人可能不熟悉元数据,我们有必要先介绍一些简单的概念。元数据是什么?元数据分为 3 类:
- 技术元数据:模式、表、列、文件名、报告名 — 源系统中记录的所有信息
- 业务元数据:通常指用户具备的关于组织资产的业务知识,包括业务描述、备注、注释、分类、适用性、评级等等。
- 操作元数据:这一对象的刷新时间?它由哪一个 ETL 作业创建?表格被访问次数有多少?具体有哪些?
面试,数据仓库的元数据包含哪些?
在过去几年里,这些宝贵的元数据的使用方式发生了一次细微的变革。曾经,元数据仅用于审计、来历追溯和报告。如今,无服务器处理、图形数据库等技术创新,尤其是全新、更加便捷的 AI 和机器学习技术正在突破元数据的界限,带来新的可能。
在今天,元数据可增强数据管理。从自助数据准备到角色和数据内容库访问控制,自动化数据打通,异常监视和警报,自动化资源供应和扩展等等,元数据可以全面增强所有这些功能。
数据目录可以使用元数据帮助您实现比数据管理更强大的功能。
— 06 —数据目录应当具备哪些功能?
一个优秀的数据目录应当具备以下功能:
①数据搜索和发现:
数据目录应当具备灵活的搜索和过滤选项,从而赋能用户快速找到相关数据集,以实施数据科学、分析或数据工程;按照数据资产的技术层级来浏览元数据。此外,如支持用户输入技术信息、自定义标签或业务术语,数据目录可以进一步改善搜索功能。
②从各种数据源收集元数据:
请确保您的数据目录可以从各种互联数据资产中收集技术元数据,包括对象存储、自治驾驶数据库、本地部署系统等等。
③元数据管理:
数据目录应支持主题专家通过企业业务术语表、标签、关联、用户自定义注释、分类、评级等形式来贡献业务知识。
④自动化和数据智能:
对于大规模数据,人工智能和机器学习通常必不可少。因此,数据目录应利用 AI 和机器学习技术来处理所收集的元数据,让所有可以自动化的手动任务都实现自动化。此外,人工智能和机器学习还可以切实增强数据功能,例如为数据目录用户以及现代化数据平台上其他服务的用户提供数据建议。
⑤企业级功能:
您需要利用强大的企业级功能来正确使用您至关重要的数据资产,例如身份与访问管理功能以及基于 REST API 的重要功能。同时,这还意味着客户和合作伙伴可以贡献元数据(例如自定义收集器),通过 REST 公开其应用中的数据目录功能。
除此之外,您的数据目录还应当成为事实上的系统目录,从而为所有持久层(例如对象存储、Hadoop、数据库和数据仓库)以及跨所有数据存储运行的查询服务提供抽象。
正是因为如此,数据目录已不再仅仅是锦上添花,而是成为了一项必不可少的工具。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。