主要观点:数据治理在数据工程中曾是最不吸引人的部分,常被视为繁文缛节,直到出现合规问题才被重视,而 Unity Catalog(UC)填补了这一治理空白。
关键信息:
- 数据工程师专注于构建、设计等,治理常被忽视,导致合规问题暴露,治理体系脆弱。
 - UC 是 Databricks 的统一治理层,是跨 SQL、机器学习和 AI 工作负载的单一控制平面。
 - 步骤包括创建目录和模式、注册数据表、定义用户组、应用细粒度安全、处理血统和元数据等。
 - UC 能将数据与元数据统一,确保数据可发现、可信和可消费。
重要细节: - 定义 3 级命名空间(目录、模式、表)来组织数据。
 - 通过注册表将现有数据集纳入 UC 治理,如为 Bakehouse 数据集创建相关表。
 - 定义反映实际工作家族或功能的用户组,与身份提供程序集成进行基于角色的访问控制。
 - 支持列掩码和行过滤器,为不同用户组提供不同访问权限,如为分析师掩码客户电子邮件。
 - 在 Catalog Explorer 中可探索元数据和血统,UC 中的描述可由 AI 驱动生成,Lineage 标签可提供数据流向的可视化地图。
 
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。