原创 PD韩立 PowerData

专栏导语

在大数据这个充满科技与创新的领域里,我们常常被那些光芒四射的明星人物所吸引。然而,这个领域的繁荣发展,同样离不开那些默默付出、坚守岗位的平凡小人物。他们或许没有响亮的头衔和耀眼的成就,但正是他们的努力与执着,构筑了大数据领域的坚实基础。

数据人物专栏将带您走进这些平凡小人物的世界,了解他们的工作与生活,分享他们的故事与感悟。我们将看到,在大数据的浪潮中,他们如何用自己的方式影响着世界,成为这个时代不可或缺的力量。

让我们一起走进这些平凡小人物的世界,感受他们的热情与执着,见证他们在大数据领域的奋斗与成长。

本期人物

PowerData社区数据治理专家,DAMA中国会员,《人人都是产品经理》专栏作者,成于念、赛助力两位老师。

峥嵘岁月 初心不改

也记不清多少个日夜,我们一起探讨交流,甚至有些意见的碰撞。对于一些不清楚的地方,我们一起查资料,找文献,解决各种问题。当然在这个过程中我们俩也学习了不少,我们俩的友谊也更加深。(左成于念,右赛助力)

成老师和赛老师相识于某500强地产公司,在当时两位都在同一个数据治理项目中,不仅在工作上配合的相得益彰,私下也会经常交流探讨主数据和数据治理的问题。他们心心相惜,视对方为知己。

Q

&

A

赛老师,在第一次合作中和成老师都擦出了那些火花,促使二位决定走到一起,做一番事业?

我们计划一起合作,最核心的是拥有相同的愿景。我们当初一起在一个500强企业工作,成于念是一位热心肠的好同事,而我性格更平稳一些。在工作中经常会遇到很多难搞定的问题,相互出谋划策,经常发表自己的真实看法,我们发现价值观是一致的,久而久之,我们形成了一种默契;除了工作上和生活的事,我们经常讨论到一些更深刻的话题,比如关于理想、宇宙,甚至死亡,这些探讨,加深了我们对各自人生的认识。

我们经常讨论到的一句话"宇宙浩瀚无垠、生命渺小偶然,人生短暂,庸庸碌碌过完一生,不如留下点痕迹"。知己难寻,相同的愿景,促使我们一起协作,势必在数据领域做一些力所能及的事业。

成老师,怎么看待数据治理这项工作?

数据治理这个事情也是最近几年火起来的,虽然概念是舶来品,但是在国内还是各有各的定义。我认为数据治理不是一个很高深很难理解的事情,核心就是保障高质量数据持续产生价值,那么问题就在于如何落地,数据治理就是解决这么一个事情。

两位老师,数据治理的入手点该如何寻找?

 数据治理的入手是一个比较难的过程,很多朋友的企业经常聊到,公司很支持做数治理,领导也很支持,但在落地阶段,却不知道如何下手。我觉得可以从三个方面入手:

(1)最核心业务需求:梳理业务诉求,抓住最核心的业务诉求,找到关键人物。比如你建立供应商的数据标准化,这些数据满足哪些部门与领导的核心诉求,排列出优先级,先满足最紧迫的需求,短期内使价值最大化。

(2)落实责任制:需要关注数据的生产方和使用方。一个数据,生产方最先建立数据的标准,是否能够满足使用方的诉求,生产方一方面属于贡献者,同时还要受到使用方的监督,有时候会觉得“吃力不讨好”,这时候就要考虑权利与责任的平衡,数据贡献方是否在数据输出后有一定的奖励。

(3)关键人物入手:企业的数据管理工作因为涉及部门较多,推动难度是比较大的。在启动数据治理项目时,需要准确的找到企业内数据支持关键人物,协同共赢,完成业务目标的同事,将数据工作有序推进下去。

数据治理的入手点一定是要和业务场景关联的,大而全必定失败。因为企业最主要的目的是盈利创造利润,数据治理本质是为这个行为提供支撑,需要治理的数据一定是满足业务需求的,只是我们需要注意顶层规划,某些业务场景会有重复,那么一定要避免数据治理的工作重复开展,毕竟并不是所有人愿意花很多时间在这个事情上去。

总结就是:结合业务场景上的痛点,作为短期目标去治理,但长期规划也必须要清晰明确。

赛老师,我最近看到网上说数据治理工作像考古工作(原文:与其说是数据治理专家,不如说是考古学家…),您怎么看待这个说法。

这种像考古工作的说法,可能是基于数据治理的工作内容来讲的。数据治理最核心的两块工作,一块是新数据标准的建设,搭建新的标准体系。另一块工作量比较大的工作是对历史数据的清理,清理历史数据需要翻出旧账,还原历史数据当初的特征,需要透过一些以往的业务过程去识别,这就像考古的工作,需要透过现实特征,不断还原历史真相。但我个人更愿意把数据治理比作企业的一个自我修身的过程,数据已经成为新型生产要素,未来企业数据资产化势在必行,企业只要不断修炼内功,提升软硬件实力,才能在未来不被时代所淘汰。

成老师,就主数据统一标准和提升主数据质量这块,你有什么看法?

关于这个问题,我展开讲讲难点在哪儿以及对应的解决思路。

主数据标准统一难。主数据属于跨部门,跨系统的核心共享数据,各业务职能要对其数据颗粒度、数据维护时点、维护规则进行标准统一,正所谓“众口难调”。如房地产开发周期中从投资定案、土地获取、工规阶段、报规报建、预测阶段、实测阶段。如项目楼栋数据对于运营来讲土地获取之后就要创建,但对于营销来讲可能预售阶段才需要创建楼栋,那如何达成一致的标准时点呢,一般来讲则为“就早不就晚”,也就说我们建立的标准时点是以更早创建的时间点。数据的颗粒度来如果属于通用的颗粒度,则我们采取的原则是“就细不就粗”,因为一般来说细颗粒都可以通过自动汇总累加的方式,形成粗颗粒,而粗颗粒度数据,很难通过自动的方法进行合理有效的拆分,同时也要注意在主数据中统一主数据对象的颗粒度拆分的数据尽量保留唯一方式,保证主数据输出颗粒度标准唯一,减少因为颗粒度不一致导致的数据分歧。

主数据的数据质量难。主要体现在两方面:

第一本身主数据源头录入质量难以控制,这包含了主数据录入标准和要求需求清晰规范,需要有明确的录入指引的依据,以什么数据口径录入为准,就会反馈出数据的来源标准,对录入人员要有严格的培训及考核要求,另外数据来源方或者数据生产方都存在不统一的口径,甚至同一公司不同区域的标准有时都不一样,如果标准制定太严格,所有地方一刀切,这样会导致系统录入的数据与实际情况大相径庭,解决方案什么呢,核心还是要简化数据标准,求同存异,抓大放小的原则,关注最核心的数据质量问题,注意优化和完善标准,逐一解决。

第二,下游系统应用方式导致的数据问题,通常来讲当主数据源系统解决了录入问题之后,用户对数据质量的整体感觉可能并不高,因为用户真正应用接触的通常是业务系统,这些系统的架构设计可能因为历史的原因,存在很多的问题,甚至短期内是难以改变的,通常来说下游系统应用主数据有以下四种应用方式:

1)强制使用:下游系统对主数据做最直接强制使用,甚至是同一套后台数据库表,不做任何形式的调整和修改,该种方式是数据最强制的应用,对最能达成主数据口径统一的方式。

2)引入后不可修改:不做强制使用,下游系统使用主数据通过关联的方式,只作为一种必要的关联。该种方式一旦源头主数据修改或调整之后,下游系统可能存在更新核心属性,也有可能不更新,这里就会出现一定的数据及时性及一致性的问题。

3)引入且可修改:该种方式相比第二种更弱,即为数据做了关联,主要是从主数据编码层面做了关联,后台数据有绑定关系,但主数据引入后下游系统可以自行修改,甚至允许后续的解除绑定,这样的方式同样会造成上下游主数据不一致,导致数据质量问题。

4)引入未使用或未引入:该种方式其实是完全未统一使用企业级主数据的标准,这种方式应该从数据管理制度中明确规范和严格审计,发现这样的问题应该立即整改和解决,避免因时间越长,数据发生错误时导致企业经济损失。

     成老师,对于数据治理CDGA考试方面有什么可以分享的吗?

对于 CDGA 考试,全是单选题,个人觉得最重要的就是对概念的清晰理解和把握,因此许多东西确实是要“背”的。

对于重要章节,如数据治理、数据架构、建模与设计、元数据、数据质量、数据安全、数据仓库和商务智能等,应该较为全面的学习;而对于其它次重要章节,则一定要重视语境关系图,把每个知识领域的目标、原则、输入、活动、交付成果、参与人员、方法、工具、度量指标等搞清楚。这些知识点相当零碎,要想全背诵下来,还是不太现实的,但多看几遍你就会找到一些语感,考试时凭直觉不会犯重大错误;

正因为无法做到精确背诵,在考试时有些模糊的题目,尽量做到以第一感觉为主,不想太多;

做模拟题有一定的作用,确实有一些题目会押中,但比例不大,还是要靠学习为主,模拟题主要是帮助进行知识点回顾;

如果有一些信息系统相关的经验,有些题目对你来说就很简单了。例如数据建模相关的。

务必注意考试时间,我是等最后快没时间了才做完(毕竟有些题目还是举棋不定,耽误了时间,100道题目100分钟,需要快速做决定),后面十几分钟手忙脚乱地填涂答题卡,没有多少时间检查。

现在看,CDGA 还是相对简单的,相关概念清楚,配合一些经验和常识,即使没见过,也有一定的机率“蒙”对,为了提高这个机率,还是努力看书吧!(原文:数据治理CDGA考试重点70条(吐血整理!建议收藏!))(原文:DAMA中国 CDGA认证考试通关心得

两位老师呕心沥血的第一本著作《数据血缘分析原理与实践》已经快要出版了,你们为什么选择这个角度去做数据治理?

其实数据治理的方式方法有很多,我们是根据多年从业经验选择以数据血缘为入手点,以小见大,要打造一种全新的企业数据治理方法。

本书最大的亮点,就是给数据治理人一个全新的视角,比如数据血缘分为数据库、数据表,数据字段级别,三种级别针对的数据需求不同,侧重点不一样,企业可以根据自身实际情况选择。

本书主要就是讲解企业数据治理过程中如何使用该方法去解决一系列数据治理过程中遇到的难题,该书分为概念篇、建设篇、技术篇、治理篇和案例篇共五篇。

另外在建设部分,总结了针对数据血缘建设的六步法,每一步都详细讲解了需要做什么,如何去做,注意事项等等,完全可以从业务视角读懂,书里没有高大上的语言,全是实操者的心得体会。

关于两位老师的访谈到这里就结束了。成老师、赛老师都活跃在PowerData社区中,有数据治理相关问题以及大数据技术相关问题欢迎大家前来交流。

俗话说千金易得,知己难寻,我们在一生中会遇到许多人,但是称得上知己的能有几个。鲁迅先生曾说:“人生得一知己足矣,斯世,当同怀视之”。在这个利益至上,拜金主义横行的当下,他们的友谊显得弥足珍贵,最后祝愿他们的友谊天长地久!

你有故事,我有酒,

加入社区,交朋友。


PowerData
1 声望2 粉丝

PowerData社区官方思否账号