80/20法则是计算机领域经常见到的现象,比如一个软件80%的时间只是在运行其中20%的代码,或者计算机芯片CPU只有20%的时间在做计算,其他80%的时间在休眠或者等待其他操作。

在数据分析特别是商务智能(BI - Business Intelligence)中同样存在类似的情况。在企业中,常常需要根据积累的数据来制定商业决策,最常用的方式是制作各种报表为企业管理人员提供决策支持。这里的80/20现象就是人们发现80%的时间花费在报表系统的开发构建上,而真正使用报表的时间只有20%。或者总的来说,80%的报表只有20%的人看。

通常的流程是:

管理层提出初步报表需求 -> 开发部门实现报表
-> 管理层提供反馈或者需要加入新数据 -> 开发部门完善报表
-> 管理层得到最终版本的报表进行商业决策

通常一个流程需要一至两个星期的时间,耗费的开发成本和时间成本比较高,有时候开发时间过长甚至会对商业上的决策造成拖延。

解决这个问题的办法就是打破80/20法则,甚至颠倒其中的比例,比如将开发报表的时间缩减至20%,进而让80%的时间花费在使用报表上。这也是进几年流行的自服务数据报表系统(Self-Service BI)。

要达到这个目标,有一些技术挑战:

  1. 方便易用的数据可视化工具

  2. 强大灵活的数据模型构建工具

  3. 集中管理的企业虚拟化数据仓库

解决以上技术挑战之后,整个企业的数据可以物理上存放在不同的地方,但是有一个统一的访问路径,开发人员定义好数据模型之后,企业管理人员或者非技术人员可以使用傻瓜式的数据可视化工具,自己选取想要查看的数据,进行数据分析。新的报表流程简化为:

管理层提出报表数据需求 -> 开发部门建立数据模型 -> 管理层自己查看数据

完成这个改造后的流程之后,当有新的报表需求,开发人员所需要的工作仅是创建和维护数据模型,从企业角度,报表开发时间降低到20%,而80%的时间是用户在使用报表系统。

由于篇幅所限,这里就不展开对这些技术的具体阐述了。有兴趣者可以联系作者进一步交流(boyang798@gmail.com)。

现在国内有些公司已经开始在这个领域做了扎实的基础工作,比如数据可视化工具已经比较成熟,数据仓库也有公司在做底层数据平台,在数据模型构建工具方面,目前还不是很成熟,希望未来有更多的公司进入这个领域,提供成熟的解决方案。


扫描微信二维码联系作者
扫描微信二维码联系作者


BoYang
132 声望9 粉丝

Big Data, SQL on Hadoop