在数据资产化初见成效后,接下来企业就需要落实数据共享和配套的数据分析工具,让更多业务部门或组织可以使用这些数据资源或数据资产。那么如何利用这些数据资产对内赋能业务运营、对外创造市场价值?本篇将介绍数据共享与分析、数据产品对内的业务运营和对外的价值创造。
— 数据共享与分析 —
在数据资产化初见成效后,接下来企业就需要落实数据共享和配套的数据分析工具,让更多业务部门或组织可以使用这些数据资源或数据资产,开始一些数据分析类工作,以及后续的数据产品开发工作。这个阶段的平台建设工作非常重要,它是打通数据服务能力的第一阶段,在不同的行业有不同的建设侧重点,一般包括面向特定业务部门以裸数据直接提供的数据集市、按照企业内多个业务属性规划的已经加工好大量数据服务的数据中台、面向数据分析人员提供的按需做数据探索并且有更严格的数据安全管理的数据共享平台或共享实验室,以及配套的分析工具平台建设如数据科学平台、BI分析工具等。
银行类企业的数字化建设从本世纪初左右开始,最早采用了基于MPP数据库的数据仓库的建设,配套重要的业务建设独立的数据集市,或者直接在MPP数据库中建设数据集市。随着数据分析业务的增加和数据科学类业务的兴起,银行业开始基于大数据平台来建设数据仓库或数据湖,再配套独立的数据实验室给数据科学团队做业务探索,为一些重要的业务部门(如监管、审计、风险等)建设数据集市,并且科技部门都在尝试建设数据中台,为零售、同业、对公等业务赋能。大型商业银行科技部门的系统建设都相对完善,也具备有较好的可参考性。最近几年,随着各个业务系统的复杂度和工作负载的持续增加,大型银行开始采用云原生的方式以多租户技术来做整体系统的资源管理,逐步形成了下图的整体数据共享分析的架构。
值得一提的是,由于部分数据分析业务可能会有临时性的对某些未加载到数据湖或仓库中的数据做整合分析或机器学习建模,近年来数据联邦分析技术又逐渐兴起,一般是通过一个支持数据联邦的SQL计算引擎为数据分析人员提供开发入口,而这个计算引擎可以同时对接包括数据湖和一些数据库在内不同的数据源,甚至可以支持两个不同数据库系统间的数据关联等计算任务。这种方式可以让数据分析人员无需关注底层数据架构的异构特性,而数据管理人员也无需针对各种临时的数据分析任务而将所有数据都事先整合到数据湖中,因此总体上提高了工作的灵活性。
从企业数据平台的建设视角来看,这个阶段的平台需要提供数据科学建模工具或平台,开放给业务部门按需的部署和使用;需要提供报表工具给数据分析人员,同时提供分析型数据库,从而提供数据集市的支撑能力。从数据管理的视角,数据平台建设方还需要建设系统来提供便利的数据出湖和数据导入集市的能力,并且在这个流程中落实数据的安全管控。如果业务部门的业务发展比较快,有大量Ad-hoc的数据分析任务,提供数据联邦分析的能力也是一个需要非常普遍的需求。
除基础平台的建设外,企业的业务部门需要建设数据分析的能力,以满足数据业务化的要求,这包括BI分析能力、数据建模能力、数据指标与标签开发能力。如果业务部门没有足够的分析人员可以建设这方面的要求,可以采用委托科技部门或外包等方式来建设这部分能力。
— 数据产品开发和对内运营构建数据中台 —
数据产品指的是已经完成各种数据加工、分析、建模之后形成的可以被业务应用直接使用的产品或应用,其物理上可以是包括数据API、数据指标标签、AI推理模型、数据集以及基础数据库在内组合而成的独立服务,有自己的开发和发布管控流程,有独立的技术架构要求和运维要求。在数字化程度比较高的行业,一些典型的数据产品落地案例如行业知识图谱、舆情分析产品、政府的一网通办类产品、金融行业的万德数据等。而在另外一些行业,即使其数字化起步较晚,但是由于数据赋能业务的链路比较短(如工业制造的智能运维和机器人质检等),或者受限于企业内的数据科技人员数量限制,更好的数据赋能业务的方式是直接提供一些数据产品给业务方可以直接使用,因此可以在规划的时候就及早开始做相关的投入。在我们的定义里,数据中台是承载数据产品的开发与运营的系统。数据产品的开发过程本质上就是一个软件开发配套数据开发与分析的过程,因此其过程管
理上可以采用软件过程管理的方法论,需要配合建设应用开发平台、CICD技术体系,以及用于最终数据产品发布与分发的平台(一般叫做应用市场)。一些企业会自建一个数据产品的开发平台,可以将各种数据报表、数据指标等内部数据,配合外采的一些分析报告或数据API,采用低代码或者无代码的方式将其组合为一个数据产品,并允许多租户的方式为不同部门提供SaaS服务。
Salesforce Einstein是一个非常成功的数据产品开发平台,它允许用户通过各种数据集或报表来定义自己的User Story,并且数据可以通过实时计算和AI驱动,每个用户都可以有自己的产品界面,无需关注底层的数据复杂架构。低代码平台是另外一个可以被用于数据产品开发的技术,它能够让用户快速完成数据驱动的流程设计、流程管理、审批过程控制、组织结构关联以及产品发布等过程,能够缩短从“一个想法”到“一个demo”的交付时间,可以用于一些时间要求比较紧迫的中小型数据产品的开发。
除了一些新型的面向交互式分析的数据产品,更多的还是常规的数据应用开发,即基于微服务或Java中间件等方式来开发的企业级应用,只是其这些应用的不再是用户点击驱动的流程变化,而是数据变化带动的状态机变更。对这类数据密集型的应用,其开发过程总体上还是常规的软件开发过程,需要有应用开发平台和CICD流程,需要有配套用于内部应用开发过程的质量管理、安全管理、配置管理等过程管理和流程。在应用的发布上,由于数据产品需要让企业不同区域的员工都可以直接使用,因此发布系统需要支持企业自身的多数据中心或混合云架构,甚至是边缘端。举个例子,在国内总部开发的数字化驱动的考核系统,需要能够运行在海外分支结构的数据中心内部;同样总部研发的新的运维模型,能够便捷的发布到终端的设备或工控机上,这要求应用开发平台有很好的应用发布能力。
在数据产品的运营上,企业可以通过建设一个数据应用市场让开发者和用户都能快速找到相关的数据应用或产品。这些产品可以按照面向SaaS或DaaS模式来区分,也可以按照面向最终用户、数据产品开发者、数据分析人员等不同的用户来区分,方便不同的用户按照其需求来发现和理解产品,也让更多的开发者和分析人员来贡献数据产品,从而逐步打通内部的运营闭环。
— 数据产品对外的价值创造实现数据资本化 —
数据要素市场是国家十四五的一个重要的数字化方向,对于一些数据资源非常丰富,或者本身是一个平台型运营的企业,亦或者是专门为数据要素市场设立的各地方数据交易所等,他们的企业数据产品不仅可以对内提高运营效率,还可以直接对外部企业或生态内企业赋能,直接创造数据相关的收入,将数据价值化更加直接的体现出来,达到数据资本化阶段,甚至可以并入企业财务报表中。
国外数据交易平台以企业建立为主导,有数据提供方供应数据、网络爬虫、政府公开数据、数据社区提供数据以及传统方式线下收集数据等数据来源方式。数据社区是若干个社会群体或组织聚集在大数据领域内形成的一个相互关联、相互沟通的大集体,通过数据社区可以及时了解用户需求,更新数据。国外数据社区为交易平台提供数据,促进了数据交易平台的发展,而国内此种方式较为少见。国外数据交易平台有Factual、BDEX、Azure、Qlik Data market等以企业自主建立平台为主。交易平台的产品类型有API、数据包、解决方案、数据产品、云服务等,且具有不同平台针对不同领域数据的独有性、专业性等特点。交易平台会对卖方数据进行筛选、分类等工作。
我国数据交易市场还处于初期阶段,并率先提出数据要素这一概念,数据在赋能其他要素后,其价值可以数倍发展。据相关数据预测显示,到2025年我国数据交易市场规模将达到500亿元,未来的市场规模还会更大。数据交易平台在交易过程中,首先要解决效率问题,比如一家企业需要数据资源,在传统模式下,需要对接不同的数据资源,效率不高,而通过数据交易中心平台,可以获得更多源的数据,对数据提供方而言,通过数据交易平台,可以找到很多个潜在的客户,同样也可以提升效率;其次是要解决合规的问题,数据交易中心是强监管的运营模式,其目的是确保在平台上交易的数据都是合规合法的。目前国内数据交易多是在政府为主导的数据交易平台进行。交易平台的产品类型有API、数据包、解决方案、数据产品、云服务等,平台交易数据类型种类较多,相对于国外数据种类多但不精。
一些平台型企业的供应链或者投资布局内有大量的生态企业,为了更好的完善供应链管理或者完善投资生态,一个比较可行的方式是构建一个系统性的数据驱动的应用平台,生态类企业在这个平台上按照管理要求来打通业务流程和数据交互,让各方直接做到业务和数据协同,这样平台型企业就可以基于数据的能力来做更多的业务优化,如优化供应链过程、发展供应链金融等新业务,提供企业的经营效率或开创新业务场景。一些典型的案例包括各地的产业集群、大型央国企、行业监管机构和被监管企业、投资性集团公司等,行业内都已经形成了一些典型案例。当然,平台企业和生态类企业的数据互通并不是直接的原始数据交换,而是基于类似数据交易所的企业间数据合规流通的方式,甚至是通过隐私计算等新技术来落地。
回到技术上,要完成这类业务价值也需要一个强大的数据共享运营平台来支撑,并且这个阶段的核心是建立信任,因此数据安全与合规是平台建设的重点。近年来行业也陆续摸索出来一些可行的落地实施方案,包括云上的数据沙箱和私有化的数据一体机,此外需要配套数据合规与隐私计算平台,解决数据流通中的数据合规问题。
数据沙箱是数据提供方向数据需求方提供的一套封闭的数据开发环境,满足企业内部和企业间的共享场景,通过数据库安全、数据内容安全、基础设施安全全方位保障数据可入不可出,解决提供方不愿不敢不能将数据开放给需求方使用的问题,实现数据在合规合法的条件下安全开放共享。
数据沙箱可以被用于企业内部的数据创新实验室、集团类企业对内对外的开放,以及企业间或数据交易所的开放场景中,而且需要配套一些跟数据产品本身敏感性相关的合规和安全管理策略,从而提供足够的安全性并满足合规要求。
随着对外共享开放数据集数量的增加,一级数据开发的范围扩大,企业需要建设数据安全与合规检测系统,可持续不断的对开发治理好的数据资源进行分类检测,为每份数据资源标记数据分类情况,标记数据的安全开放等级。同时,数据审计模块可对数据的使用进行详细审计,可回溯数据使用的全部记录。为了保障数据在存储和使用中的安全合规,该系统需要提供数据分类分级、数据安全策略中心、个人信息去标识化、数据监测与审计等几个核心能力。
为了实现数据业务安全合规,企业除了构建围绕数据生命周期的安全技术之外,需要有一个数据安全合规建设体系去指导相关部门进行落地。数据安全合规建议的流程机制如下:
首先企业要定期对数据资产进行分类分级,及时发现全量以及增量的个人敏感数据、重要数据等,对敏感数据的分布做到心里有数。然后要深入生产活动,对数据安全生命周期进行安全评估,发现数据安全风险并量化风险等级。基于上述步骤梳理的不同安全风险等级的数据,有针对性的进行数据安全能力建设,包括IT能力建设、组织与制度建设等。最后要形成一个持续的数据安全运营体系,包括日常的管理、监控、应急处置。同时还要持续的评估安全能力建设状况,查漏补缺,持续迭代,逐步达到安全合规。
— 小结—
我们用了三篇的篇幅介绍了从基础的数据存储算力、数据资产化、数据共享与分析、对内赋能运营和对外创造价值等五个建设阶段。至此,相信大家对构建企业数据平台各阶段的重点已心中有数。从下篇开始,我们将深入底层技术,为大家介绍几大主流的分布式技术,敬请期待。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。