第一章 数据治理服务概述
在传统的数据共享服务模式下,各业务部门通过数据共享平台获取了其他部门的原始数据需要自己进行数据检测、清洗、加工、分析等操作,给数据的直接应用增加了成本,因此,数据治理服务体系可以很好的解决类似的问题,数据主管单位在给各业务部门提供数据服务的同时,提供数据治理服务可以直接满足应用的需求。
数据治理服务按照服务的复杂度可以分为基础数据治理、高级数据治理、深度数据治理三类。包括咨询规划服务、数据标准服务、数据质量服务、数据加工服务、数据安全服务、数据开发服务等,可以提供全链条数据治理服务体系,实现为业务需求单位提供“点菜”式服务。
第二章 数据治理痛点分析
2.1 无干扰数据采集
有些单位以生产系统不能被干扰为由,拒绝采集本单位的数据,制约了数据采集服务的开展。为保证数据采集过程中不对采集单位的业务系统造成影响,保证其业务开展的持续性和稳定性,需要通过更先进的采集手段(如基于数据库日志解析)实现对该单位生产数据库的无干扰采集,从根本上打消数据提供方的应用安全顾虑,保证数据采集工作的顺利、高效开展。
2.2 跨网络数据交换
数据共享交换面向全省所有政府部门,长期以来,各部门由于业务发展需要和信息安全需要,建立了不同的网络体系,互联网、电子政务外网、电子政务内网、行业专网多种网络环境并存,这些网络之间或者物理隔离或者逻辑隔离,给数据共享工作带来了较大的困扰,通过底层网络环境的技术手段,实现跨网络的数据资源共享,成为数据共享的一大难题。
2.3 敏感信息请求服务
信息中心内网存放具有一定机密性和隐私性的数据,由于数据敏感等原因,无法直接通过交换方式共享。因此,只能以服务接口或应用系统的方式开放,通过请求服务系统将请求和应答全部转换为XML等标准格式文件在网络中交换,以此保证交换双方应用系统的安全。
2.4 数据清洗整合
信息中心内网采集到的外单位数据格式多种多样,为更好的服务于业务的开展,需根据规则对采集的数据进行清洗、转换、整合,形成符合需要的数据格式。
第三章 数据治理服务内容
3.1 咨询规划服务
咨询规划服务是依据业务需求进行顶层设计规划,形成综合性建设方案或者调研报告的服务。目前可以提供的咨询规划服务包括数据治理规划设计服务和主题库设计服务。
● 数据治理规划设计服务
依据政务部门需求对部门信息资产进行调研,结合客户需求根据调研情况形成治理服务规划,提供数据治理规划设计方案。
● 主题库设计服务
对国家、省级、市级相关政策动态剖析,依据本地业务需求和规划,提出主题库规划设计方案,并形成数据主题库设计规划方案。
3.2 数据标准服务
根据业务需求对数据标准进行梳理并维护。目前可以提供的数据标准服务包括数据标准管理SAAS服务、数据元标准规范梳理服务、政务标签库与政务主题词库服务、数据安全标准规范梳理服务等。
● 数据标准管理服务
服务可以实现根据业务需求对各类政府标准的规范管理,比如:数据元标准规范、敏感数据标准规范、数据字典标准、数据分类标准规范等,是一种基于政务云的SAAS服务,服务可以提供包括标准的填报、标准的管理、标准的检索、标准的查看等功能。
● 数据元标准规范服务
数据元是通过定义、标识、表示以及允许值等一系列属性描述的数据单元。通过对数据元及其属性的规范化和标准化,不同用户可以对数据拥有一致的理解、表达和标识,可以有效实现和增进政府内部的数据共享,以及面向社会的数据开放。
● 政务标签与政务主题词库服务
标签是人为定义的高度精炼的特征标识,用来标识产品的内容、属性、特征等关键点。数据资源的标签是对数据资源标识标签,各种类型的数据资源具有不同的主题、内容和特征,通过对数据资源标识标准的标签能够方便人们理解数据资源包含的行业领域、数据概况、内容主旨、面向对象等等信息,并便于实现机器处理数据资源的分类、管理、查找、筛选以及初步的分析和挖掘等工作。
● 数据安全标准规范服务
根据国家法律法规、相关文件及标准梳理数据安全标准,并对数据安全标准进行管理。
3.3 数据质量服务
数据质量服务包括数据目录质量检测、数据资源质量检测、数据清洗服务。数据检测是按一定的规则对数据问题的识别与评估,通过对政府业务数据的梳理,形成一套完整的数据质量检测体系,依据该数据标准体系可以设定数据检测规则,从而自动检测出数据问题并记录,检测的结果可以通过检测报告、电子表格、可视化图表、网页大屏等多种形式展示。
● 数据目录质量检测
按照《政务信息资源目录编制指南》及相关标准,对数据的目录填报情况进行质量的检测,对检测的结果形成数据目录填报情况质量检测报告,形成存在问题的清单列表,并对相关问题给出合理化建议。具体的目录质量检测的规则包括数据的部门覆盖面、数据的主题覆盖面、数据的填报完整度、数据的填报规范性等等。
● 数据资源质量检测
数据资源质量检测是依据相关数据元标准按业务需求对数据质量做检测,发现空值、错误、异常、不符合标准、冲突等问题,并输出检测报告。数据的检测结果通过数据检测报告的形式输出,检测报告会详细的描述检测中出现的问题以及问题类型,对检测问题统计分析,并通过可视化图表等方式展示检测和分析结果。对检测出的问题,能够通过清洗、加工操作解决的,给出清洗、加工建议。数据检测报告的输出在一定程度上反映数据系统的应用使用情况,督促各单位提高数据质量。
● 数据清洗服务
数据清洗服务是基于数据检测的结果对数据质量做的提升工作。政府数据可能含有噪声、格式错误、数值超限、不完整、不一致等各类问题,数据清洗可以填补空缺数据、识别错误、消除噪声、纠正数据中的不一致。
3.4 数据加工服务
数据加工是在不改变数据逻辑的前提下进行,对数据做的适当加工修改,以更好的利用数据价值,拓展数据的应用范围。数据加工服务包括数据集成服务、坐标拾取服务、地址标准化服务、数据转结构化处理服务。
● 数据集成服务
调研业务需求,根据业务需求,对数据进行集成服务,包括整合、拆分、规约、逻辑变换等操作。最终形成数据集成服务报告和集成后数据资源。
● 坐标拾取服务
按照相关地图标准,将文字地址转换成经纬度信息,将经纬度信息按照要求完成入库处理。最终形成坐标拾取服务报告和坐标拾取数据库。
● 地址标准化服务
按照相关地址标准,对不规范的地址进行标准化处理,将标准地址数据完成入库处理。最终形成地址标准化服务报告和标准地址数据库。
● 数据转结构化处理服务
可以实现对文本识别和结构化处理、图像识别与结构化处理、音频识别与结构化处理、视频识别与结构化处理等服务。最终形成数据结构化处理服务报告和结构化数据库。
3.5 数据安全服务
数据安全服务是对数据安全问题的保障,其主要包括数据安全检测、数据的脱敏脱密、数据的分层分级等服务。
● 数据安全检测
针对数据安全性,制定了敏感数据标准,该标准包含敏感数据的定义、敏感词库的定义、黑白名单的定义等。数据安全性检测则是通过以上规则对数据资源进行安全的评估分析。可以按照数据安全标准、国家法律法规,对数据进行安全性的检测,将检测结果生成检测报告,将主要问题形成清单,并根据问题给出合理化建议。
● 数据脱敏脱密服务
数据脱敏又称数据漂白、数据去隐私化或数据变形。脱敏规则,一般分为可恢复与不可恢复两类。数据脱密是对关键数据的屏蔽删除操作,例如实现对关键数据记录的删除,对关键数据项的屏蔽等等。服务可以按照数据脱敏脱密规则,完成数据的脱敏与脱密服务,将脱敏脱密规则及数据处理过程形成服务报告,将脱敏脱密后的数据完成入库处理。
● 数据分级分层服务
数据资源分类、分级是政府数据共享和公开数据开放的基础性工作,目的在于明确数据的范围边界和使用方式,清理数据管理及共享开放的义务和权利。在依法加强安全保障和隐私保护的前提下,稳步推动公开数据资源共享开放。该项服务可以按照业务需求,依据数据分级分层规则,完成数据的分级分层管理,将分级分层规则及数据处理过程形成服务报告,按照分级分层后的数据完成入库处理。
3.6 数据开发服务
数据发布服务包括数据集共享服务、数据共享接口服务、数据集开放服务、数据接口开放服务。
● 数据集共享服务
数据集共享服务主要面向政府共享数据,实现共享数据的资源挂接发布。
数据集共享服务主要负责按照标准格式梳理、清洗、加工政府数据资源;负责数据目录编制与管理;负责数据库设计与录入,目录挂接;负责数据集共享门户上线与测试。
● 数据共享接口服务
数据共享接口服务主要面向政府共享数据,实现共享数据的接口的二次封装开发发布。
数据共享接口服务主要负责政府数据接口梳理、接口的确认;负责数据目录的编制与管理;负责数据接口封装、接口调试、压力测试、接口备案;负责数据接口的安全规范管理;负责数据接口共享门户上线与测试。
● 数据集开放服务
数据集开放服务主要面向政府开放数据,实现开放数据的资源挂接发布。
数据集开放服务主要负责按照标准格式梳理、清洗、加工政府数据资源;负责数据目录编制与管理;负责数据库设计与录入,目录挂接;负责数据集开放门户上线与测试。
● 数据接口开放服务
数据开放接口服务主要面向政府共享数据,实现开放数据的接口的二次封装开发发布。
数据开放接口服务主要负责政府数据接口梳理、接口的确认;负责数据目录的编制与管理;负责数据接口封装、接口调试、压力测试、接口备案;负责数据接口的安全规范管理;负责数据接口开放门户上线与测试。
3.7 定制化服务
围绕客户业务需求,根据实际数据情况,进行定制化数据服务。可以提供解决方案、分析报告等多类型服务。
第四章 数据治理常见问题
4.1 字段缺失问题
字段缺失一般是指关键字段的缺失,关键字段可能是主键、主要属性、必填项等。字段缺失产生的几种原因及解决办法如下。
1、数据产生环境中没有设计该字段。如“社会统一信用代码”在很多系统设计时还没有要求,但是系统建设完成后才发现该字段的重要性。对于这种情况,一般都通过完善或升级系统的方式来补全字段:对于系统新生成数据,该字段作为必填项;对于系统存留数据,需要重新填报或者寻找第三方数据补全,这里会用到数据的比对和关联,可以依照其它关联字段作为关联依据来补全历史数据。
2、在数据源头对该字段做了屏蔽处理。在数据交换、共享、开放等场景下,数据源头可能对一些敏感字段做了屏蔽处理,这种情况下需要人为协调来处理。
3、数据流转过程中的操作失误造成字段遗失。在数据的使用、流转过程中,如系统升级、人为操作等造成数据字段遗失,如果不能通过技术手段恢复数据,也会造成字段缺失。这种情况的字段遗失,要根据具体情况来寻找数据恢复办法,入从数据源重新调用、根据字段特征补全等,具体补全的方法在“数据规范性问题及解决办法”中会详细说明。
【处理步骤】
1、业务分析,对缺失字段做分析,确认是必填项还是选填项。
2、对于必填项字段,梳理数据元标准,建立缺失字段处理规范。
3、依据缺失字段处理规范和字段关联特征、数据来源等,建立处理机制。
4、对于具有业务性的个别缺失字段,需要人工填写;对于分析场景下的缺失内容填充,通过相似填充、统计填充、分析填充等方法来填写近似值;对于具有关联性字段的缺失字段,通过关联字段来寻找第三方数据表中的对应字段进行填充。
5、填充完成后,进行数据检测,对填充后的字段做规范化处理。
4.2 值缺失问题
值缺失是指在数据表中可以看到该字段的存在,但是该字段对应的数据值不可见或者全部为空。值缺失的产生原因与字段缺失大体一致,可参照字段缺失的解决办法。
【处理步骤】
1、业务分析,对缺失值做分析,确认是必填项还是选填项。
2、对于必填项字段,梳理数据元标准,建立缺失字段处理规范。
3、依据缺失字段处理规范和字段关联特征、数据来源等,建立处理机制。
4、对于具有业务性的个别缺失值,需要人工填写;对于分析场景下的缺失内容填充,通过相似填充、统计填充、分析填充等方法来填写近似值;对于具有关联性字段的缺失值,通过关联字段来寻找第三方数据表中的对应字段进行填充。
5、填充完成后,进行数据检测,对填充后的值做规范化处理。
4.3 业务数据真实性问题
业务数据真实性用于度量哪些数据和信息是不正确的。在符合数据规范的前提下,有些数据值存在逻辑或常识性错误。对于不符合准确性的问题,要具体问题具体分析,从业务上来讲,通常是采用重新采集、录入、与其它数据比对的方式来修改;从技术上来讲,可以通过数据方式进行近似或模拟,详细方法可参照升级数据质量处理算法。
1、值错误可能是在数据录入、数据采集过程中输入错误产生的。比如数据录入的比较随意或者没有按照实际情况进行填报。
2、值异常(噪声值)是指在满足数据规范性的前提下,不符合常识或者实际情况的数据值。噪声值大多出现在数值型字段中,可以通过数学方式来发现,发现后可以通过降噪等数据算法来处理。对于有业务要求的,可以按照业务规范进行修改。
3、相关性错误存在于具有关联性的字段之间,有些字段之间具有一定的相关性,如身份证号和生日、年龄、性别等具有相关性,可以作为相互之间的验证。对于相关性错误,需要具有业务基础或标准规范,并通过标准规范来做字段关联关系的约束进行检测和发现。
4、格式异常,格式异常的情况如字段与字段值对应错位。参见上一章节字段移位调整。
【处理步骤】
1、数据检测,识别可能出现的真实性错误,数据检测包括数据的物理检测和逻辑检测两部分。物理检测是指字段存在的格式、值域、字典等错误,逻辑检测是指多个字段间存在的相互推导、关联等关系。
2、问题分析,分析数据真实性问题。
3、问题整理,对真实性问题进行分类,并整理出对应解决策略。
4、问题处理,选择对应的解决策略,处理数据真实性问题。
6、处理完成后,检测是否符合相关规范。
4.4 业务记录重复问题
1、记录完全重复是指存在两条或以上的记录,其中的各个字段(包括ID等)的值均相同。对于完全重复的记录,只保留其中一条即可。
2、关联字段值重复。两条或以上记录中,其中要求唯一的字段存在重复,其它字段值存在不同。产生这种情况的原因可能是数据合并、数据更新等情况下没有完全按照字段唯一性的要求进行处理。处理唯一字段值重复的情况,可通过如下几种方法:选择辅助字段,以辅助字段作为标准,保留辅助字段符合标准的记录。根据数据源,保留来自某个数据源的记录。
3、字段重复。字段重复是指两个或两个以上的字段内容重复。对于字段重复的情况,保留其中一个字段即可。
4、记录相似。多条记录的关联字段不重复,但是大量的辅助字段重复。大量辅助字段的重复导致对象(如法人、自然人)的特点模糊,不能识别出主要特征。记录相似可能是数据填报时由于乱填报、批量填报等原因产生的,很多非关键属性在填报时没有做具体要求,导致数据后续无法正常使用。
【处理步骤】
1、通过数据检测,发现可能存在的重复、相似等问题。重复包括记录重复、字段重复等。
2、针对出现的问题进行分析,分析问题可能产生的原因和造成的影响。
3、问题解决方案,根据不同的问题选择对应的解决方案。
4、问题处理,设置处理规则和机器,需要人工确认的由业务专家人工确认,需要机器处理的由工具来处理。
5、数据检测,对处理后的数据做进一步检测和分析。
4.5 拆分字段问题
在数据采集或汇聚的过程中,在没有统一的字段要求的情况,填报的信息可能存在内容过多或多个属性揉杂在一起的情况,为了更好的建立数据属性维度,需要对这类复杂字段进行拆分处理。
针对一下拆分字段场景,可以选择不同的方法进行拆分处理:
1、采集的数据字段包含了过多的内容,不符合表标准。这种情况下,需要根据表标准分析字段结构,设置拆分规则,如按字段长度拆分、按统一识别码拆分、按特殊字符拆分等。
2、数据合并时存在字段不统一的情况,可通过对部分字段拆分达成统一。这种情况下,按标准表规范进行拆分。
3、当前字段不能直接进行数据统计、分析的。这种情况,按照统计要求和指标进行拆分。
4、用于数据关联的关键信息存在于未拆分字段中。这种情况下,识别出关键关联信息,定义相应的拆分规则。
针对上述场景,基于数据规范性要求,对数据做拆分合并加工。
【处理步骤】
1、定义拆分规则,对于不同的业务场景,拆分规则不同。
2、识别拆分标识字符,建立对应的拆分机制,为机器处理提供规范。对于机器不能处理的,需要制定人工操作方式。
3、新建相应字段,拆分出来的新字段储存在新建字段中。
4、对新建字段进行检测和规范化处理,并建立数据元关联。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。