数据治理建设方案

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据治理建设方案

产生的数据量正在以指数级的速度在增长,并且数据正以多元结构(结构化与非结构化)趋势发展,如此海量的、多元结构的数据就要求利用有效的方法来管理。数据是一个企业或政府部门的核心资产,数据治理是将一个企业或政府部门的数据作为战略资产来管理,需要建立一套从数据采集到处理应用的管理机制,以提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。

数据治理建设方案

本文主要内容:

•数据治理的建设背景

•数据治理的建设目标

•数据治理的建设思路

•总结与展望

什么是数据治理?按国际数据管理协会(DAMA)的定义,数据治理是对数据资产的管理行使权力和控制的活动集合(规划、监控和执行),数据治理职能指导其他数据管理职能如何执行。

数据治理是将数据转化为智慧,挖掘出价值,最终服务于人的重要途径。依托政务云平台,从原始数据中提炼出有用、有价值的资产信息,通过深度整合形成多维多层的知识图谱,将数据高度聚合,深度关联。通过AI人工智能,将数据深度研判分析预测,从数据的可知、可用到数据的可测,形成智慧大脑。为各级政府AI大数据应用奠定坚实的基础。

1.1

(1)回顾政务的信息化建设发展历程,可以发现“烟囱化”现象严重,建设系统多,数据分散,共享困难。

(2)各单位机构自建系统没有统一数据标准,数据质量参差不齐

(3)数据不可知:用户不知道有哪些数据,也不知道这些数据和业务的关系是什么,虽然意识到了大数据的重要性,但不知道平台中有没有能解决自己所面临业务问题的关键数据,该到哪里寻找这些数据。

数据不可控:指用户不知道汇聚了哪些数据、处理了哪些数据、服务提供了哪些数据。

数据不可取:用户即使知道自己业务所需要的是哪些数据,也不能便捷自助地拿到数据。

(4)用户拥有着海量数据,但数据知识之间的关联还比较弱,没有把数据和知识体系关联起来,使得难以做到数据与知识之间的快速转换,不能对数据进行自主的的探索和挖掘,数据的深层价值难以体现,没有形成知识图谱。

1.2

要解决这些问题,数据治理势在必行。

数据治理不单是一个方法、也不是一个功能、也不是一个工具,而是一整套体系。

数据治理核心领域功能不再是人工处理,而是全流程平台化,比如数据服务、数据质量、模型、数据标准;同时配套相应的组织架构、人员方案,通过考核机制、管控办法等制度章程予以约束和协调各部门在数据治理中的角色和要求;除了平台工具、保障措施之外,还必须有实施流程和技术的支撑,比如政务云的资源设施及各单位数据接入流程等。

所以数据治理是平台工具、方法论和保障机制的有机体,不可分割。整个体系的重点、难点在于数据服务、数据模型和数据标准化实施。

基于数据治理体系,可以提炼为六大建设目标:

(1)数据接入标准化:通过制定接口规范,数据治理接入支持多源头采集、多种形态的数形式,同时数据对账清晰明了,对账不仅是源头有多少、进了多少做一个对比,另外一个层面是应该进多少,而进了多少的对比,通过设置预警阈值,对源头的数据监控,及时发现源头采集问题。

(2)数据处理自动化:通过自动化对标、自动化作业等产品、工具,以机器算法代替人力劳动,大大提高生产力。

(3)数据监控智能化:整个数据治理体系监控点很多,通过定义多种接口规范,实现运维监控的统一管理,短信、邮箱等多种提醒方式,及时发现并解决问题。

(4)数据组织知识化:通过分析各部门共享数据集,提炼权威数据,形成主数据模型。通过人、车、地址等主题域建模,掌握各主题的内在关系,深度整合,形成以实体为单位的复杂的关系网络,就是知识图谱。

(5)数据运行可视化:Etl工具、服务总线产品与数据治理平台有机结合,将数据治理实施流程各环节通过平台去实现,由平台驱动各产品协作完成整个数据治理过程。

(6)数据应用自助化:依托服务总线,建设统一的服务平台,服务大厅,通过服务权限和数据权限控制,用户可自助申请、自助使用、自助评价反馈。

三、数据治理的建设思路

3.1形成数据治理体系

大数据中心的建设需要通过数据治理体系来实施,主要包括五大部分:

(1)定标准:建立汇聚、服务、共享标准,统一规范。

(2)整数据:对数据汇聚、清洗整合,解决的是质量问题和系统之间数据资源的融合问题。

(3)管资源:创建资源账本,记录数据资源数量,数据来源,标准情况等。

(4)通服务:数据治理的目的是共享和应用,通过建设共享服务,提供给警种和第三方使用。

(5)建应用:数据治理如何体现成效,就是透过能用、好用、爱用的应用来体现。

3.2

数据治理平台的总体架构,设施和数据支撑层是基于政务云平台和大数据平台之上,主要是集中在数据资源层和资源服务层,包括数据中心、数据管理和数据服务。

(1)数据中心根据规划分成三部分。数据中心的数据来源政务内外部、以及互联网结构化、多媒体数据,例如目前个别地方政府部门已经建成“政务信息资源共享平台”,数据治理应该直接对接的是政务信息资源共享平台,数据中心分为三层架构缓冲库、基础资源库、业务专题库。

数据中心通过ETL工具、日志复制工具对数据进行汇聚整合,数据整合其实是一种方法论和经验,比如哪些数据需要

去重,哪些数据需要多表关联,哪些数据需要冗余这些是需要业务积累和治理经验去完成的。

(2)数据管理包括标准、模型、资产等。数据模型是数据治理的根基,治理的目的是服务和共享,首先一点需要通过模型掌握数据所在业务域以及数据之间的关系,构建全景数据视图和知识图谱、使使用者更直观、更简单的去使用数据治理后的成果。

(3)数据服务通过服务大厅支撑服务的申请、发布及使用的流程,以及服务的运行监控。

3.3构建数据中心架构

数据中心是按照三层架构,包括缓冲区、基础区和专题区:

相关文档
最新文档