论银行数据治理体系建设

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

欢迎访问数据中国大讲坛。

【讲座录音29】20130109《数据中国年终座谈会》Jimmy
简介:/forum.php?mod=viewthread&tid=423&fromuid=19
录音:/share/link?shareid=188569&uk=2164314794
论银行数据治理体系建设
中国银行总行信息科技部副总工程师孙中东现代商业银行日常经营活动中积累了大量数据,这些数据除了支持银行前台业务流程运转之外,越来越多地被用于决策支持领域,风险控制、产品定价、绩效考核等管理决策过程也都需要大量高质量数据支持。

银行日常经营决策过程的背后,实质是数据的生产、传递和利用过程。

此外,日益全面的和严格的监管措施和信息披露要求,也对银行数据提出了前所未有的挑战。

如果不能对这些数据进行有效管理,其价值就得不到很好体现,甚至会给运营管理带来负面作用,具体表现为:一是缺乏统一数据标准,难以建立全面、准确、完整地反映企业运营状况的单一数据视图,难以做到数据的逻辑整合而不仅仅是物理集中;二是缺乏规范的数据质量治理流程和考核机制,不能及时发现数据质量问题,或缺乏有效解决途径;三是对数据采集、分布、流转及应用的规划存在不合理现象,数据需求、数据质量、数据应用等问题的管理和解决分散在不同业务和技术部门,没有一个清晰的协调机制和统一的报告渠道,业务不能及时、按需获得数据支持;四是缺乏有效的数据安全管理机制,对敏感信息的访问缺乏有效控制,对银行形成潜在的声誉和法律风险等。

为使这些数据“包袱”变成“金矿”,数据治理(Data Governance)体系的构建就变得尤为重要和迫切。

一.数据治理体系简介
数据治理是为满足企业内部信息需求,提升企业信息服务水准而制定的相关流程、政策、标准以及相关技术手段,用于保证信息的可用性、可获取性、高质量、一致性以及安全性。

数据治理体系建设的目的,是建立数据拥有者、使用者、数据以及支撑系统之间的和谐互补关系,从全企业视角协调、统领各个层面的数据管理工作,确保内部各类人员能够得到及时、准确的数据支持和服务。

通常认为,数据治理至少应当涵盖如下功能域:数据质量管理、元数据管理、数据标准
管理数据安全管理和主数据管理,现对上述功能域说明如下。

1.数据质量管理:对支持业务需求的数据进行全面质量管理,通过数据质量相关管理办法、组织、流程、评价考核规则的制定,及时发现并解决数据质量问题,提升数据的完整性、及时性、准确性及一致性,提升业务价值。

2.元数据管理:元数据(Metadata)是关于数据的数据,即对数据的描述信息。

根据其属性的不同,元数据可分为技术元数据和业务元数据。

元数据管理是元数据的定义、收集、管理和发布的方法、工具及流程的集合,通过完成对相关业务元数据及技术元数据的集成及应用,提供数据路径、数据归属信息,并对业务术语、文档进行集中管理,借助变更报告、影响分析以及业务术语管理等应用,以此保证数据的完整性、控制数据质量、减少业务术语歧义和建立业务人员之间、技术人员之间,以及双方的沟通平台。

3.数据标准管理:通过建立一整套数据规范、管控流程和技术工具来确保银行各种重要信息,包括产品、客户、机构、账户等信息在全行内外使用和交换的一致和准确。

数据标准可分为技术标准和业务标准。

4.数据安全管理:通过建立对数据及相关信息系统进行保护的一系列措施,确保数据免遭未经授权的访问、使用、修改或删除,保证数据完整性、保密性和可用性,具体可分为管理和技术两大类措施。

5.主数据管理:主数据(Master Data)指描述核心业务实体的数据,如客户、机构、员工、产品等。

这些数据变化相对缓慢并通常在企业内跨业务重复使用。

主数据管理适用于管理、协调、监控与企业主要业务实体相关联的主数据的一系列规则、技术、应用、策略和程序。

二.数据质量管理简介
业界普遍认可的数据质量定义为数据对其期望目的的适合度,即数据质量管理生命周期及其相关的数据质量管理流程,都要为确保数据满足其自身预期目标提供相应的方法和手段。

(一)数据质量管理基础和问题分类
下列要素是进行数据质量管理的基础:
1.数据质量的好坏是由用户以及数据使用价值所决定的。

2.数据质量的好坏代表着数据在数据知识应用中、数据所存在的系统中以及数据使用过程中被应用或者有价值的程度。

3.只有当数据被下游过程(系统或用户)所接收并使用时,数据质量问题的研讨才有意义。

4.数据是持续变更的,数据质量管理是一个持续过程而不是一次性活动。

银行关注的常见数据质量问题可以归成如下7类:
1.定义缺失,指缺少关键业务元素定义,导致对同一字段的理解偏差。

例如,什么是“一个客户”,不同业务有不同理解,通常风险应用将组织机构号作为对公客户的“身份证”,一个组织机构号代表一个客户;而核心系统对客户号的分配较为随意,允许一个组织机构号下存在多个客户号。

2.数据异常,指系统的个别字段出现了异常信息,包括取值错误,格式错误、多余字符、乱码等。

3.信息缺失或不准确,指在系统表中已经设计了某些字段,但在使用过程中,很多记录却没有收集这些字段的信息,或存在信息收集不准确、信息重复登记等情况。

信息缺失或不准确通常在客户信息方面最为严重。

4.系统之间数据不一致,主要体现在两个方面:(1)系统间数据维护不一致。

为了满足各个系统内部逻辑、提高访问效率和减少数据传输,相同信息可能在不同系统进行冗余存放。

但冗余存放的数据如果不进行同步或及时的数据维护,则必会导致这些数据的不一致。

例如,银行通常存在核心系统与信贷系统数据不一致的问题。

(2)系统之间数据同步时效性造成的不一致。

典型案例如下:由于某些银行的贷记卡系统是外包系统,因此总账系统在T+1日才能取到贷记卡T日的数据,但是其他系统的科目余额缺失T+1日的数据,于是此种同步时效性的差异就导致了系统之间数据不一致。

5.数据完整性问题。

数据完整性问题主要体现在两个方面:(1)参照完整性,是指一个表A的外键不包含无效的键值,例如,借据表中记录了合同号,但是在合同表中无法找到相关记录;(2)数据含义冲突,如某些账户,从账户属性、存期等字段看,应是通知存款产品,但从科目看,又是普通定期产品。

6.数据生命周期问题。

银行中的关键数据,例如,账户、客户、产品信息等,都有若干日期字段记录其生命周期,这些日期字段包括创建/开户日期、关闭/
销户日期、最后交易日期和最后修改日期等,但是在业务系统中往往存在修改了记录状态却并未同步更新相关日期字段的情况。

此外,还有一个违反合理数据生命周期的常见做法,就是直接在物理上删除记录。

7.代码问题。

包括三个与代码相关的问题:(1)代码不统一问题,即不同应用之间相同用途代码的编码不一致;(2)未代码化问题,即常见情况使用文字存储,而非将信息代码化,很多时候会发现信息存储的不少,但却不便于分析使用。

(3)意外代码,即实际数据中出现了未定义的代码值。

(二)数据质量管理方法论
图1描述了权威人士普遍认可的数据质量管理方法论,共分六步。

图1 数据质量提升步骤图
第一步:定义及验证
首先,从技术和业务两个层面对数据应当满足的质量目标进行定义。

表1列出了一系列数据质量度量标准,但最终的定义应当以更规范的形式进行描述。

例如,属性X的缺失率不超过2%。

其次,对于派生数据,其源数据和转换的规则必须详细说明。

最后,上面描述的定义和规则将作为数据质量评估计划的输入源。

数据质量评估计划主要用来验证定义和规则的正确性,并且这个计划将详细
描述数据必须满足的、适合它预期用途的属性,即它定义了数据质量。

这个计划还将指导初始的数据度量,通常也成为数据剖析。

表1 数据质量度量标准
第二步:影响分析与共性分析
完成数据质量目标定义后,需要评估一个特定的数据质量问题在预期的数据使用适合性方面带来的影响,并根据影响分析结果可以确定数据质量问题的重要性与优先级别。

所谓共性分析就是分析错误具有的共性,我们期望一次可以将许多错误归结到某类共同原因。

这个分析将为下一步追踪根本原因做好准备。

第三步:追踪根本原因
图2所示鱼骨图是一个众所周知的用于鉴别数据质量背后根本原因的工具,它反映了需要达到的和实际的数据质量之间的差距原因,通常是信息、流程、技术、人员等因素所导致。

第四步:预防/修复数据质量问题
图3描述了在追踪数据质量问题的根本原因时可用到的选择。

每一个选择都有相关的优点和弱点。

1.导致数据质量问题的根本原因,最常见的有人员、流程、业务系统前端、业务系统数据库、数据抽取和加载过程等方面处理不当,这些因素都有可能产生数据质量问题。

对于图3前三项(人员、流程、业务系统前端),重点在于预防,对于后三项(业务系统数据库,抽取、加载),则通常通过修复的手段来解决。

2.每类数据质量问题的预防/修复都有有利和不利的一面,比如,由于人员
产生的质量问题,有利方面是可以再源头预防,不利方面在于人员往往会疏于管理、容易遗忘以及不同人员的差异性、专注点不同,这些都会不可避免地产生一定的数据质量问题。

图2 数据质量根本原因图
3.涉及的数据量。

通常数据质量问题需要修复的数据量有大致规律,如人员、流程、前端应用产生的质量问题需要修复的数据量往往不大,而数据库处理、数据抽取和加载等后台环节导致的数据质量问题通常设计的数据量较大。

对于已经发生的数据质量问题,只能通过修复措施解决,但是从长远来看,重视预防措施,在源头控制错误的产生更为重要。

图3 预防/修复数据质量问题图
第五步:趋势监控
一个已知的数据质量问题被修复后并不意味着这个特定问题就被永远解决了。

如果没有有效地预防措施,错误仍有可能再现。

因此,对重要数据质量问题应当持续监控。

图4所示控制图经常被用来做质量问题监控,当错误的个数在一定范围之内浮动时,质量问题被认为处于可控状态。

图4 数据质量趋势监控图
第六步:识别和研究偏差
监控流程来识别问题。

例如,当一个已知数据的质量超过了允许的控制范围,流程将需要从该分支返回到第三步再一次识别根本原因。

图5 识别和研究偏差图
(三)数据质量问题特征分析
根据数据质量定义,数据的不同使用目的会导致不同的数据质量要求,例如,业务系统对数据的使用目的主要是为了保证业务流程的正常运转和满足一些简单的统计功能,因此只要业务流程和统计正常,就可以认为数据质量满足要求;而分析型系统对数据的使用目的则多种多样,而且涵盖企业运营的方方面面,那么满足业务流程正常运转的需要并不一定就能保证满足分析的需求,因此分析型应用的需求是决定数据质量管理目标的主要因素。

在这一前提下,对企业内部数据流转过程各环节中呈现出来的数据质量问题特性作如下分析:
如图6所示,数据流转过程被分成三个阶段(环节)。

1.数据生产环节:企业内部的原始数据,绝大部分都产生自业务源系统,很少量的增值数据(Value-added data)产生于分析型系统。

2.数据集成环节:在基础数据平台类系统(ODS/数据仓库和数据集市)中,集成来自不同源系统的数据,并按照数据模型整合。

3.数据使用环节:由各类分析型应用组成,也包括随机业务查询、数据分析、数据挖掘等信息访问手段。

从图6中可以看到,数据质量问题的产生主要在于数据产生环节,其次在于数据集成环节的数据加工过程,而在数据使用环节,由于原则上不再对数据作修改,因此基本上不产生数据质量问题。

图6 数据质量问题分析图
数据质量问题的发现则不同,基本呈现出相反特征:一是业务源系统虽然是数据的主要产生环节,但是通常只能发现业务流程相关的数据质量问题,而且仅限于本系统内部;二是数据集成环节由于是企业内部数据的一个最主要会聚点,因此通常也是数据质量问题暴露最多的环节;三是数据使用环节是数据质量问题频繁暴露的另一个环节,主要是因为对数据的使用决定了数据质量问题的定义,所以很多质量问题都是在使用时被首次发现。

基于数据质量管理的关键环节和质量问题特性,再结合业界事实数据质量管理的最佳实践,建议在不同流转环节侧重完成的功能点实现应如下:
1.数据产生环节。

修正——数据质量问题必须在源头得到修正,这是数据质量管理的一项基本原则。

预防——相对于修正,预防的意义更大,主要原因在于可以防止产生新的数据质量问题。

定义——由于数据质量问题的定义主要取决于使用目的原则,因此数据质量问题的定义主要应当结合数据使用环节来发起,但事实上常常都是基于源系统的数据结构来进行定义。

2.数据集成环节。

检查——技术数据平台类系统作为银行数据的主要会聚点,在此环节进行数据质量问题检查的效用最高。

报告——对于数据质量检查结果,应当以报告形式展开,并通过一定的机制(自动工作流程或人工流程)通知相关的数据质量问题责任人,如业务源系统项目组、业务部门、数据仓库或应用项目组等。

跟踪——由于来自业务源系统的数据每天都会加载到基础数据平台类系统中,因此,基础数据平台类系统应当被利用来对数据质量问题的解决进行跟踪,并将跟踪结果作为提升数据质量问题治理成效的一个依据。

3.数据使用环节。

定义——如前所述,在数据使用环节就根据数据的使用目标来定义数据应当满足的质量标准,并作为日后上下游系统之间服务水平协议(Service Level Agreement,SLA)的输入接口。

评估——作为数据的最终使用者,在使用环节应当对数据质量治理的成效进行评估,并作为下一阶段设定数据质量管理目标的依据之一。

(四)数据质量管理流程的关键点
数据质量管理流程应当涵盖从“数据产生”到“数据集成”再到“数据使用”在内的全过程。

为了在银行全行范围内进行有效的数据质量管理,数据质量管理的不同功能点应恰当分布在个流程的相应环节,在基础数据平台类系统上构建数据质量管理系统,并将源系统、相关应用以及相关科技和业务用户都纳入数据质量问题的发现——修正——跟踪——评估的闭环流程当中,如此才是实施数据质量管理的最佳选择。

此外,数据质量管理成败的关键在于合理有效的组织架构和流程,而不是管理系统自身,因此应当更为重视数据质量管理配套的组织架构和管理流程建设。

在构建数据质量管理体系时,以下关键因素应当考虑:跨部门以上主管领导的重视和牵头;负责解决数据质量问题的专门和专业组织;负责解决数据质量问题的统一和专业流程;负责解决数据质量问题的统一平台;负责侦测数据质量问题的专业工具。

三.数据质量管理与数据治理体系的有机结合
数据质量管理应当与整个企业级的数据治理体系有机结合,图7简要说明了这些治理体系各主要组件之间的关系。

图7反映的数据质量管理相关治理组件的关系如下:
1.数据标准是数据质量管理进行质量检查的规则,因此数据与标准不相符,就是一个典型的数据质量问题,通过部署数据质量管理系统,可以对数据标准的落地实施提供有效的监控、检验和督促手段。

2.元数据管理系统可以作为数据质量管理的一个输入端,辅助数据质量检查脚本的自动生成,而数据质量管理系统中存储的检查规则等信息又是一项元数据,应当被元数据管理系统所采集。

3.数据安全管理中定义的数据所有者,是构建数据质量治理闭环流程和确定数据整改权责的重要依据。

图7 数据治理主要组件之间的关系图
欢迎来到数据中国大讲坛。

我是Jimmy-zhaojianmi。

【宗旨】打造中国最大的IT知识远程分享平台,提升中国IT人的职业技能。

【口号】自由分享,快乐成长(数据中国,共享共赢)
2012年6月13日,可爱的宝宝【数据中国大讲坛】诞生。

出生以来,受到了我们众多成员的细心呵护,他也不负众望,不断地发展壮大。

目前为止,成员主要由讲师、商业智能群成员、论坛成员、百度贴吧成员组成。

在新的一年里,【数据中国大讲坛】将继续禀承分享、快乐、成长的特性,继续为大家提供免费、优质的商业智能和数据库培训。

在此也希望我们的成员在新的一年里能够继续支持【数据中国大讲坛】,与我们一起快乐、一起进步。

《写给并不聪明的自己》
我并不是天赋异禀,所以我不能自恃聪明而好逸恶劳;我也不是鸿运当头,所以我也不期待某一天天降鸿福;我的“爹”也不是有钱人,也不是当官的,所以我也不能跟人拼爹。

但是我有和谐的家庭,即使没有和谐的家庭,我也不怕。

因为我脚下有一条路,只需要手握勤奋和恒心,就能通向光明。

在这条路上,我希望有一个良师益友能够给我指明方向,让我少走弯路。

也希望他陪伴我,听我诉说,并见证我成功的脚步。

更希望,把我这一路上的知识沉淀起来,等待那一天的厚积薄发。

我希望通过【数据中国大讲坛】,让更多的人了解我,也让我帮助更多的人。

这是我Jimmy,写给新一年自己的话。

也希望看到这段话的人,跟我一起通过【数据中国大讲坛】,走向我们的美好未来。

美丽有两种\一是深刻又动人的SQL语句\一是你泛着倦意淡淡的笑容
【讲座录音01】20120613《数据仓库架构》Jimmy
简介:/forum.php?mod=viewthread&tid=355&fromuid=19
录音:/share/link?shareid=177402&uk=2164314794
【讲座录音02】20120620《数据挖掘引论》ltd
简介:/forum.php?mod=viewthread&tid=354&fromuid=19
录音:/share/link?shareid=177401&uk=2164314794
【讲座录音03】20120627《db2数据库基础、设计与优化》Jimmy
简介:/forum.php?mod=viewthread&tid=353&fromuid=19
录音:/share/link?shareid=177400&uk=2164314794
【讲座录音04】20120704《oracle数据库体系结构》wolf
简介:/forum.php?mod=viewthread&tid=352&fromuid=19
录音:/share/link?shareid=177399&uk=2164314794
【讲座录音05】20120711《DB2逻辑设计》Jimmy
简介:/forum.php?mod=viewthread&tid=351&fromuid=19
录音:/share/link?shareid=177398&uk=2164314794
【讲座录音06】20120718《优化浅析——基于MSSQL》ltd
简介:/forum.php?mod=viewthread&tid=350&fromuid=19
录音:/share/link?shareid=177396&uk=2164314794
【讲座录音07】20120725《oracle日志文件》wolf
简介:/forum.php?mod=viewthread&tid=349&fromuid=19
录音:/share/link?shareid=177395&uk=2164314794
【讲座录音08】20120801《DB2数据库备份与恢复》Jimmy
简介:/forum.php?mod=viewthread&tid=348&fromuid=19 录音:/share/link?shareid=177394&uk=2164314794 【讲座录音09】20120808《数据仓库成长日记》ltd
简介:/forum.php?mod=viewthread&tid=347&fromuid=19 录音:/share/link?shareid=177393&uk=2164314794 【讲座录音10】20120815《Informatica PowerCenter基础培训》可乐罐简介:/forum.php?mod=viewthread&tid=346&fromuid=19 录音:/share/link?shareid=177392&uk=2164314794 【讲座录音11】20120822《数据仓库架构》Jimmy
简介:/forum.php?mod=viewthread&tid=345&fromuid=19 录音:/share/link?shareid=177391&uk=2164314794 【讲座录音12】20120829《锁》ltd
简介:/forum.php?mod=viewthread&tid=344&fromuid=19 录音:/share/link?shareid=177390&uk=2164314794 【讲座录音13】20120912《ETL工具kettle开发基础》金哥
简介:/forum.php?mod=viewthread&tid=343&fromuid=19 录音:/share/link?shareid=177389&uk=2164314794 【讲座录音14】20120915《oracle系列课程之一》Y神
简介:/forum.php?mod=viewthread&tid=331&fromuid=19 录音:/share/link?shareid=176003&uk=2164314794 【讲座录音15】20120919《oracle系列课程之二》Y神
简介:/forum.php?mod=viewthread&tid=330&fromuid=19 录音:/share/link?shareid=176001&uk=2164314794 【讲座录音16】20120926《BI之路-商业智能入门与进阶介绍》ltd
简介:/forum.php?mod=viewthread&tid=329&fromuid=19 录音:/share/link?shareid=176000&uk=2164314794 【讲座录音17】20121010《oracle系列课程之三》Y神
简介:/forum.php?mod=viewthread&tid=328&fromuid=19 录音:/share/link?shareid=175998&uk=2164314794 【讲座录音18】20121017《IBM金融行业商业智能解决方案》Jimmy 简介:/forum.php?mod=viewthread&tid=327&fromuid=19 录音:/share/link?shareid=175997&uk=2164314794 【讲座录音19】20121024《管中窥象-Hadoop版数据仓库》ltd
简介:/forum.php?mod=viewthread&tid=326&fromuid=19 录音:/share/link?shareid=175996&uk=2164314794 【讲座录音20】20121031《oracle系列课程之四》Y神
简介:/forum.php?mod=viewthread&tid=325&fromuid=19 录音:/share/link?shareid=175995&uk=2164314794 【讲座录音21】20121107《BO产品及方案介绍》Milin
简介:/forum.php?mod=viewthread&tid=324&fromuid=19 录音:/share/link?shareid=175991&uk=2164314794 【讲座录音22】20121114《oracle系列课程之五》Y神
简介:/forum.php?mod=viewthread&tid=323&fromuid=19
录音:/share/link?shareid=175990&uk=2164314794
【讲座录音23】20121121《经理必备8项技能》Jimmy
简介:/forum.php?mod=viewthread&tid=322&fromuid=19
录音:/share/link?shareid=175989&uk=2164314794
【讲座录音24】20121128《BIEE入门》叶紫
简介:/forum.php?mod=viewthread&tid=321&fromuid=19
录音:/share/link?shareid=175987&uk=2164314794
【讲座录音25】20121205《ODI简介》Aimee阳光。


简介:/forum.php?mod=viewthread&tid=313&fromuid=19
录音:/share/link?shareid=174927&uk=2164314794
【讲座录音26】20121212《oracle系列课程之六》Y神
简介:/forum.php?mod=viewthread&tid=310&fromuid=19
录音:/share/link?shareid=174260&uk=2164314794
【讲座录音27】20121219《数据中国年终座谈会》Y神+晴天的歌声
简介:/forum.php?mod=viewthread&tid=285&fromuid=19
录音:/share/link?shareid=169297&uk=2164314794
【讲座录音28】20121226《数据中国年终座谈会》ltd
简介:/forum.php?mod=viewthread&tid=276&fromuid=19
录音:/share/link?shareid=168719&uk=2164314794
【讲座录音29】20130109《数据中国年终座谈会》Jimmy
简介:/forum.php?mod=viewthread&tid=423&fromuid=19
录音:/share/link?shareid=188569&uk=2164314794
【数据中国大讲坛】
【宗旨】打造中国最大的IT知识远程分享平台,提升中国IT人的职业技能。

【口号】自由分享,快乐成长(数据中国,共享共赢)
【讲座预告】每周三晚八点半在YY频道85536471免费讲解数据库与商业智能BI相关知识。

详情见官网(欢迎注册)
【意见和建议】对讲座有什么意见,不管是形式或者内容都可以发邮件给我*************,有了你的支持,才有我们前进的动力。

相关文档
最新文档