银行信用卡数据仓库建设

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

银行信用卡数据仓库建设
一、需求分析
银行建立数据仓库的必要性。

中国的银行业在发展过程中,已逐步实现了绝大多数核心业务的计算机处理,积累了大量的客户数据和经营数据,这些数据是银行的宝贵财富,如何利用这些数据,发掘有价值的信息,解决问题的关键是建立银行企业级的数据仓库,实现对银行所有经营信息和客户信息的有效存储,并针对银行不同部门的管理决策需要,进行多层次的数据加工处理,以多种方式呈现真正有价值的信息(例如,维度,商业需求用户数量等),满足银行管理决策和客户分析的需要。

由此可以看出,整合数据建立一个全银行统一的数据中心,对于银行来说是非常重要的。

通过数据仓库技术,将x银行全国各地的数据整合,并对数据进行一系列的抽取、加工、清洗、加载,使得数据能够有很高的利用价值。

通过智能化的报表加工工具Cognos来快速的生成多种多样的报表,从不同的维度来展现数据。

这些报表对于管理层来说数据更准确、更有价值,而且还可以根据上级的不同需求来随时生成想要看到的报表。

这些对于银行发展新的客户、改善与老客户的关系、提高市场竞争力和占有率是非常重要和迫切的。

二.维度分析
1)卡量分析
2)客户量分析
3)账户分析
通过对卡量、客户量和账户量分析指标的业务定义的分析,卡信息汇总表选取的入仓字段有卡号、开卡日期、激活日期、销卡日期、销卡日期、到期日、发卡机构。

通过对卡量、客户量和账户量分析指标的业务定义的分析,选取的入仓字段有机构代码、性别代码、客户号。

通过对卡量、客户量和账户量分析指标的业务定义的分析,选取的账号信息汇总表的入仓字段有账号、销户日期、账户状态、开户日期、销户日期、账户余额、逾期状态。

三、所用到的技术简单概述
1)ETL概述
E是Extraction的简写,表示数据的抽取;T是Transformation的简写,表示数据的转换;L是Loading的简写,表示数据的加载。

ETL是数据抽取(Extraction)、转换(Transformation)、加载(Loading)的过程。

抽取(Extraction),在数据仓库系统的建设中是对数据的操作,就是将数据从
各种原始的业务系统中读取出来,这是要建立数据仓库系统的所有工作的前提。

转换(Transformation),是对数据的操作,为了满足目标和业务需求将从银行各源系统中抽取得到的数据按照一系列事先设计好的规则进行转换,并对数据进行清洗将脏数据过滤掉以提高数据质量。

加载(Loading),是对数据的操作,将转换完的数据按照需求增量或全量的导
入到数据仓库中,也就是平时所说的数据入仓。

ETL是数据仓库系统的基础。

数据仓库系统以实际存在和发生的数据为基础,
自己加工产生的数据较少;一个银行通常会包含几十个业务系统,这些业务系统
都可能会成为数据仓库数据的来源;由于业务系统的数据质量良莠不齐,所以必
须对数据进行操作去除虚假的没有价值的脏数据,提高数据质量;由于业务系统
的数据纷繁复杂,所以在建立数据模型时要参考数据的特性,有针对性的将数据
整合进数据模型;各源系统中的数据之间存在着复杂的关系;源系统的数据在加
工进入数据仓库系统时,有些必须遵照一定的先后次序。

2)Cogno相关技术
商务智能(Business Intelligence,简称BI)是以数据仓库为基础,通过对数据
进行管理,运用数据加工后的分析结果为有关部门提供决策支持,实现企业对信
息的智能化管理,帮助企业提高竞争力的技术。

Cognos8主要用到的组件包含五个:Query Studio、Report Studio、Analysis
Studio、Transformer和Framework。

几个模块在Cognos体系中的位置如下图:
应用专业
(Consumer) (Profession) 查询 Querry Fraework Manager
Report Studio Tranformer 分析 Analysis Studio
四、信用卡建设模型与设计
1)系统架构
数据仓库的系统架构不是唯一的,根据不同的情况,做出不同的方案。

理论上ODS层可以单独拿出来作为一个项目,也可以直接放进数据仓库建设的项目。

放进数据仓库内,就需要数据仓库项目组的人对源系统数据进行ETL加工来满足后面的数据需求。

将ODS层单独作为一个项目拿出来,就需要在ODS项目组与数据仓库项目组之间建立一个接口,EDW 项目组将需要的数据通过接口向ODS发出需求,然后,ODS按照接口规范向EDW下发数据。

本文选择了后者,将ODS与EDW分开,通过接口来连接两个项目组。

数据集市层理论上也分两种建设情况:一是,建在数据仓库内,由数据仓库将数据加工好,导入集市层,然后各业务系统根据自己的需求向数据仓库提出需求,通过接口来传递数据;二是,建在数据仓库外,由各业务系统根据需求将汇总加工层的数据拿来加工满足自己的需求。

本文选择了后者,将集市层建在数据仓库外。

银行信用卡中心数据仓库系统的建设过程是先将原系统数据经过ETL加工,将加工后的数据导入数据仓库的临时层(temp);然后再用ETL将临时层的数据加工后导入基础层(base);将基础层的数据经过ETL加工后导入汇总加工层(datep):再按照业务需求将汇总加工层的数据经过ETL加工后导入数据集市层;最后将数据集市层的数据打包,通过Framework建立关系打包上传,在Cognos中通过报表的形式展现出来。

系统架构图如下图:
源系统数据:来源于银行各个业务系统的初始数据,经ETL算法加工后,
导入ODS(Operational Data Store)层。

数据仓库:数据仓库通过接口向ODS发出数据请求,ODS按接口规范向数据
仓库下发数据。

数据集市:属于数据仓库的一部分,为了满足银行的各个应用,建立数据集
市层,通过数据集市层数据仓库向各个应用提供数据。

Cognos应用:是银行业务中的一种应用,通过Cognos工具来制作报表,展现
数据的分析结果。

由于本项目中客户要求最后呈现卡量分析、客户量分析、账户
分析的报表,所以在这里选择了Cognos应用。

2)逻辑模型设计
当事人重要日历表
3)物理模型设计
银行信用卡中心数据仓库建设的物理数据模型下图:
五、举例分析
在进行案例分析时,选取我们同学持有银行平安深圳市分行的现有信用卡客户,其中有20个“好客户”和20个“坏客户”,利用模型进行实际精确度检验,具体方法是将20个信用良好客户样本和20个信用差的客户样本的特征变量虚拟值代入模型,将所得结果与实际相比较,计算出好客户和坏客户预测的准确性。

经过对模型试验结果的分析,在20个好客户中经过模型预测有3个好客户被预测为坏客户;坏客户检验准确率14/20=70%,就是由6个坏客户被预测为好客户。

运用算术平均法,可得模型判别个人信用综合准确率为(85%+70 )/2=77.5%,接近80%,这说明此模型有一定的应用价值。

虽然模型有一定的使用价值,但离银行的目标差距还很有很大的差距,在实际的使用过程中,还需要进一步优化模型,提高其评价的准确度。

相关文档
最新文档