某银行数据仓库方案建议书

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ⅩⅩ银行数据仓库方案建
议书
I
目录
第一章前言
第二章建议方案简介
第三章硬件产品介绍
第四章软件产品介绍
第五章项目计划
附录一成功案例
附录二IBM可以提供的服务
附录三项目进度计划安排参考
附录四产品报价
第一章前言
作为一个发展中的银行,总部位于我国南方著名经济特区深圳市的ⅩⅩ银行的成长令人瞩目。

为了在五年内成为全国著名的银行,进入世界大银行的排行榜,ⅩⅩ银行的决策者们制订了一整套行之有效
的计划,而作为现代化管理的一部分,与国际上先进的模式接轨,计算机管理自然成为相当重要的一部分。

ⅩⅩ银行与世界信息产业的领导者,美国国际商业机器公司,简称IBM 合作,将其业务系统成功运行在AS/400 平台之上,成功地迈出了计算机管理的第一步。

但是他们并不满足于目前的状况,发扬一向紧跟新科技的传统,决定对目前的业务数据作进一步的处理,将静态的数据转化为决策支持的依据。

所以,准备采用目前信息产业界极为先进的数据仓库技术,完成ⅩⅩ银行的决策支持系统,以进一步提高公司的实力和竞争力。

而世界上最大的软件及咨询服务公司IBM,将以其在该行业雄厚的实力和数十年丰富的经验,为ⅩⅩ银行提供一套完整的解决方案,使ⅩⅩ银行的管理能力再上一个台阶。

本方案以先进性和可扩展性为原则,使ⅩⅩ银行的数据仓库系统既可以保证在几年内技术和设备不落后,使之站在世界计算机发展潮流之上,又可以根据业务的高速发展,很方便地升级,以达到业务发展需求的性能。

先进性方面,IBM 提供的硬件平台是具有最强劲处理能力的RS6000 SP 系列并行机,它综合业界的最高端技术,具备无与伦比的处理能力和可扩展性、可靠性。

例如战胜世界冠军、国际象棋特级大师卡斯帕罗夫的“深蓝”就是这种机型,其每秒数亿步的处理速度至今仍被人们称道;软件平台是IBM 提供最新推出的、业界好评如潮的通用数据库产品(Universal Database),这是IBM 的又一大师级力作;还有荣获本年度世界数据仓库产品大奖的数据采掘工具:Intelligent Miner;在应用上,IBM有成熟的整套数据仓库解决方案,和其他仅仅能提供某些方面产品的厂商有着本质的区别。

可扩展性方面,因为数据量越来越大,用户越来越多,为保证合理
的响应速度,对机器的性能提高就会有一个几乎线性增长的要求。

硬件和软件的可扩展性就成为一个重要的考虑因素。

IBM 的RS6000 SP 主机正是具备这种特性,从而成为硬件平台的首选;通用数据库在小到手提机,大到并行主机的任何平台上,都能充分发挥硬件的性能。

这样就确保了整个数据仓库系统的正常运作。

也可以保证用户在今后升级时,既可以保护现有投资,也使应用系统受到的影响降到最小,做到无缝升级。

背景
中国的银行业务正面临深刻的改革,各种新生事物不断涌现,如新的业务,由于分工模糊而出现的很多非银行业的竞争者,业务全球化的趋势,由新旧竞争者造成的越来越大的压力,快速发展的信息技术,客户的需求和总体人口组成也在不断变化。

全球范围内的金融服务企业间的关系变得更加紧密,促使决策者重新研究金融市场,资源分配,组织结构和业务流程,从而采取更有创意的企业行为和策略,如企业兼并,市场定位,产品和服务推陈出新,保持营销渠道畅通。

在银行业内,越来越多的企业正在采用数仓库工具来创造新的商业机会:深入分析客户群的组成、发现特殊需求、设计新的产品、在新业务推出前开展详细的建模和分析。

分析客户减少的可能原因,采取预防措施,提高服务质量和整体竞争力。

分析重要客户的来源,保证整体效益。

预防和制止信用卡诈骗活动。

正如IBM 一向在计算机业的发展中扮演重要角色一样,IBM 早在1988年,就发表了第一篇关于数据仓库的文章,成为这一领域的先驱,从那时起,数据仓库的技术,服务和解决方案就在来断地完善,时至今日,IBM 公司的数据仓库系统已经安装了数百个,在各个行业,各种平台上运行。

1995年,IBM 重新评定了所有数据仓库资源,成立一支核心队伍,专门开发运用于各行业的数据仓库解决方案,范围涉及银行及金融业,电讯业,零售业,保险及卫生业等。

这个小组的任务是分析各行业的业务需求,选择最好的软件和硬件产品,为客户提供咨询服务。

在数据仓库市场上,IBM 始终致力于提供全面解决方案,不但提供技术和咨询服务,还为客户介绍专门的行业经验。

我们的数据仓库系统运行在多种平台上,保证一个开放系统供应商的地位,是目前最完整的全方位的集成式数据仓库解决方案。

IDC 最近在加拿大市场上作了一次数据仓库的调查,发现集成度是大家最关心的问题,除了严格遵循开放标准,IBM 还发展了一些有实力的策略联盟伙伴,如 Vality、进展技术公司 ETI、Cognos 以及Information Advantage 等。

通过联合开发和集成调试,达到联盟的主要目标:更高级的集成度。

IBM 始终致力于确立在以网络为中心的计算技术方面的领导地位,我们也坚信目前我们站在潮流的尖端,公司内部建立起遍布全球100多个国家,700多个城市的全球性的大型数据网络,在专门的互联
网部门,在这一领域的技术成果不断推出,都无可置疑地表明 IBM 是当之无愧的领导者。

今天IBM 更是提出了一套完整的解决方案。

以下就数据仓库的概念和作用做一些简要的介绍。

数据仓库的概念及作用
所谓数据仓库,数据仓库之父W.H.Inmon 曾对数据仓库作了这样的描述:“数据仓库是九十年代信息技术构架的新焦点,它提供集成化的和历史化的数据;它集成种类不同的应用系统;数据仓库从发展和历史的角度来组织和存储数据,以供信息化和分析化处理之用”。

这里要强调的是必须将业务系统和数据仓库分开。

两者功能不同,要求迥异。

虽然业务系统为数据仓库提供数据。

但决不能将数据仓库建立在业务系统之上。

一来两者所存的数据不同。

业务系统是存储实时数据的地方;数据仓库可能更关心的是整个历史数据。

两者的数据传递不是简单的复制,而是一个可能是比较复杂的转换和传递过程。

二来,这样做对业务系统的影响太大。

不仅会对数据的安全性造成一些不可预测的影响,还会影响业务系统的性能。

查询请求会使系统不堪重负,响应速度降低,严重时甚至导致系统的崩溃,使业务系统瘫痪。

所以必须将两者分开。

数据仓库的作用主要在于通过对大量数据的分析,得出需要的统计结果。

还可以找出其潜在的关系,从而作出正确的判断。

例如,如果银行要了解它的一个客户的情况,以目前的情况来看,需要查询储蓄库,信用卡库,借贷信息等。

这些信息存储在不同的业务系统中,不同的主机上,显然要获得完整的客户资料需要作大量的工作,消耗大量的时间。

但是,如果这个银行拥有数据仓库系统,要完成这个工作只需要一个最简单的查询命令,可能只需要几秒钟。

因为数据仓库中已经有了所有的数据,而且都已经重新组织。

特别是如果你要查的是一些历史数据,那么目前的系统就根本无能为力了。

所以,建立一个数据仓库对公司的许多正确决策的作出有着举足轻重的影响。

它可以以合理的代价取得有效的决策支持;促进企业中业务处理过程的重组;改善并强化对客户的服务;强化企业的资产和负债管理;促进市场分析;帮助实现企业的规模优化。

数据仓库的特点
由于差不多各个业务系统的各种数据都要放进数据仓库,所以,随着时间的增长数据仓库的数据量是特别大的。

例如,某单位一天有10G 数据,例如移动通讯局的计费系统(如果有几本流水帐,可能还会超过这个数字),那么,仅仅过了两年,数据仓库中的数据量就有:10*365*2=7300G,相当于七个多TB 的数据。

那么五年后,十年后呢?简直不能想象。

由此可见,数据仓库的特点:数据量大且有几乎线性的增长性。

数据仓库对计算机系统的要求
根据上述特点,我们认为支持数据仓库的计算机系统首先必须得有一台不仅性能卓著,而且可扩展性也很好的主机。

谈到可扩展性,许多人会想到对称多处理器系统 (Symmetrical Multi-Processing) 系统,其实SMP 系统的CPU 数增加到一定数目后,对系统性能的提高已十分有限,甚至会起反作用。

所以,主机的选用,一定要有非常好的线性增长性。

这里,我们建议选用目前已经比较成熟的海量并行处理系统(Massive Parallel Processing),简称为MPP。

另外,数据库的选用也是十分关键的。

一是要支持超大的数据量。

可能在初始阶段,数据量已经到了TB 级。

二是要有很强的稳定性。

数据仓库是为决策支持系统提供准确的数据分析,如果数据库不十分稳定,那么,后果不堪设想。

另外,数据库必须有可扩展性,支持多平台,高性能等等。

整个网络环境的稳定和高速也应被列入计算机系统设计的考虑范畴。

数据仓库系统的体系结构
一个完整的数据仓库系统,应当由定义部分、数据获取部分、管理部分、数据分发部分、信息目录、数据库管理系统、数据存取与分析等部分组成。

1.定义部分
数据仓库系统的定义部分完成数据仓库环境的定义和设置。

这里包括相应的定义工具供数据仓库的设计者和管理人员使用。

他们使用这类工具进行:
a. 设计和定义数据仓库数据库;
b. 定义数据仓库的数据源;
c. 指定一组规则用来约束当数据从外部源点进入数据仓库时的系
统行为。

定义部分的工作结果是一批元数据,这批数据将存放
在信息目录中。

2.数据获取部分
数据获取部分负责从外部数据源析取数据,并在数据仓库内对所析取的数据实施后处理。

为了实现数据仓库系统的主要目标----以最终用户最容易理解和使用的方式组织和存储数据,进行后处理是必须的一步。

后处理包括对所析取数据的提炼和变换。

在定义部分所建立的规则用来约束实施后处理时的系统行为。

数据提炼包括以下内容:记录或记录内栏目的重构,删去不需要的运行信息,字段值的解码和翻译,补充缺漏的值以及检查数据的完整性和相容性。

变换的内容如上所述。

需补充的两点是变换还可以包括对原数据加上时间标记及对导出数据的计算,在完成后处理后,即可将处理的结果加载到相应的数据仓库数据库中,这种加载可通过源数据库的加载工具实现,如果源库是关系数据库,一般可用 SQL 类的工具实现对日常数据清理和归整,来自外部数据源的数据不会原封不动地进入数据仓库,而是必须进行必要的变换以增强其可用性。

最常见的数据变换有获取瞬像数据、实施集运算(求和、求平均量等)、分组、填写缺漏值、预报趋势(填入预测量)、数据结构与格式的转换、提取样本值、编码值与可读值间的转化等等。

3.管理部分
管理部分由一组系统服务工具构成,这类工具及其所提供的服务可为数据仓库系统中其他部分所利用,还可以用于管理数据仓库中的数据集,数据集是对特定的一个或一级用户有用的一组数据,这组数据是从数据获取部分得到的基本数据导出的。

管理部分提供的服务包括数据的维护、数据的分发、数据仓库的例行维护,其中,维护服务完成从基本仓库数据导出特定数据集的任务;分发服务负责将集中的仓库数据分发到多个分设的数据仓库数据库服务器和其他供最终用户使用的决策支持系统上面;例行维护服务包括了对数据仓库的常规安全性服务、归档服务、备份、恢复以及对基本仓库数据和数据集的监督服务。

在当前,例行维护服务多由基本操作系统和数据库系统软件来完成。

4.信息目录
数据仓库所管理的数据,不仅有供最终用户(企业管理人员、各级决策者)使用的,还包括供数据仓库系统的开发者和维护者使用的数据。

后一类信息是用来描述仓库数据库结构的,称之为元数据。

元数据的管理是数据仓库成功应用的关键。

数据仓库系统中的信息目录,用来反映本系统中元数据的组织情况。

通过信息目录,可帮助用户了解在数据仓库中都存放着什么信息以及如何访问和使用这些信息。

一般来说,一个完整的信息目录应当由几部分组成,即技术目录、业务目录和信息导航器。

数据仓库的设计者和管理者所使用的数据,其描述信息由技术目录保持和管理。

这类信息有关于数据源和目标、数据的提炼规则、数据源与仓库数据库之间的变换规则和映射等的描述信息。

技术目录中的信息,是在数据仓库设计者在定义数据源和数据目标时,以及向数据仓库拷贝数据而应用某些规则时产生的。

如果外部系统拥有库管理工具、DBMS 系统目录或者CASE 工具,也可以借用相应的工具从外部系统输入这类信息。

为了使数据仓库的设计者和管理者能有重构、调整和优化数据仓库的依据,技术目录还将保存和维护与上述目标相对应的信息,这类信息包括:数据仓库中数据的总量、数据仓库的创建的更新日期、仓库中数据的存取和使用方法等。

业务目录包含的信息,是将仓库中的数据以符合最终用户业务习惯的方式表达出来。

这类信息包括:同一仓库数据的业务习惯叫法与相应的数据仓库命名及别名对照、仓库数据的来源、导出规则和数据的当前值、与数据拥有者的联络信息、预定义的查询与报告的内容细节、授权要求等。

这类信息通常是由数据仓库的管理员生成,有的也可以由外部系统(CASE 工具、查询或报告生成工具等)引入到数据仓库中来。

业务目录的使用和仓库数据的存取需要简单易用的工具来辅助,信息导航器就是这样的工具,其基本功能是:对业务目录中的信息实施查询和搜索、经查询而生成临时性的或永久性的仓库数据集、向仓库管理员发送新的数据获取请求的通讯、向数据仓库系统的数据分发部件发送分发请求、与系统的数据分发部件和数据存取与分析部件直接交互。

5.数据库管理系统
数据库管理系统是数据仓库的重要协同支持部分。

整个系统都程度不同地依赖数据库软件的支持。

其中最基本的支持是对仓库数据检索和维护。

能够有效支持数据仓库系统的数据库软件,必须具备两个能力:伸缩能力和运行效率。

由于数据仓库所维护的数据量一般都在 TB 之上,所以上述要求的道理是再明白不过的了。

在当前,支持数据仓库系统的主要是RDBMS,所以效率问题更显得重要。

为了解决在加载、存取和分析大批量仓库数据时存在的效率问题,IBM 推出了具有广泛并行处理能力的产品,这类产品充分利用大规模并行处理机的能力和开放系统的优势,在伸缩性效率上均有实质性的改观。

数据仓库系统需要数据库软件提供的基本支持包括并行查询、并行建索引和并行常规维护(加载、备份和恢复等)。

6.数据存取与分析部分
存取与分析部分属于仓库系统的前端。

这里主要由桌面信息系统的各种工具组成。

在C/S 计算环境下,这部分属于客户端。

数据仓库的最终用户在这里提取信息、分析数据集、实施决策,从而可望取得竞争优势。

能够进入这一部分的软件工具,主要是查询生成工具、多维分析工具和数据提取工具等。

第二章建议方案简介
关于ⅩⅩ银行如何实现数据仓库的建议
经过前一段时间的调查研究,IBM 特向ⅩⅩ银行提出这份建议,建议书的设计办求体现以下要点:
在ⅩⅩ银行现有的技术和经验的基础上开展建设,保护贵行在这些方面的投资,充分考虑到贵行在数据库技术如数据建模和数据库管理等方面的经验,以及正在使用的 IBM 产品,建议的新产品都是易于接受和使用的如 UNIX,DB2 UDB 系列产品等。

建议书编写的过程中,咨询了多位有丰富银行业经验的专业顾问,他们对于如何在银行业内实现数据仓库有多年的实践经验,可以保证尽量降低方案的风险。

为将来的发展打下良好的基础,由于银行金融企业业务的不断发展,以及企业信息系统可采用的新技术不断涌现,所以绝对有必要保证系统有充分的可扩展性,能够采纳各种新技术,如数据采掘工具,互联网和多媒体等。

采用开放的,可重用的技术成份,尽量增加系统的灵活性,使投资得到最大程度的保护。

通过采用成熟的技术使系统建设的风险降到最低。

采用联接集成技术来降低总体运营成本,在本建议书中最明显的例子就是采用数据复制技术,在 AS/400 主机系统和数据仓库间传输数据。

总体建议的要点:
基于大规模并行技术的开放,可重用,紧密集成的组件,这个方案经过国际范围内多个专业顾问的审核,如 Richard Finkelstien, IDC 及ColinWhite 等,并得到他们的一致同意。

为开发完整的业务系统而选定的一整套来自 IBM 及其伙伴厂商的软件产品。

与ⅩⅩ银行在数据分析发现方面建立数据发掘的合作关系,使贵行成为中国银行界的领先企业,通过准确的客户定位,需求顾测等手段获得丰厚的利润。

IBM 将召集来自世界各地的数据仓库和数据发掘方面的专家,他
们有多年为银行客户服务的经验,将为贵行提供与业务相关的顾问服务。

从技术及财务方面为客户考虑,提供单一而灵活的价格条款,以分期实现的方式,使系统的建设对现行系统的影响减到最少,在整个建设过程与客户共担风险。

本建议书的核心技术是 SP 系统,SP 系统的机器已在世界各地的大银行内普遍使用,如中国银行和花旗银行。

方案内的另一个核心技术DB2 UDB 的并行版本(EEE) Enterprise-Extended Edition,它是目前最快的并行数据库,也是目前唯一一个符合标准的全并行数据库。

其中还包括了从 AS/400 到 SP 的数据复制工具 DataPropagator。

方案中的其他软件产品有:数据集市工具 VisualWarehouse,数据采掘工具 Intelligent Miner,以及 DataGuide、ADSM 以及进展技术公司的 ETI 等。

在本方案中特定提出一个专门条款:与ⅩⅩ银行的数据采掘合作。

数据采掘是目前国际上各大企业普遍采用的一种用于增加和管理效益的手段,它是一种比多维分析工具更先进的数据分析技术。

采用了这项技术的用户普遍反映良好,认为能很好地帮助他们降低成本,增加收入,管理风险,招揽客户和扩大市场。

IBM 研究中心根据数据仓库的使用经验,总结出一组需求建模的算法,由各地的专业顾问指导了数百个客户使用这些工具,选出最适合总结业务流程的8个算法,涉及的数据采掘技术包括聚集(Clustering)、分类(Classificaiton)、关联发现(association discovery)、序列模式发现(sequential pattern discovery)、相似时间序列发现(similar time sequence discovery)和预测(prediction)。

数据采掘系统的开发中使用了多种技术和产品,如数据预备工具和可视化技术,为客户实现满意的效果。

通过这些系统的建设,也证明了所用的工具和硬件 (RS/6000) 和数据库环境 (DB2 UDB) 有足够的可扩展能力,能处理大型数据文件。

与目前市场上其他解决方案相比,IBM 的顾问组提供的服务明显高出一筹,其他公司提供的算法只能适用于单一种特定的情况,IBM 的算法则能在各种企业中使用,所提供的 API 能集成其他表示和决策支持工具,全世界共有9个 IBM 的实验室,50多个专业研究人员从事这方面的工作,他们提出的方案能分析数以百万计的记录,与关系型并行数据库集成,而不再受限于由内存容量决定的小型文件。

我们向贵行推荐 DB2 并行版本 EEE,是因为我们有足够的数据采掘技术和经验,使之能处理非常大量的数据,发现从来不曾发现过的模式和关联。

在方案中,我们将向贵行提供所有合适的工具和资源,并希望组织一些研讨会,共同探计如何更好地选择适用于中国银行业的产品和技术。

根据ⅩⅩ银行提供的资料,我们认为整个企业用的数据仓库系统需要一台装有8个高节点的 SP 系统,最初时需要 400GB 存储空间,有必要时,可以在其他省的分行安装数据仓库或数据集市,具体方案视当地的业务量而定,我们设计了相应的两个方案,第一个方案是在总行配备一个8个高节点的 SP 系统,配备 650GB 存储设备;第二个方案是在总行配备一个4个高节点的 SP 系统,配备 325GB 存储设备。

然后在各个分行各配备一个2个高节点的 SP 系统,配备 162GB 存储设备。

详细方案见附图。

IBM 建议使用第一种方案。

因为
1. 整个数据仓库系统在一个地方,易于管理和维护;
2. 降低费用,避免重复投资,可共享资源;
3. 从业务上看,数据仓库得出的结论更具有整体性。

建议方案
企业级的数据仓库与数据集市的比较
根据ⅩⅩ银行提出的业务需求,我们建议采用一个分两期的方案来实现数据集市的概念,第一步是建立一个全局的数据仓库,它是建立数据集市的必由之路,数据仓库和数据集市不应该是两个完全分开的系统,因为数据集市虽然向独立的业务领域提供高质量的信息,但数据来源和基础是与数据仓库无法分开的,否则就会出现数据完整性,数据可管理性和元数据可管理性等问题,全局集中的企业数据仓库为所有为特定业务领域服务的数据集市提供一个可靠的基础。

数据集市的定义逻辑成份较多,而不注重于物理角度,企业级的数据仓库指把企业业务信息经提炼整理后作长期的保存,而数据集市保存的信息附属于某一特定的业务范围,相对比较动态化,因为数据集市相关的业务范围会随着时间和经营方针的改变而改变。

数据集市需要快速访问原始业务数据,这些数据可能是从几个不同的时期收集来的,事先要经过业务规则的检验和净化处理。

这样才。

相关文档
最新文档