数据仓库技术及其在金融行业的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据库技术及其在金融行业的应用
1. 前言
数据库仓库(DW)技术从1991年开始出现,经过多年的摸索和应用,目前在一些发达国家已经建设得比较成熟,为企业综合与灵活的分析型应用提供了强大的数据支撑,为管理层的分析决策和操作层的智能营销提供了技术保证,为企业带来了多方面的收益。而在国内,数据库仓库仍处于尝试或初级建设阶段。
国内的金融行业,随着外部监管和信息披露的压力、内部管理和决策分析的需要,在建设分析类应用时,也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。建立数据仓库能够减少对数据层的重复投资和资源浪费、统一数据标准、监管和提高数据质量、消除信息孤立、支持综合分析和灵活及时的分析型应用、适应管理和发展、提高业内竞争力。
本文对数据库技术做一个概括性的介绍,并对国内外金融行业数据仓库技术的应用现状做一个简单分析。
2. 数据仓库概念
2.1. DW的提出
2.1.1. 需求
业务系统的建设与逐渐完善,巨量数据信息的积累。
分析类需求不断增加,传统分析类应用造成巨大的资源浪费和管理困难。
业务数据平台异构、数据来源口径多、标准不统一、信息孤立。
整合部门级应用,建设企业级应用,满足综合分析、复杂查询、智能营销等高级需求。
2.1.2. DW概念的提出
MIT在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采用完全不同的架构和设计方法。
1988年,IBM为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架构和规范。但没有进行实际的设计。
1991年,Bill Inmon提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。
2.2. DW的四个特征
2.1.1. 面向主题
OLTP应用或支持独立分析的应用是面向应用组织数据,数据分散,不利于综合分析。
为OLAP应用提供数据支撑的DW是综合分析业务需求对不同源系统数据进行提取、提炼,按主题重新设计数据模型和重组数据,覆盖所有的应用。
主题是在较高层次上将企业信息系统中的数据综合、归类,并进行分析利用的抽象。例如对于一个银行来说,DW所面向的主题域可能包括当事人、协议、产品等。
2.1.2. 集成共享
由于源系统的数据平台异构、数据标准不统一、数据模型差别大,在建设数据仓库时要进行数据集成,为所有应用共享统一标准的数据。
数据集成的工作主要包括三个内容。
数据清洗:按照数据质量管理的要求进行数据清洗,保证进入数据仓库的数据都是符合规范且可以使用的。
数据转换:将不同标准的数据进行转换与统一,并保证可以回溯。
数据整合:不同源系统的数据在数据仓库中可能会进入到相同的模型中,要对源系统与数据仓库模型的差异进行分析整合。
2.1.
3. 随时间变化
DW自己不产生源数据,但需要根据源数据进行数据加工和汇总。DW中加工后的基础数据和汇总数据是随时间不断变化的。
2.1.4. 不可更新
这是指在DW中不会更新从源系统中传过来的细节数据。
在进行数据转换时,一般也并不删除原值。
2.2. DW与DM、ODS的关系
2.2.1. DW与DM
DM是数据集市(Data Mart),相当于部门级或应用级的数据仓库,一个企业内部一般建有多个DM,不为种类的分析型应用使用。各DM分别设计和建立,数据标准和数据模型没有统一。DM建设难度小,容易成功,但随着数据集市越来越多,无法解决数据冗余、数据质量、数据标准不统一、统计数据不一致等问题,无法满足综合分析和智能查询的业务需
要。
DW是指企业级数据仓库,一般一个企业内部只建立一个,数据层大集成,可以为所有分析型应用所使用。由于技术条件的限制,DW在前几年的建设初期,难度很大,遭到过大面积的失败。
目前所指的数据仓库实际上包含了数据集市和前期数据仓库的概念,可以说是数据集市和数据仓库的融合。数据仓库内部即可建立企业级整合统一的数据层,同时也可建立为部门级决策支持所设计的数据集市。
2.2.2. DW与ODS
ODS是操作型数据存储(Operational Data Store)。与DW相同的是,它也是面向主题的;是集成的(可能是部分集成)。与DW不同的是,ODS要具有同时支持分析型应用和操作型应用的特性,因此它存储的数据是当前的,需要实时刷新,却不一定要求存储非常大量的历史;基础数据是随业务而更新的。
ODS也经历了多种应用形式,它曾做在数据仓库的前端,做一些初级的数据整合,数据快进快出,例如这可以支持要求每小时做一次分析的应用。它也曾作为初级形式的数据仓库,例如支持面向电子商务的ODS。
ODS产生的技术背景是由于早期的DW因为技术条件的限制,不存储细节数据、难以实现频繁的更新和删除,不能支持实时性要求较高的分析应用。但ODS具有数据同步复杂(一般需要两次数据落地)、数据共享困难、数据冗余、管理复杂等问题。目前由于条件的成熟,ODS和DW也有走向融合的趋势,在数据仓库内部分为动态数据区和表态数据区,分别相当原来的ODS和DW概念。
2.2.
3. 走向融合后的DW
集成原来的DW、DM和ODS,融合后的企业级数据仓库,在内部划分出多个数据层次。在近期业务数据区,能够为一线业务人员提供战术性决策和操作智能;在长期历史数据区,能够为管理人员提供战略性决策分析和复杂查询。即可支持部门特色的应用,也可支持跨部门的企业级综合应用。
整合后的企业级数据仓库(EDW)简化了数据管理和维护流程,减少了数据冗余和延迟,减小了投资成本和协调工作,满足多种级别智能型应用的需要,为企业创造长期的价值。
3. 数据仓库架构
3.1. 数据仓库架构的构成
广义的企业级数据仓库(EDW)包括基础平台和分析型应用。
基础平台又可分为技术架构和数据架构。技术架构包括ETL体系、数据访问体系、数据存储体系、安全管理体系等;数据架构包括数据标准、数据质量、数据模型、数据管控、数据接口等。