全面认识数据仓库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

全面认识数据仓库

1.前言

随着我行信息科技工作进入后蓝图时代,后线分析系统注1建设的需求会越来越高,将在快速响应、高效实施、灵活应变、信息统一、全局分析、深度挖掘、监管有力、报送及时、降低成本等方面提出更多新的挑战。面对蓝图成功投产后新的产品体系,如何统一规划全辖数据资源、整合后线产品架构、预备各项技术预研可能是今后信息科技工作的一个重心。

数据仓库(DW)是各行业后线系统进展的一个重要方向,它在克服部门级应用的局限(数据分隔注2、重复存储、重复中间加工过程注3、维护工作繁琐、资源重复投入等)、满足全辖基础数据共享、提供全局分析视角和应用组件、支持快捷灵活和低成本的开发部署等方面有着不可替代的功能和地位。

数据仓库本身有着不同视角的概念解释,大可涵盖整个企业级应用架构,小可专注于单纯的数据建模与存储;数据仓库涉及重多相关技术,如ETL、数据模型设计、多维分析、数据挖掘等;数据仓库建设可能是一个复杂高难的全局性项目,正确的实施路径、策略、方法与有效的质量治理是项目成败的关键;另外,数据仓库系统实施后的治理与维护,也是保证各类后线应用系统长期顺利运行的重要因素。针对这些数据仓库相关的概念、技术、策略、方法等,可能并不是每个人都有比较全面的了解。因此有必要对这些做一个系统的介绍,使大伙儿对数据仓库有一个全面清晰的认识。

2.数据仓库入门介绍

➢应用需求背景

随着联机事务处理(OLTP)业务系统的深入应用,企业各类业务数据不断积存和丰富,越来越需要从大量数据中提取有价值的信息,以辅助决策和指导经营。治理信息系统(MIS)和早期的决策支持系统注4(DSS)要紧是基于传统的数据库技术和事务处理环境,这种系统结构随着业务系统建设规模的扩大、数据量的巨增和数据复杂度的提高,已无法满足综合分析型应用的需求,造成数据丰富而信息贫乏的困境。

首先,人们逐渐认识到,分析处理和事务处理具有极不相同的性质,事务处理通常是对数据库进行联机的查询和修改操作,每笔交易的响应时刻和数据的安全完整是关键;而分析型处理往往是对大规模历史数据的批量加工计算,数据的规范统一和整体时刻窗口是重要关注点。因此直接采纳传统数据库技术和使用事务处理环境来支持分析型系统是不合适和失败的。两类系统的特点比较见表-1:

表-1

另一方面,企业的各类应用系统是在不同时期通常由各部门或分支机构面向特定应用建设的,存在着数据平台异构、数据结构和数据标准不统一等问题。传统的数据库技术和事务处理环境关于实现基于个不业务系统的部门级MIS和初级DSS系统尚可支持,而对实现全局范围的离散数据整合和综合信息利用,建设跨部门的企业级分析应用已无能为力。

➢数据仓库的提出

麻省理工学院在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采纳完全不同的架构和设计方法。1988年,IBM为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架构和规范,但没有进行实际的设计。1991年,Bill Inmon提出了数据仓库概念,并对什么缘故建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。

Inmon对数据仓库的定义是“数据仓库是面向主题的、集成的、稳定的、随时刻变化的数据集合,它用以支持经营治理中的决策制定过程”。

那个定义要紧描述了数据仓库的四个最差不多特征。在数据仓库的整体概念中,这是对最核心部分的狭义定义。我们还应该明白,除了那个最核心

的仓库体之外,广义的数据仓库概念,还包括来自各源业务系统的数据通过采集、下传和加载等步骤进行入仓库体的过程,包括仓库体的数据针对各类分析需求进行多维加工、挖掘、利用的过程,并包括全程数据流程设计和数据质量治理等过程。从狭义上讲,数据仓库是一个具有四个差不多特征的数据仓储体,从广义上讲,数据仓库是一种架设企业后线分析类应用的解决方案。

伴随着数据仓库,同时期还出现了联机分析处理(OLAP)和数据挖掘(DM)等新技术,从此,DW+OLAP+DM就逐渐形成新决策支持系统的概念。再后来的商务智能(BI)应用需求更是基于DW+OLAP+DM的支持。

➢两种数据仓库设计思路

提出数据仓库的不至Inmon一个人。Bill Inmon和Ralph Kimball差不多上数据仓库的首创者,但对数据仓库设计的观点专门不相同。

首先需要了解一个数据集市(DM)的概念。相关于数据仓库是一个企业级的高度综合数据集,数据集市确实是部门级的轻度综合数据集。

Inmon主张建立数据仓库时采纳DWDM方式,即先建一个统一数据层(狭义DW,中央数据仓库),将不同的OLTP数据集中到面向主题、集成、稳定、随时刻变化的统一数据层中,其中数据能够下钻到最细层,或者上卷到汇总层。再利用中间统一数据层,针对各部门的专门分析需要设计独立数据集市(数据仓库的子集)。见图2-1:

图2-1

而Kimball主张DMDW方式,即直接将源数据抽取转换到面向各部门分析需要的数据集市中,然后将一系列维数相同的数据集市联合起来递增地构建数据仓库,通过一致的维(公共定义的元素)能够共同看到不同数据集市中的信息。也即数据集市的联合=数据仓库。见图2-2:

图2-2

两种设计思路产生两种不同的数据仓库建设模式,一种是先构建企业中央数据仓库,一次性的完成数据的重构工作,最小化数据冗余度和不一致性,再从中央数据仓库中建筑数据集市,数据集市从数据仓库中得到大部分的集成数据,且直接依靠于数据仓库的可用性。这种建设模式的问题在于:投资回报时刻如何保证?建设中央数据模型的必要性和可能性?初始费用如何预算?。

另一种建设模式是先建数据集市,即由各个部门在各自的主题区域内进行数据重构,快速得到投资收益,然后通过联合数据集市递增地构建数据仓库,把建筑数据仓库作为一个长期的目标。这种由数据集市汇成数据仓库的

建设模式面临的要紧问题是:各个数据集市的数据不一致性难以解决,且存在一定的数据冗余。这种方法更能满足近期目标的需求,但增加了以后转换为独立的数据仓库的数据体系结构的困难。

从总的比较结果来看,Inmon的建设模式起步难度大,但假如走好了第一步,长远利好;Kimbal的建设模式更能满足近期目标的需求,但当以后试图跨数据集市猎取联合视图时,可能面临严峻问题。

数据仓库建设模式的选择要紧取决于商业驱动。假如企业正忍受糟糕的数据治理和不一致的数据,那么Inmon的方法就更好一些,能够带来全面革命和解放;假如企业迫切需要给用户提供信息,那么Kimbal的方法更能满足需求,能够通过逐步改革解决问题。大型项目一般会采纳Inmon的数据仓库建设策略,全球最资深的数据仓库服务商TERADATA确实是这种模式的忠实支持者。

➢数据仓库的四个特征

Inmon的数据仓库思想被奉为经典,他在数据仓库定义中描述的四个差不多特征是数据仓库之路上的入门概念,是数据仓库区不于事务处理环境和传统独立分析应用的最本质内容。

面向主题

OLTP应用或独立分析应用差不多上为满足个不应用需求而建设的,它们的数据是各取所需的、局部的,其数据定义标准和组织方式也各具特色。

相关文档
最新文档