数据仓库技术简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库技术概述
数据仓库技术
随着数据库技术的日趋成熟以及应用系统逐渐完善,无论是利用早期的RDB、Dbase,还是后来以其领先的核心技术日渐垄断关系数据库市场的Oracle、Sysbase、DB2,企业已经积累了大量的数据,这些数据信息为企业的发展提供了客观依据。毫无疑问,在竞争激烈的商业环境下,信息将是取胜的关键因素,决策者必须能快速可靠、随时自主地访问企业数据,才能有效地做出计划和决策。在这种需求牵引下,形成了数据仓库(Data Warehouse)的新概念、新技术。
1数据仓库的概念
数据仓库的提出是以关系数据库、并行处理和分布式技术的飞速发展为基础,是解决信息技术(IT)在发展中存在的拥有大量数据,而其中有用信息贫乏的综合解决方案。数据仓库是一种新的数据处理体系结构,是对企业内部各部门业务数据进行统一和综合的中央数据仓库。它为企业决策支持系统(DSS)和经理信息系统(EIS)提供所需的信息。它是一种信息管理技术,为预测利润、风险分析、市场分析以及加强客户服务与营销活动等管理决策提供支持的新技术。
数据仓库技术对大量分散、独立的数据库经过规划、平衡、协调和编辑
后,向管理决策者提供辅助决策信息,发挥大量数据的作用和价值。
概括地说,数据仓库是面向主题的(Subject-Oriented)、集成的(Integrated)、稳定的(Nonvolatile)、不同时间的(Timer-Variant)数据集合,用于支持经营管理中决策制订过程。
数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据的内容,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。
数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。
传统数据库用于事务处理,也称为操作型处理,是指对数据库联机进行
日常操作,即对一个或一组记录的查询和修改,主要面向企业特定的应用服务。用户关心的是响应时间、数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,它是解决决策支持系统的基础。
数据仓库的数据概念模型是数据的多维视图,它直接影响到前端工具、数据库的设计和联机分析处理(On Line Analytical Processing, OLAP)的查询引擎。在多维数据模型中,一部分数据是数字测量值,而这些数字测量值是依赖于一组维的,这些维提供了测量值的上下文关系。因此,多维数据视图就是这样一些由层次的维构成的多维空间中,存放着数字测量值。多维概念模型的另一个特点是对一个或多个维所做的集合运算。这些运算可以包括对于同样维所限定的测量值的比较。一般来说,时间维是一个有特殊意义的维,对决策中的趋势分析很重要。
针对多维模型产生了OLAP分析方法,包括以下三种:
(1)旋转:即将表格的横、纵坐标交换(x、y)→(y、x).
(2)上钻和下钻:对所关心的数据根据维的层次提升或降低观察的层次。(3)切片和切块:主要根据维的限定做投影、选择等数据库操作获得数据。
2数据仓库的数据组织
一个典型的数据仓库的数据组织结构如图所示:
数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需
要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见,数据仓库中存在着不同的综合级别,一般称之为"粒度"。粒度越大,表示细节程度越低,综合程度越高。
高度综合级
轻度综合级
当前细节级
早期细节级
图1 DW数据组织结构
数据仓库中还有一种重要的数据--元数据(metadata)。元数据是"关于数据的数据",在数据库中,元数据是对数据库中各个对象的描述;在关系数据库中,这种描述就是对表、列、数据库、视图和其他对象的定义。从广义上讲,数据仓库元数据代表定义数据仓库对象的任何东西,无论是一个表、一个列、一个查询、一个商业规则,还是数据仓库内部的数据转移。
元数据是数据仓库中所有管理、操作数据的数据,是数据仓库的核心。数据仓库反映的是企业数据库的业务模型,其核心是管理元数据。数据仓库元数据被分成三类:
(1)管理元数据。它包括所有建立和使用数据仓库的信息,源数据库的描述,后端和前端工具选择,定义数据仓库的模式,综合数据、维和层次信息,预定义的查询和报表,数据集市的位置和内容,数据存储
的物理组织、分段,数据抽取、清洗、转换的规则,数据刷新的策略,数据存取的权限、用户等限定。
(2)业务元数据。这一部分有业务流程和定义,数据所有关系和存取控制策略。
(3)操作元数据。它是数据仓库在运行时的管理信息,记录数据在进行层次分析时的层次位置、现在数据仓库中的数据信息、监测信息(包括使用统计、错误报告等)。
数据仓库的数据组织方式共有三种:虚拟存储方式、基于关系表的存储和多维数据库存储方式。
虚拟存储方式是虚拟数据仓库的数据组织形式。没有专门的数据仓库来存储数据,数据仓库中的数据仍然在源数据库中,只是通过语义层工具根据用户的多维需求,完成多维分析的功能。这种方式组织比较简单,花费少,用户使用灵活。但同时这种方式也存在一个致命的缺点:当源数据库的数据组织比较规范,没有数据不完备、冗余,又比较接近于多维数据模型时,虚拟数据仓库的多维语义层就容易定义。而一般数据库的组织关系都比较复杂,数据库中的数据又有许多冗余和冲突的地方。在实际组织中,这种方式很难建立起为决策服务的有效数据支持。
关系型数据仓库的组织是将数据仓库的数据存储在关系型数据库的表
结构中,在元数据的管理下,完成数据仓库的功能。这种组织方式在建库时,有两个主要过程完成数据的抽取。首先要提供一种图形化的点击操作界面,