数据仓库原理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库原理

-by zvane 1. 数据仓库概念

因为,管理人员常常传统数据库以及OLTP(On-Line Transaction Processing 联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。

希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。

为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。

1.1 定义

William H.Inmon在1993年所写的论著《Building the DataWarehouse》首先系统地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。文中他将数据仓库定义为:

A data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions.

一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。

1.2 特性

1.2.1 subject-oriented(面向主题性)

面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数由数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。例如,企业中的客户、产品、供应商等都可以作为主题看待。

从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。

从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。

1.2.2 integrated (数据集成性)

数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。

数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。

1.2.3 time-variant 数据的时变性

数据仓库的时变性,就是数据应该随着时间的推移而变化。

尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据10年前的数据进行决策分析,那决策所带来的后果将是十分可怕的。

因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中必须不断的生成主题的新快照,以满足决策分析的需要。数据新快照生成的间隔,可以根据快照的生成速度和决策分析的需要而定。例如,如果分析企业近几年的销售情况,那快照可以每隔一个月生成一次;如果分析一个月的畅销产品,那快照生成间隔就需要每天一次。

1.2.4 non-volatile 数据的非易失性

数据仓库的非易失性是指数据仓库的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间。因为数据仓库中数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。

1.3 in support of management decisions 支持决策系统

数据仓库的组织的根本目的在于对决策的支持。高层的企业决策者、中层的管理者和基层的业务处理者等不同层次的管理人员均可以利用数据仓库进行决策分析,提高管理决策的质量。

企业管理人员可以利用数据仓库进行各种管理决策的分析,利用自己所特有的、敏锐的商业洞察力和业务知识从貌似平淡的数据发现众多的商机。数据仓库为管理者利用数据进行管理决策分析提供了极大的便利。

1.4 数据仓库与传统数据库的比较

对比内容数据库数据仓库

数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、

面向主体域、管理决策分析应用

重复处理

静态、不能直接更新、只是定时添加数据特性动态变化、按字段更

简单、适合分析

数据结构高度结构化、复杂、

市和操作计算

使用频率高中到低

数据访问量每个事务只访问少量

有的事务可能要访问大量记录

记录

以秒为单位计量以秒、分钟、甚至小时为计量单位

对相应时间

的要求

2. 数据仓库体系结构

3. 数据模型

3.1 元数据(Metadata)

元数据描述了数据的结构、内容、键、索引等项内容。在数据仓库中,元数据定义了数据仓库中的许多对象——表、列、查询、商业规则或是数据仓库内部的数据转移。元数据是数据仓库的重要构件,是数据仓库的指示图(roadmap)。

对于元数据(Metadata)的定义,这个概念非常广,一般都是这样定义,“元数据是描述数据的数据(Data about Data)”,这造成一种递归定义,就像问小强住在哪里,答,在旺财隔壁。按照这样的定义,元数据所描述的数据是什么呢?还是元数据。这样就可能有元元元...元数据。

3.1.1 元数据类型

数据源的元数据

数据模型的元数据

数据源与数据仓库映射的元数据

数据仓库应用的元数据

3.1.2 元数据重要性

为数据仓库服务与DSS分析员及高层决策人员服务提供便利

解决操作型环境和数据仓库的复杂关系

数据仓库中数据的管理

3.1.3 元数据在数据仓库开发期间的使用

确认数据质量、同步化和刷新、映射

3.1.4 元数据在数据源抽取中的作用

资源领域的确定、跟踪历史数据结构变化的过程、属性到属性的映射、属性转换

3.1.5 元数据在数据求精与重构工程上的作用

数据的分割、概括与聚集、预算与推导、转换与再映像

相关文档
最新文档