数据仓库的概念与体系结构
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
• 这个数据中心也是一个联机系统,它专门为分析统计和决策支持应用 服务,通过它可获取决策支持和联机分析应用所需要的一切数据。
• 这个数据中心就叫做数据仓库。简单地说,数据仓库就是一个作为决 策支持和联机分析应用系统数据源的结构化数据环境,数据仓库要研 究和解决的问题就是从数据库中获取信息的问题。
a
2
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
a
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
– 数据仓库: (更新驱动)
• 将来自多个异种源的信息预先集成,并存储在 数据仓库中,供直接查询和分析
a
11
查询驱动方法和更新驱动方法的比较
• 查询驱动的方法
– 需要负责信息过滤和集成处理 – 与局部数据源上的处理竞争资源 – 对于频繁的查询,尤其是涉及聚集(汇总)操作的查询,
开销很大(决策支持中常见的查询形式)
年)
– 数据仓库中的每一个关键结构都隐式或显式地 包含时间元素,而操作数据库中的关键结构可 能就不包括时间元素。
a
9
数据仓库关键特征四——数据不易丢失
• 尽管数据仓库中的数据来自于操作数据库, 但他们却是在物理上分离保存的。
– 操作数据库的更新操作不会出现在数据仓库环 境下
– 不需要事务处理,恢复,和并发控制等机制 – 只需要两种数据访问:
• 更新驱动的方法(带来高性能)
– 数据经预处理后单独存储,对聚集操作提供良好支持 – 不影响局部数据源上的处理 – 集成历史信息,支持负责的多维查询
a
12
数据仓库的组成
• 数据库 • 数据抽取工具 • 元数据 • 访问工具 • 数据集市 • 数据仓库管理工具 • 信息发布系统
a
13
数据仓库数据库
– 元数据分为:
• 技术元数据 • 业务元数据
a
16
技术元数据
– 技术元数据是系统的开发和管理人员使用的、描述数 据的技术细节的元数据。主要包括:
– 数据仓库结构的描述
• 仓库模式、视图、维、层次结构、导出数据的定义,以及数据 集市的位置和内容
– 操作元数据
• 包括数据血统(data lineage)、数据类别(currency of data), 以及监视信息
a
3
数据仓库的概念—教材上的定义
–数 据 仓 库 是 一 个 面 向 主 题 的 ( Subject Oriented ) 、 集 成 的 ( Integrate ) 、 相 对 稳 定 的 (Non-Volatile)、反映历史变化 (Time Variant)的数据集合,通 常用于辅助决策支持(DDS)
– 汇总用的算法 – 由操作环境到数据仓库的映射 – 关于系统性能的数据
• 索引,数据刷新、更新或复制事件的调度和定时
a
17
数据仓库的组成
• 业务元数据(商务元数据)
– 从业务角度描述了系统中的数据,是介于使用 者和真实系统之间的语义层,使得不懂计算机 技术的业务人员也能够“理解”系统中的数据。
• 使用数据清理和数据集成技术。
– 确保命名约定、编码结构、属性度量等的一致 性。
– 当数据被移到数据仓库时,它们要经过转化。
a
8
数据仓库关键特征三——随时间而变化
• 数据仓库是从历史的角度提供信息
– 数据仓库的时间范围比操作数据库系统要长的 多。
• 操作数据库系统: 主要保存当前数据。 • 数据仓库:从历史的角度提供信息(比如过去 5-10
– 围绕一些主题,如顾客、供应商、产品等 – 关注决策者的数据建模与分析,而不是集中于
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
a
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
数据仓库的概念与体 系结构
a
1
数据仓库的产生
• 联机事务处理系统(业务系统)刚上线时,查询不到数据是因为数据 太少了,而几十年后查询不到有关数据是因为数据太多了。
• 针对这一问题,人们设想专门为业务数据的统计分析建立一个数据中 心,它的数据从联机事务处理系统中来、从异构的外部数据源来、或 从脱机的历史业务数据中来
a
4
数据仓库ቤተ መጻሕፍቲ ባይዱ发展
– 以报表为主 – 以分析为主 – 以预测模型为主 – 以营运导向为主 – 以实时数据仓库、自动决策应用为主
a
5
数据仓库的特点
– 面向主题; – 数据集成; – 反映历史变化; – 相对稳定的。
a
6
数据仓库关键特征一——面向主题
• 面向主题,是数据仓库显著区别于关系数 据库系统的一个特征
• 删除对决策分析没有意义的数据 • 转换成统一的数据名称和定义 • 计算统计和衍生数据 • 填补缺失数据 • 统一不同的数据定义方式
a
15
元数据
– 元数据是描述数据仓库内数据的结构和建立方 法的数据。元数据(Metadata)是描述数据的 数据 。
– 在关系数据库中,数据是存放在表中的,表结 构的定义、关于结构的描述就是元数据。在数 据仓库中,元数据就是定义数据仓库对象的数 据。
• 数据的初始转载和数据访问(读操作)
a
10
数据仓库与异种数据库集成 比
较
– 传统的异种数据库集成:(查询驱动)
• 在多个异种数据库上建立包装程序(wrappers) 和中介程序(mediators )
• 查询驱动方法——当从客户端传过来一个查询 时,首先使用元数据字典将查询转换成相应异 种数据库上的查询;然后,将这些查询映射和 发送到局部查询处理器