数据仓库的数据模型、数据组织、数据仓库设计(学时2)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4/9/2020
-3-
DW&DM
数据仓库的数据模型-
与数据库系统数据模型的区别
数据仓库的数据模型中不包含纯操作型数据。 数据仓库的数据模型扩充了键结构,增加了时间属性作为
键的一部分。 数据仓库的数据模型中增加了一些面向主题的导出数据。
4/9/2020
-4-
DW&DM
数据仓库的数据模型
面向用户的需求
指标和事实
空白信息包图样式
-7-
DW&DM
〖例〗试画出销售分析的信息包图
解:首先根据销售分析的实际需求,确定信息包的维度、类别 和指标与事实:
(1)维度:包括日期维、销售地点维、销售产品维、年龄组 别维、性别维等。
(2)类别:确定各维的详细类别,如:日期维包括年(10)、 季度(40)、月(120)等类别,括号中的数字分别指出 各类别的数量;销售地点维包括国家(15)、区域(45)、 城市(280)、区(880)、商店(2000)等类别,括号 中的数字同样分别指出各类别的数量;类似地,可以确定销 售产品、年龄组别维、性别维等的详细类别。
细 化 层 次
更详细的 技术细节
信息包图
星型图模型
物理数据模 型
概念模型 逻辑模型 物理模型
4/9/2020
-5-
DW&DM
信息包图(概念模型)
信息包图:是数据仓库的数据模型的第一层或最高层。由 于大多数商务数据是多维的,但传统的数据模型表示三维 以上的数据有一定困难。而信息包图简化了这一过程并且 允许用户设计多维信息包并与开发者和其他用户建立联系。 这种模型集中在用户对信息包的需要,信息包提供了分析 人员思维模式的可视化表示。
(3)指标和事实:确定用于进行分析的数值化信息,包括预 测销售量、实际销售量和预测偏差等。
4/9/2020
-8-
DW&DM
销售分析的信息包图
信息包: 销售分析 维度
类别
日期
销售地点 销售产品 年龄组别 性别
年(10)
国家(15) 产品类(6) 年龄组(8) 性别组(2)
季度(40) 区域(45) 产品组(48)
4/9/2020
-11-
DW&DM
在很多情况下,维度实体还要向外延伸至详细类别实体, 或者说,详细类别实体是维度实体的附加信息,是维度 实体的扩展,说明了维度实体间的关系。这种在维度实 体上扩展详细类别实体的星形图称为雪花图。
4/9/2020
-12-
DW&DM
雪花图模型(逻辑模型)
雪花模型包括了三种逻辑实体:指标、维度、详细类别。
1990-1995年 销售明细表
DW&DM
粒度
粒度问题是设计数据仓库的一个最重要方面。 粒度是指数据仓库的数据单位中保存数据的细化或综合 程度的级别。 细化程度越高,粒度级就越小;相反,细化程度越低, 粒度级就越大。 在数据仓库环境中粒度之所以是主要的设计问题,是因 为它深深地影响存放在数据仓库中的数据量的大小,同时 影响数据仓库所能回答的查询类型。 需要在数据仓库中的数据量大小与查询的详细程度之间 要作出权衡。
4/9/2020
-16-
DW&DM
数据仓库的数据组织结构
4/9/2020
-17-
高度综合级 轻度综合级 当前细节级 早期细节级
DW&DM
高度综合级 轻度综合级 当前细节级
早期细节级
4/9/2020
数据仓库的数据组织结构
-18-
1996-2004年 每月销售表 1996-2004年 每周销售表 1996-2004年 销售明细表
雪花模型通常由一个很大的中心表(指标表)和一组较小的 表(维表)组成。雪花模型的指标表与所有的维表都要进行 连接。
类别、型号、产品名称
产品维
地区维
国家、地区、城市
4/9/2020
年、月、日
日期维
城市、区、名称
销售分析
实际销售 预测销售 预测偏差
代理商维 其他维
ห้องสมุดไป่ตู้
-13-
DW&DM
物理模型
物理数据模型:数据模型的第三层,它是星型图模型在数 据仓库中的实现,如物理的存取方式、数据存储结构等。
月(120) 城市(280) 产品(240)
区(880)
商店(2000)
指标和事实: 预测销售量、实际销售量、预测偏差
4/9/2020
-9-
DW&DM
星型图模型(逻辑模型)
星型图:数据仓库的数据模型的第二层是向最终的数据 结构添加某些细节的星型图模型。
与传统的关系模型相比,星型图模型简化了用户分析所 需的关系,从支持决策的角度去定义数据实体,更适合 大量复杂查询。
工作:
确定系统边界:决策类型、需要的信息、原始信息 确定主题域及其内容:主题域的公共键、联系、属性组 确定维度:如时间维、销售位置维、产品维、组别维等 确定类别:相应维的详细类别 确定指标和事实:用于进行分析的数值化信息
4/9/2020
-6-
DW&DM
信息包: 维度
类别
4/9/2020
在物理设计时,常常要按数据的重要程度、使用频率以及 对响应时间的要求进行分类,并将不同类的数据分别存储 在不同的存储设备中。重要程度高、经常存取并对响应时 间高的数据就存放在高速存储设备上,如硬盘;存取频率 低或对存取响应时间要求低的数据则可以放在低速存储设 备上。
4/9/2020
-14-
DW&DM
数据仓库与数据挖掘
(DATA WAREHOUSING AND DATA MINING)
石家庄铁道大学
内容
▪ 第2章 数据仓库的数据模型 ▪ 第3章 数据仓库的数据组织 ▪ 第4章 数据仓库设计
4/9/2020
-2-
DW&DM
第2章 数据仓库的数据模型
本章要点
▪ 数据仓库的概念模型:信息包图 ▪ 数据仓库的逻辑模型:星型图、雪花模型 ▪ 数据仓库的物理模型
星形图包括了三种逻辑实体: 指标、维度、详细类别
4/9/2020
-10-
DW&DM
〖例〗销售分析的星型图模型。
产品维 地区维
日期维
销售分析
实际销售 预测销售 预测偏差
代理商维 其他维
在星型图中,通过维度实体获得指标实体数据。指标实体与 维度实体间的联系通过每个维度中的最低层的详细类别实体 连接。
第3章 数据仓库的数据组织
本章要点
▪ 数据仓库中的数据组织 ▪ 粒度与分割 ▪ 数据仓库的数据追加
4/9/2020
-15-
DW&DM
数据仓库中的数据组织
数据仓库中的数据存在着不同的综合级别
早期细节级 当前细节级 轻度综合级 高度综合级
粒度:数据的不同综合级别
粒度越大、表示细节程度越低、综合程度越高。 级别的划分是根据粒度进行的