第3章-设计数据仓库-2
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
系 经常发生更新的实体是事实的上佳候选 ;而静态的实体则不是
SALE---事实
SRORE---不是事实
星型模型
主要包含3种逻辑实体:
事实表 维度表 联系
星型模型的特点
文本数据与数值数据分离
文本数据通常出现在维表中,而数值数据出现在事 实表中
可以为决策支持系统的处理优化数据
商店的编号没有具体的说明。
为了打印报表将增加这些编号的名称说
明,即部门名、商店名等,在维表中增 加这些说明,即修改该星型模型
时间 时间键 时间说明 日期 星期 月 年 级别号 销售事实 时间键 地理位置键 商品键 销售数量 销售单位
地区 地理位置键 地理位置名 地区号 地区名 商店号 商店名 级别号
商品 商品键 商品名 部门号 部门名 商品类号 商品类名 级别号
修改后的星型模型
产品维度表
产品关键字(PK)、产品描述、商标描
述、分类描述、部门描述、包装类型、 包装尺寸、重量、储藏类型、货架类型、 货架高度、货架深度。。。。。。 产品维度表每行都有与产品相关的商标 与分类,有冗余但易于使用
维度中的文本与数字
维度应当是文本和离散的 尽量使用详细的文本信息取代编码
数字属性放入维度表还是事实表应当看
它是一个含有许多取值并参与运算的度 量(应放入事实表),还是变化不多并 参与约束条件的离散取值(应放入维度 表)
产品尺寸------维度表
产品生产成本------事实表
例:业务数据的E-R图
日期维度:日期关键字、日期描述、星期、年
历月、年历周、年历日、月编号、周编号、日 编号、财政日、财政月、周末指示符、节假日 指示符、销售旺季、重点事件。。。。。。 商场维度:商场关键字、名称、街道、城市、 省、邮编、面积、开业时间。。。。。。 促销维度:促销关键字、名称、类型、媒体、 广告、优惠卷、促销价、开始时间、结束时 间。。。。。。
第3章 设计数据仓库(2)
数据仓库设计
概念设计
实体关系图(ERD)
逻辑设计
数据项集(DIS) 维度事实模型DFM
物理设计
数据仓库的概念设计
实体关系图(ERD) 以实体和关系为特征 实体用椭圆表示 关系用箭头表示 箭头方向和数量表示关系的基数
实体关系的表示
一个用户要按星期与商标来查看销售额,星
期与商标就必须是可的维度属性
维度内容
维度属性是查询的约束条件、分组与报表标签
生成的基本来源 每个维度用单一的主关键字进行定义,主关键 字是确保与之相连的事实表存在完整性的基础。 非直接相关属性
产品:包裹大小与品牌
非规范化
很多维度变化很缓慢 多级层次结构 维度表通常有多种多级层次结构
实体和属性的建模惯例
唯一的名字 标题风格
完整、非缩写的单词
单数名词
企业ERD由企业内各个反映不同群体观点的高
层数据模型组合而成。
数据仓库的逻辑设计
对概念模型中标识的每个主要主题域或
实体,都要建立一个中间层模型
中间层数据模型包括四个基本构造: 主要数据分组
每个主要主题域只有一个主要数据分组,包含了只存在一次的属 性
退化的维度 既不是事实也不是维属性的数据元素 如发票号、订单号等
事实表设计
毛利润=销售-成本;在已有销售和成本
字段的情况下,是否应物理存储毛利润 字段? 应存储
减少用户出错
便于生成报表
维度表
维度表是事实表不可分割的伴侣 维度表倾向于将行数做得相当少(通常
<100万行),而将列数做得特别大 数据仓库的能力与维度的质量和深度成 正比
中间层数据模型例子
企业DIS
企业DIS由企业内各个反映不同群体观点的DIS
百度文库组合而成。
维度事实模型DFM
事实是与决策相关的概念,通常是建模
公司内发生的一组事件 维度是范围有限的事实属性,提供了事 实的分析坐标
事实
通常对应公司中动态发生的事件 事实可能对应一个实体或实体间的N元关
商品维
地区维
时间维
部门 商品大类
地区 商店
年 月 周
日
商品
销售事实
时间 时间键 时间说明 日期 星期 月 年 级别号
销售事实 时间键 地理位置键 商品键 销售数量 销售单位
地区 地理位置键 地理位置名 地区号 商店号 级别号
商品 商品键 商品名 部门号 商品类号 级别号
利用维关键字制定的星型模型
在各维中,只有部门,商品类,地区,
品和商品大类,地点维包括地区和商店,忽略 存货,而只注意销售事实。在E-R图中不出现 的时间,在多维模型中增加时间维。 在多维模型中,实体与维之间建立映射关系, 联系多个实体的实体就成为事实,此处销售实 体作为事实,其他实体作为维。然后用维关键 字将它转换为星型模型,如图所示。
E-R图向多维模型的转换
地区 地区号 地区名 1 1 m 商店 商店号 商店名 地址 城市 省 邮编 地区号 1 m 销售 销售日期 商店号 商品号 销售数量 销售单位
m 1 1
m
m
商品类
1 商品类号 商品类名 部门号 m 商品 商品号 商品名 商品类号
存货 星期 商店号 商品号 数量
E-R图向多维表的转换 该问题的多维表模型中,商品维包括部门、商
事实表
一个星型模型只有一个事实表 事实表包括独有的标识数据,同时包含其本身的独有
数据 事实表往往是数字度量,不欢迎描述性信息 事实表可达数百万行或更多 最小粒度原则 事实表同时包含指向周围表(维表)的预先连接的外 键 可以有任意多个外键与维表相关
事实表的内容
事实表的主键是所有维度表主键的组合键 主要是数字属性 表很长,但不宽 稀疏的数据 假期记录可能为空
二级数据分组
包含每个主要主题域可以存在多次的数据属性
表示二个主要主题域间的关系
连接器
数据的“类型”
由指向数据分组右边的的线段表示,左边分组为超类型,右边分 组为子类型
中间层数据模型
中间层数据模型例子
ERD层标识了一个关系后,在DIS层需要用一
对连接器关系来表现
中间层数据模型例子
雪花模型
雪花模型
星型模型与雪花模型