第4章数据仓库中的维度与粒度

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


产品:包裹大小与品牌
非规范化
很多维度变化很缓慢 多级层次结构 维度表通常有多种多级层次结构
维度中的文本与数字
维度应当是文本和离散的 尽量使用详细的文本信息取代编码
数字属性放入维度表还是事实表应当看
它是一个含有许多取值并参与运算的度 量(应放入事实表),还是变化不多并 参与约束条件的离散取值(应放入维度 表)
级别的数据可能需要分解到低粒度级别。 而对于一些低粒度级的数据,如生产过程控制、网络 环境中产生的点击流数据等,必须对数据进行编辑、 重新排序和汇总等处理。
4.6 填充数据集市
数据粒度需要考虑的另一重要因素:
用于填充数据集市
数据仓库中的数据粒度必须是任何数
据集市所需要数据中的最小粒度。
精品课件!
精品课件!
日期维度:日期关键字、日期描述、星期、年
历月、年历周、年历日、月编号、周编号、日 Leabharlann Baidu号、财政日、财政月、周末指示符、节假日 指示符、销售旺季、重点事件。。。。。。 商场维度:商场关键字、名称、街道、城市、 省、邮编、面积、开业时间。。。。。。 促销维度:促销关键字、名称、类型、媒体、 广告、优惠卷、促销价、开始时间、结束时 间。。。。。。
维度设计
维度表
维度表是事实表不可分割的伴侣 维度表倾向于将行数做得相当少(通常
<100万行),而将列数做得特别大 数据仓库的能力与维度的质量和深度成 正比
一个用户要按星期与商标来查看销售额,星
期与商标就必须是可的维度属性
维度内容
维度属性是查询的约束条件、分组与报表标签
生成的基本来源 每个维度用单一的主关键字进行定义,主关键 字是确保与之相连的事实表存在完整性的基础。 非直接相关属性
在各维中,只有部门,商品类,地区,
商店的编号没有具体的说明。
为了打印报表将增加这些编号的名称说
明,即部门名、商店名等,在维表中增 加这些说明,即修改该星型模型

时间 时间键 时间说明 日期 星期 月 年 级别号 销售事实 时间键 地理位置键 商品键 销售数量 销售单位
地区 地理位置键 地理位置名 地区号 地区名 商店号 商店名 级别号
4.3 溢出存储器
应该考虑五年后如下因素:

有更多的技术管理大量数据 硬件费用下降 功能更强大的软件工具 最终用户更加专业化
4.3 溢出存储器
历史数据与细节数据造成了数据的显著增长 根据数据使用频率,可将数据分为二类: 经常使用的数据 不经常使用的数据(睡眠数据) 解决方案: 睡眠数据转移至海量备用存储器或近线存储器 常用的溢出存储器可分为: 低性能的磁盘存储器 近线存储器 串行磁带 ……
产品尺寸------维度表
产品生产成本------事实表
事实表的内容
事实表的主键是所有维度表主键的组合键 主要是数字属性 表很长,但不宽 稀疏的数据 假期记录可能为空
退化的维度 既不是事实也不是维属性的数据元素 如发票号、订单号等
粒度设计
原子数据应成为每个事实表设计的基础 好处:可以只通过添加维度,满足新的
商品 商品键 商品名 部门号 部门名 商品类号 商品类名 级别号
修改后的星型模型
产品维度表
产品关键字(PK)、产品描述、商标描
述、分类描述、部门描述、包装类型、 包装尺寸、重量、储藏类型、货架类型、 货架高度、货架深度。。。。。。 产品维度表每行都有与产品相关的商标 与分类,有冗余但易于使用
E-R图向多维模型的转换
商品维
地区维
时间维
部门 商品大类
地区 商店
年 月 周

商品
销售事实
时间 时间键 时间说明 日期 星期 月 年 级别号
销售事实 时间键 地理位置键 商品键 销售数量 销售单位
地区 地理位置键 地理位置名 地区号 商店号 级别号
商品 商品键 商品名 部门号 商品类号 级别号
利用维关键字制定的星型模型
4.4 确定粒度级别
一方面,合理推测粒度级别 确定粒度还需要通过一定量的反复分析,根据用户反馈不断 改进 另一方面,预测不同体系结构的需求 数据仓库中的数据需要处于最低的公共细节水平
4.5 反馈技巧
提高数据粒度的方法: 数据进入数据仓库时,进行汇总 数据进入数据仓库时,求平均值 数据集的最大/最小值放入数据仓库 只放入显然需要的数据 用条件逻辑选择需要的数据 系统需求了解到50%左右时即可以开始建造数据仓库 当正常的业务事务记录准备放入数据仓库时,高粒度
m 1 1
m
m
商品类
1 商品类号 商品类名 部门号 m 商品 商品号 商品名 商品类号
存货 星期 商店号 商品号 数量
E-R图向多维表的转换 该问题的多维表模型中,商品维包括部门、商
品和商品大类,地点维包括地区和商店,忽略 存货,而只注意销售事实。在E-R图中不出现 的时间,在多维模型中增加时间维。 在多维模型中,实体与维之间建立映射关系, 联系多个实体的实体就成为事实,此处销售实 体作为事实,其他实体作为维。然后用维关键 字将它转换为星型模型,如图所示。
查询要求
商场的最佳维度应是POS事务的单列项 促销效果、限时打折都需要低粒度数据
事实表设计
毛利润=销售-成本;在已有销售和成本
字段的情况下,是否应物理存储毛利润 字段? 应存储
减少用户出错
便于生成报表
例:业务数据的E-R图
地区 地区号 地区名 1 1 m 商店 商店号 商店名 地址 城市 省 邮编 地区号 1 m 销售 销售日期 商店号 商品号 销售数量 销售单位
相关文档
最新文档