数据仓库维度建模PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库维度建模
.
学习目的
❖ 在课程结束后应该知道:
▪ 数据仓库维度建模分哪几个步骤? ▪ 每个步骤都有哪些原则,和哪些误区? ▪ 掌握维度建模方法 ? ▪ 维度表属性在维度模型中起到什么样的作用? ▪ Kimball极力反对哪些建模方法?
.
一个比喻
❖ 比喻:
▪ 如果将数据仓库建设看作是一个高楼大厦建造过程的 话
.
维度表属性-日期维度
❖ 日期维度属性
▪ 是否还可以列出其它属性
日期维度
日期关键字(PK) 日期 星期 日历周结束日期 日历月 日历年月 日历季度 日历年季度 日历半年度 节假日指示符 。。。及其它
.
维度表属性-产品维度
❖ 产品维度属性
▪ 是否还可以列出其它属性
产品维度
产品关键字(PK) 产品描述 SKU编号 商标描述 子类描述 分类描述 部门描述 包装类型 包装尺寸 含脂量 。。。及其它
.
实例-1.选取业务流程
❖ 选取业务流程:
▪ 你能列出该连锁店急待解决的问题吗? ▪ 是否有系统能提供解决问题所需要的数据? ▪ 该系统对应的业务流程你清楚吗?
❖ 注意:
▪ 建立的第一个维度模型应该是一个最有影响的模型, 即它应该能对最紧迫的业务问题做出正面回答,并且 要保证有足够的操作型数据源的支持。
❖ 原则:
▪ 确定用于形成每个事实表行的数字可加型事实 ▪ 在需求调研时我们可以通过提出“您需要对哪些指标
进行统计?”这样的问题来确定事实。 ▪ 具有不同粒度的事实必须放在不同的事实表中 ▪ 事实一般在各维度上都有良好的可加性
.
四步曲-总结
❖ 维度建模总原则:
▪ 数据驱动和需求驱动相结合
业务需求
维度模型 1.业务处理 2.粒度 3.维度 4.事实
.
实例-2.定义粒度
❖ 定义粒度:
▪ 你还记得刚才的粒度定义原则吗? ▪ 在这个连锁店我们应该使用什么样的粒度?即事实表
要详细到什么程度?
.
实例-3.选定维度
❖ 选定维度:
▪ 如何得出基本维度? ▪ 什么是附加维度? ▪ 通过粒度的判断我们可以得出事实表的基本维度为:
日期、产品、商店与促销
日期维度
.
四步曲-3.选定维度
❖Leabharlann Baidu误区:
▪ 没有定义粒度就开始选定维度
❖ 原则:
▪ 在粒度确认后,选取能从各个角度,充分描述问题的 维度
▪ 为每个维度添加丰富的维度属性
❖ 示例:
▪ 常见维度包括日期、产品、顾客、事务类型和状态
.
四步曲-4.确定事实
❖ 误区:
▪ 没有第2步的粒度确认,就开始确定事实 ▪ 将含有不同粒度的事实放在了同一个事实表中
▪ 1.选取要建模的业务流程 ▪ 2.定义业务流程中的数据粒度 ▪ 3.选定用于每个事实表行的维度 ▪ 4.确定用于形成每个事实表行的数字型事实
.
四步曲-1.选取业务流程
❖ 误区:
▪ 不针对业务流程而针对业务部门进行维度建模 ▪ 将注意力放在业务部门身上,而不关注业务流程 ▪ 为某个部门建立单独的维度模型
❖ 误区:
▪ 数据仓库团队经常绕过这个看似不必要的步骤 ▪ 一个不合适的粒度定义将会使维度建模感觉无从下手
.
四步曲-2.定义粒度(2)
❖ 原则:
▪ 优先考虑具有原子粒度的业务信息,这些数据不能再 做进一步的细分
▪ 数据仓库中存储汇总的、概要性的数据主要是基于数 据库性能上的考虑
▪ 汇总数据不能成为最底层细节数据的替代品
❖ 原则:
▪ 针对业务流程进行维度建模 ▪ 确保某个业务流程中的核心数据只被抽取一次 ▪ 保证数据仓库中业务数据一致性
.
四步曲-2.定义粒度(1)
❖ 粒度的解释:
▪ 粒度传递了同事实表度量值相联系的细节所达到的程 度方面的信息。
▪ 简单的说,反映了事实表的明细程度
❖ 粒度举例:
▪ 超市小票上的购物清单 ▪ 医生的处方药品清单 ▪ 仓库每种产品库存值的月快照
.
维度表属性-商场维度
❖ 商场维度属性
▪ 是否还可以列出其它属性
商场维度
商场关键字(PK) 商场名称 商场编号 商场所在行政区 商场所在地区 首次开业日 最后重修日 。。。及其它
.
维度表属性-促销维度
❖ 促销维度属性
▪ 是否还可以列出其它属性
促销维度
促销关键字(PK) 促销名称 促销媒体类型 促销开始日期 促销结束日期 。。。及其它
日期关键字(PK) 待定日期属性
商场维度
商场关键字(PK) 待定商场属性
POS零售营销事务事实
日期关键字(FK) 产品关键字(FK) 商场关键字(FK) 促销关键字(FK) POS事务编号 待定事实
产品维度
产品关键字(PK) 待定产品属性
促销维度
促销关键字(PK) 待定促销属性
.
实例-4.确定事实
▪ 数据仓库维度建模就是大厦的框架建设工作 ▪ 数据仓库ETL过程,就是为大厦添砖加瓦的过程 ▪ 优秀数据访问工具则是大厦整体装修的最佳工具
❖ 框架的重要性
▪ 地基打多深决定大厦能做多高。 ▪ 钢筋混凝土结构还是刚结构决定了大厦的稳定性 ▪ 维度建模是数据仓库框架建设的重要技术
.
维度建模四步曲
❖ 四步维度建模步骤:
❖ 确定事实:
▪ 是否还记得确定事实的基本原则? ▪ 按照基本原则你认为事实表中应该包含哪些事实? ▪ 是否应该在事实表中存放计算列? ▪ 实例中事实应包括销售量、销售额与成本价,当然也可以包括毛
利润
日期维度
日期关键字(PK) 待定日期属性
商场维度
商场关键字(PK) 待定商场属性
POS零售营销事务事实
.
Kimbal极力反对的做法
日期关键字(FK) 产品关键字(FK) 商场关键字(FK) 促销关键字(FK) POS事务编号 销售量 销售额 成本额 毛利润金额
.
产品维度
产品关键字(PK) 待定产品属性
促销维度
促销关键字(PK) 待定促销属性
维度表属性
❖ 添加维度表属性
▪ 这是维度建模的最后修补工作 ▪ 增加的维度属性会为用户带来更多的查询条件 ▪ 丰富的维度属性将使查询变得更加灵活
.
实际数据
零售业案例背景
❖ 背景:
▪ 设想一下在一家大型杂货连锁店,其业务覆盖分布在 美国5个州范围内的100多家杂货店。
▪ 每个商店都有完整的配套部门,包括各类人员,并有 大致60000多个品种的产品放在货架上。
▪ 各杂货店的POS系统记录了每位顾客交易详的细信息 ▪ 定价与促销是管理层重要决策之一 ▪ 如何使各种形式的促销活动所产生的效能清晰可见?
相关文档
最新文档