第十七课--数据仓库和数据集市详解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

任务一:设计Northwind数据库的星型模型
设计实施
建立Sales_Fact事实表 主键是由时间序号、客户序号、发货人序号、产品序号及员
工序号共同组成一个多值键,并且这几个字段的值都是来自
维表的外部键。
Copyright© 2007 创智新程
任务一:设计Northwind数据库的星型模型
多维建模技术
星型和雪花模式是主要的存在形式。
星型模式包含一个大的包含大批数据的事实表和一系列维表。
雪花模式是星型模式的变种,不同的是将某些维表规范化。
Copyright© 2007 创智新程
星型模式
定货表 定单号 定货日期 事实表
定单号 . . . 日期标识 . .
日期表
日期标识 日 月
包含了众多描述性的列 维表的范围很宽(具有多个属性) 通常情况下,跟事实表相比,行数相对较少 通常<10万条 内容相对固定 几乎就是一类查找表
Copyright© 2007 创智新程
任务一:设计Northwind数据库的星型模型
解题步骤
定义OLAP的数据集市:包括使用星型模型或雪花模型。 事实的选择:通过事实表的共有特性及四种常见样式来选择
任务一:设计Northwind数据库的星型模型
设计实施
建立ShipperDim这个维表 发货人序号,是一个由标识生成的代理键。 其他字段都是由Shippers这个表来产生。
Copyright© 2007 创智新程
任务一:设计Northwind数据库的星型模型
将五个维表Time_Dim、Customer_Dim、
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(NonVolation)、反映历史变化(Time Variant)的集合数据, 用于支持管理决策和信息的全局共享。 --W.H.Inmon
Copyright© 2007 创智新程
Copyright© 2007 创智新程
雪花模式
维表进一步层次化,改善查询性能,增加表数量,增 加查询复杂性。
定货表 定单号 定货日期 事实表 定单号 . . . 日期标识 . . 日期表 日期标识 日 月 月 年 年
Copyright© 2007 创智新程
事实表
每一个事实表通常包含了处理所关心的一系列的度量
列数较少
经常发生变化 现实世界中新事件的发生-〉事实表中增加一条记录。
典型情况下,仅仅是数据的追加。
事实表的使用
各类度量值的聚类计算
Copyright© 2007 创智新程
维表
每一张维表对应现实世界中的一个对象或者概念。
例如:客户、产品、日期、地区、商场
维表的特征
设计实施
建立Product_Dim维表。 产品序号,是一个由标识生成的代理键。 Product_Dim有一个分层结构:产品类别,并且采用的是
合并维分层结构。所以产品类别这个字段从Categories的 ProductID与Products的ProductID连接而来。
其他字段都是由Products这个表来产生。
同时支持管理决策。
切片
一种用来在数据仓库中将多个维度中的分析空间限制为数据
子集的技术。
星型模型
一种使用关系数据库实现多维分析空间的模型。
雪花模型
不管什么原因,当星型模型的维度需要进行规范化时,星型
模型就演化为雪花模型。
Copyright© 2007 创智新程
多维数据模型
一种非规范化的关系模型。
Discount。可以推算出事实所需要的度量值:运费、销售
金额、销售数量和折扣。
四个维表Customer_Dim、Product_Dim、Employee_Dim及
Shipper_Dim的确定。
Orders及OrderDetails两个表中的外部键有CustomerID、
ProductID、EmployeeID及ShipperID。
Copyright© 2007 创智新程
任务一:设计Northwind数据库的星型模型
设计实施
建立Employee_Dim维表。 员工序号,是一个由标识生成的代理键。 员工姓名:由DTS的ActiveX Script将Northwind数据库中
的Employees这个表的lastname与firstname合并而成。
Copyright© 2007 创智新程
任务一:设计Northwind数据库的星型模型
设计实施
建立Customer_Dim维表 客户序号,是一个由标识生成的代理键。 其他字段都是由Customers这个表来产生。
Copyright© 2007 创智新程
任务一:设计Northwind数据库的星型模型
的发展历程和未来趋势做出定量分析和预测。
Copyright© 2007 创智新程
数据仓库系统体系结构
数据仓库监测、运行与维护工具 前端工具和 应用系统 OLAP 服务器 元数据管理 数据仓库 管理系统
数据查询工具
外部数据
自由报表工具
抽取、清理、 装载、刷新
数据分析工具 服务
现有业务系统
数据挖掘工具
面向主题的
数据仓库是面向不同的主题域进行组织。一个主题通
常与多个操作型信息系统相关。
Copyright© 2007 创智新程
集成的
数据仓源自文库中的数据是在对原有分散的数据库数据抽取
、清理的基础上经过系统加工、汇总和整理得到的, 必须消除源数据中的不一致性,以保证数据仓库内的
信息是关于整个企业的一致的全局信息。
年龄及年薪由Employees这个表的BirthDate、HireDate产
生。
年龄层及年薪层是基于分析便利而产生的统计组,当数
据由OLTP转换到OLAP时,由DTS的ActiveX Script来负 责做建立分组的动作。
其他字段都是由Employees这个表来产生。
Copyright© 2007 创智新程
由一组属性构成的表所组成。 表跟表之间的关系通过关键字和外键来定义。
以良好的可理解性和方便的产生报表来进行数据组织
,很少考虑修改的性能。
通过SQL或者相关的工具实现数据的查询和维护。
Copyright© 2007 创智新程
多维数据模型
数据仓库和OLAP工具基于多维数据模型,该模型将数
数据集市和数据仓库建模
实战分析
Copyright© 2007 创智新程
小结
在本课中,你学到了:
什么是数据仓库 数据仓库系统体系结构 操作数据库与数据仓库的区别 维度建模的相关概念 维度建模的基本步骤 数据集市
Copyright© 2007 创智新程
的CategoriesName合并到Product_Dim中。
Northwind数据库Suppliers的SupplierID与Products的Supplier
ID是一对多的关系,因此可以通过连接将Suppliers的Comp
anyName合并到Product_Dim的供应商中。
Copyright© 2007 创智新程
设计实施
建立Time_Dim维表。 时间序号,是一个由标识(Identity)生成的代理键。 出货日,即Orders的ShippedDate。 几乎所有的数据仓库中均包含时间维。 数据仓库是反映历史变化的 允许针对历史的数据进行分析 典型的粒度:each row = 1 day
数据仓库在数据分析和决策方面为用户提供服务,这
种系统称为联机分析处理OLAP。
Copyright© 2007 创智新程
维度建模的相关概念
数据仓库 数据集市 事实
维度
数据挖掘
Copyright© 2007 创智新程
维度建模的相关概念
分析空间
数据仓库中一定量的数据,用于进行数据挖掘以发现新信息
Copyright© 2007 创智新程
相对稳定的
数据仓库中一般有大量的查询操作,但修改和删除操
作很少,通常只需要定期的加载、刷新。
Copyright© 2007 创智新程
反映历史变化的
数据仓库中的数据通常包含历史信息,系统记录了企
业从过去某一时点(如开始应用数据仓库的时点)到 目前的各个阶段的信息,通过这些信息,可以对企业
数据仓库和数据集市
Copyright©2007-2009 创智新程
Copyright© 2007 创智新程
数据仓库和数据集市
目标
什么是数据仓库 数据仓库系统体系结构 操作数据库与数据仓库的区别 维度建模的相关概念 维度建模的基本步骤 数据集市
Copyright© 2007 创智新程
数据仓库的定义
据看作数据立方体形式。
数据立方体允许以多维对数据建模和观察。
一个具有 x、y、z 维度的方块
Copyright© 2007 创智新程
多维数据模型的组成
维 事实 数据立方体
Copyright© 2007 创智新程
多维数据模型举例
关系表与多维Cube
Copyright© 2007 创智新程
各类应用系统
文档资料 OLAP 服务器
……
数据集市 数据源 数据存储及管理
OLAP引擎
前端工具和应用
Copyright© 2007 创智新程
数据仓库系统体系结构
数据源 数据存储及管理 OLAP引擎
前端工具
Copyright© 2007 创智新程
操作数据库与数据仓库的区别
操作数据库系统的主要任务是联机事务处理OLTP。
Copyright© 2007 创智新程
任务一:设计Northwind数据库的星型模型
设计分析
Product_Dim具有一个分层结构:产品类别,并且采用的是合
并维分层结构。
Northwind数据库Categories的CategoriesID与Products的Cate
goriesID是一对多的关系,因此可以通过连接将Categories
Product_Dim、Employee_Dim及Shipper_Dim与事实 表Sales_Fact作关联。
Copyright© 2007 创智新程
任务一:设计Northwind数据库的星型模型
建立星型模型
Copyright© 2007 创智新程
数据集市
为什么提出数据集市? 数据集市中数据的结构 数据仓库与数据集市的区别
值。
每一个事实表的行包括:
具有可加性的数值型的度量值。 文本事实通常具有不可预见的内容,很难进行分析。 与维表相连接的外键。 通常具有两个和两个以外的外键。 外键之间表示维表之间多对多的关系。
Copyright© 2007 创智新程
事实表
事实表的特征
非常大
包含几百几千条甚至几万、几十万的记录。 内容相对的窄
适当的事实种类。四种常见的事实样式为:事务事实、快照
事实、线性项目事实、事件/状态事实。
维的创建。 聚合体的设计。
Copyright© 2007 创智新程
任务一:设计Northwind数据库的星型模型
设计分析
OLAP数据来源:Northwind数据库共有8个表,分别是Orders
、OrderDetails、Customers、Products、Categories、Employe es、Shippers及Suppliers。
Time_Dim时间维
Northwind销售系统的日期以Orders的出货日为事实的时
间,因此产生一个Time_Dim。
Copyright© 2007 创智新程
任务一:设计Northwind数据库的星型模型
设计分析
事实表的主轴: Orders和OrderDetails两个表的连接。 OrderDetails中包括了数值字段:UnitPrice、Quantity及
相关文档
最新文档