数据仓库实例[1]
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§ 如(时间,商品种类,商店,销售额),从而构成一个有 关商品销售额的三维数组。
– (‘2000年’, ‘家电’, 亿’)
‘南京市’,‘1
– (‘2000年7月’,‘女性服装’,‘江苏省’,‘10 亿’)
PPT文档演模板
数据仓库实例[1]
2.7 联机分析处理(OLAP)
Ø OLAP中的几个基本概念: ü 数据单元(单元格)
▪ 数据量的大小 ▪ 数据分析处理的对象(主题) ▪ 简单易行的数据分割标准 ▪ 数据粒度的划分策略 ✓ 通常采用‘时间’属性作为数据分割的依据 ✓ 数据分割技术类似于数据库中的数据分片技术,其目的是为了提 高数据仓库的性能。
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 逻辑模型设计 – 定义数据来源及其抽取规则
1 2 3 4 5 6
page1
PPT文档演模板
7 8
page2
page3
调整后的存储组织
page4
数据仓库实例[1]
2.6 数据仓库的设计
❖ 物理模型设计 – 引入冗余
Ø 在面向某个主题的分析过程中,通常需要访问不同表中 的多个属性,而每个属性又可能参与多个不同主题的分 析过程。因此可以通过修改关系模式把某些属性复制到 多个不同的主题表中去,从而减少一次分析过程需要访 问的表的数量。
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 数据仓库的使用与维护
Ø 在数据仓库建立后,就可以建立分析、决策型的应用 系统。
Ø 在应用系统的使用过程中不断加深理解,改进主题, 依照原型法的思想使系统更趋完善。
Ø 在系统的运行过程中,随着数据源中数据的不断变化, 需要通过数据刷新操作来维护数据仓库中数据的一致 性。
Ø 采用该种数据组织方法回带来大量的数据冗余存储,数 据仓库系统必须保证这些冗余数据的一致性。由于数据 仓库中的数据是稳定的,很少执行更新操作,不会因此 带来过高的数据更新的代价,却可以有效地提高数据仓 库系统的性能。
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 物理模型设计 – 表的物理分割
ü 库存表2(商品号,库房号,库存量,星期,…)/* 样本数据 */
ü ……
ü 库存表n(商品号,库房号,库存量,年份,…)
Ø 其它导出数据:……
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 逻辑模型设计 – 数据分割
✓ 数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以 独立管理的数据单元进行存储(关系),以便于重构、重组和恢复, 以提高创建索引和顺序扫描的效率。 ✓ 选择数据分割的因素有:
✓ 一般将数据划分为:详细数据、轻度总结、高度总结三种粒度, 或者采用更多级的粒度划分方法。例如:
▪ 根据时间跨度进行的统计有:天,周,月,季度,年 ▪ 对于不适合进行统计的属性值,可以采样获取数据
✓ 粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询 类型,粒度划分是否适当是影响数据仓库性能的一个重要方面。
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
Ø 商品固有信息:
ü 商品表(商品号,商品名,类型,颜色,…)/* 细节数据 */
Ø 商品采购信息:
ü 采购表1(商品号,供应商号,供应日期,供应价,…)/* 细节数据 */
ü 采购表2(商品号,时间段1,采购总量,…)/* 综合数据 */
ü ……
概
逻
物
数
念
辑
理
据
模
模
模
仓
型
型
型
库
设
设
设
生
计
计
计
成
数据仓库运行与维护
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 概念模型设计 ➢ 确定系统边界 ➢ 确定主要的主题及其内容 ➢ OLAP设计
Ø 确定系统边界 ü 要做的决策类型有哪些? ü 决策者感兴趣的是什么问题? ü 这些问题需要什么样的信息? ü 要得到这些信息需要包含哪些数据源?
数据仓库实例
PPT文档演模板
2020/11/21
数据仓库实例[1]
2.6 数据仓库的设计
Ø 数据仓库设计大致有如下几个步骤:
▪ 明确主题 ▪ 概念设计 ▪ 技术准备 ▪ 逻辑设计 ▪ 物理设计 ▪ 数据仓库生成 ▪ 数据仓库的运行与维护
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
针对每一个选定的当前实施的主题
✓ 定义数据仓库中数据的来源,以及数据的抽取规则,例如:
主题名 商品 商品 商品
……
属性名 商品号 商品名
类别
数据源系统 库存子系统 库存子系统 采购子系统
源表名 商品 商品 商品
源属性名 商品号 商品名 类别
……
……
……
……
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 物理模型设计
Ø OLAP中的几个基本概念: ü 对象(Object)
§ 在分析型处理中我们所关心和分析的对象。 § 例如:商品的销售金额
ü 维(Dimension)
§ 观察分析对象的角度。 § 例如:可以从三个‘维’角度观察‘销售金额’这个对象:
– 时间维:可按时间角度分析、统计其销售金额。 – 商品维:可按不同商品分类角度分析、统计。 – 地域维:可按连锁点不同地域角度分析、统计其销售
PPT文档演模板
数据仓库实例[1]
2.7 联机分析处理(OLAP)
Ø 联机事务处理:OLTP ü On-Line Transaction Processing
Ø 联机分析处理:OLAP ü On-Line Analytical Processing
PPT文档演模板
数据仓库实例[1]
2.7 联机分析处理(OLAP)
§ 例如: – 时间维:可以有日、周、月、季、年 – 地域维:可以有市、省、国、洲 – 商品维:商品的分类
PPT文档演模板
数据仓库实例[1]
2.7 联机分析处理(OLAP)
Ø OLAP中的几个基本概念: ü 维成员
§ 维的一个取值称为该维的一个维成员。 § 如果一个维是多层次的,则该维的维成员是在不同维层次
金额。
PPT文档演模板
数据仓库实例[1]
2.7 联机分析处理(OLAP)
Ø OLAP中的几个基本概念: ü 层(Layer)
§ 在分析型应用中,对对象可以从不同深度分析与观察并可 得到不同结果,因此,“层”反映了对对象观察的深度。
§ 一般而言,层是与维相关联的,一个维中可允许存在若干 个层,并且可以又不同的层次划分方法。
ü 采购表n(商品号,时间段n,采购总量,…)
Ø 商品销售信息:
ü 销售表1(商品号,顾客号,销售日期,售价,销售量,…)/* 细节数据 */
ü 销售表2(商品号,时间段1,销售总量,…)/* 综合数据 */
ü ……
ü 销售表n(商品号,时间段n,销售总量,…)
Ø 商品库存信息:
ü 库存表1(商品号,库房号,库存量,日期,…)/* 细节数据 */
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 物理模型设计 – 建立数据序列
ü 按照数据的处理顺序调整数据的物理存放位置,以 减少减少系统的磁盘I/O的开销。
1
8
6
7
3
5
4
2
page1
page2
page3
page4
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 物理模型设计 – 建立数据序列
ü 在确定上述内容后,就可以用传统的实体联系模型 (E-R模型)来表示数据仓库的概念数据模型。例 如:
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
主题 名
商 品
公共 码键
商 品 号
属性信息
固有信息:商品号,商品名,类别,颜色等 采购信息:商品号,供应商号,供应价,供应日期,供应 量等 销售信息:商品号,顾客号,售价,销售日期,销售量等 库存信息:商品号,库房号,库存量,日期等
在逻辑模型设计基础上确定数据的存储结构、确定索 引策略、确定存储分配及数据存放位置等与物理有关的 内容,物理模型设计的具体方法与数据库设计中的大致 相似。其目的是为了提高数据仓库系统的访问性能。常 用的一些技术有:
▪ 合并表
▪ 建立数据序列
▪ 引入冗余
▪ 表的物理分割
▪ 生成导出数据
▪ 建立广义索引
的取值的组合。 § 例如:对时间维来说,‘某年某月某日’、‘某年某月’、
‘某月某日’、‘某年’都是其维成员。 § 对一个数据项来说,维成员是该数据项在某维中位置的描
述。
PPT文档演模板
数据仓库实例[1]
2.7 联机分析处理(OLAP)
Ø OLAP中的几个基本概念:
ü 多维数组
§ 一个多维数组可以表示为(维1,维2,……,维n,变量),这样可 以构成三维、四维及多维的数据表示结构。其中,变量表 示我们所观察的数据对象,维1、维2、……、维n分别表 示我们观察该数据对象的角度。
供应商固有 信息
供
日 期
供应商
应 商
号
wenku.baidu.com
供应商品信息
顾客固有信息
顾 客
顾客
号
日 期
顾客购物信息
PPT文档演模板
商品采购信息
商品销售信 息
商品号
商品
日期
商品固有信息
商品库存信 息
商品、顾客和供应商之间的E-R图
数据仓库实例[1]
2.6 数据仓库的设计
❖ 逻辑模型设计
➢ 将E-R图转换成关系数据库的二维表 ➢ 定义数据源和数据抽取规则
供 应 商
顾 客
PPT文档演模板
供 应
固有信息:供应商号,供应商名,地址,电话,供应商类 型等
商 供应商品信息:供应商号,商品号,供应价,供应日期,
号 供应量等
固有信息:顾客号,姓名,性别,年龄,文化程度,住址,
顾 电话等
客 号
购物信息:顾客号,商品号,售价,购买日期,购买量等
数据仓库实例[1]
2.6 数据仓库的设计
➢ 在逻辑模型的设计过程中,需要考虑以下一些问题: ✓ 适当的粒度划分 ✓ 合理的数据分割策略 ✓ 定义合适的数据来源等
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 逻辑模型设计 – 粒度划分
✓ 在设计过程中需要考虑数据仓库中数据粒度的划分原则,即数据 单元的详细程度和级别。
▪ 数据越详细,粒度越小,级别就越低 ▪ 数据综合度越高,粒度越大,级别就越高。
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 物理模型设计 – 建立广义索引
Ø 用于记录数据仓库中数据于‘最’有关的统计结果的索 引被称为‘广义索引’。如: ü 当月销售额最高的商店? ü 当月销售情况最差的商品?
……
Ø 这样的广义索引的数据量是非常小的,可以在每次进行 数据仓库数据加载工作时生成或刷新这样的广义索引。 用户可以从已经建立的广义索引里直接获取这些统计信 息,而不必对整个数据仓库进行扫描。
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 数据仓库生成
➢ 建立数据模式
▪ 根据逻辑设计与物理设计的设计结果建立数据仓 库的数据模式。
➢ 编制数据抽取程序
▪ 根据数据仓库元数据中的定义信息,编制抽取程 序,将数据源中的数据作加工以形成数据仓库中的 数据。
➢ 数据加载
▪ 将数据源中的数据,通过数据抽取程序加载到数 据仓库的模式中去。
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
Ø 确定主要的主题
ü 即明确数据仓库的分析对象,然后对每个主题的内 容进行较详细的描述,包括:
§ 确定主题及其属性信息 § 描述每个属性的取值情况
– 固定不变的 – 半固定的 – 经常变化的 § 确定主题的公共码键 § 主题间的关系:主题间联系及其属性
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 物理模型设计 – 合并表
ü 在常见的一些分析处理操作中,可能需要执行多表 连接操作。为了节省I/O开销,可以把这些表中的记 录混合存放在一起,以减低表的连接操作的代价。 这样的技术我们称为 合并表。
ü 合并表技术与传统关系数据库中的集簇(Clustering) 技术类似。
§ 多维数组的取值称为数据单元。 § 当多维数组的各个维都选中一个维成员,这些维成员的组
Ø 类似于在逻辑设计阶段的数据分割。
Ø 可以根据表中每个属性数据的访问频率和稳定性程度对 表的存储结构进行分割。 ü 对于访问频率较高的属性,可以单独考虑其物理存 储组织,以便选择合适的索引策略和特定的物理组 织方式。 ü 对于需要频繁更新的属性,也可以单独组织其物理 存储,以免因数据更新而带来的空间重组、重构等 工作。
PPT文档演模板
数据仓库实例[1]
2.6 数据仓库的设计
❖ 物理模型设计 – 生成导出数据
Ø 在原始的细节数据的基础上进行一些统计和计算,生成 导出数据,并保存在数据仓库中。
Ø 采用该方法既可以避免在分析过程中执行过多的统计或 计算操作,减少输入/出的次数,又避免了不同用户进 行的重复统计操作可能产生的偏差。