第三章数据仓库的数据存储与处理精品PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 数据仓库的数据存储与处理
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.1 数据仓库组成
数据
信息
决策
经营数据
加载 管理
系
器
统
分
外部数据
析
与
设
计
16.10.2020
详细信息
集合信息
查询 管理 器
元数据
数据查询 CLAP工具
仓库管理器
CLAP工具
数据仓库与数据挖掘
数据仓库的管理器
文件结构
暂时数据存储所 数据仓库结构
数据仓库与数据挖掘
加载管理器
建议
用户尽量选用适合的软件工具来协助进行整个加载 管理的工作;
但是,因为源数据的特性存在很大的差异,数据仓 库中加载管理器的功能无法一致,所以不可能完全使用 外购的软件工具,而必须自行设计针对特殊需要而编写 的程序、存储过程或是脚本文件。
查询管理器将把查询统计分析的结果存入查询概述
文件,供仓库管理器使用,以决定为哪些项目执行数据
集合的工作。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.2 数据粒度
➢ 定义
粒度是指数据仓库的数据单位中保存数据的细化或综合程 度的级别。细化程度越高,粒度级就越小;相反,细化程度越 低,粒度级就越大。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
系
左图是一个低粒度级,每个活动(在这里是一次电话)被详细
统
记录下来,数据的格式如图所示。到月底每个顾客平均有200条
分
记录(全月中每个电话都记录一次),因而总共需要40000个字节;
析
右图的边是一个高粒度级。数据代表一位顾客一个月的综合
• 实现途径
(1)外购的系统管理工具 (2)针对特殊需要而编写的程序以及脚本文件
• 复杂度
因自动化的程度而异
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
仓库管理器
控制程序 SQL脚本
仓库控制器
系 统
备份/还原工具
分
析
存储方式
与
设
计
16.10.2020
暂时数据存储所
星型、雪花型摘要 集合表格
数据仓库与数据挖掘
3.3 数据模型
• 概念模型
客观世界到计算机系统的一个中间层次,它最常用 的表示方法是E-R法(实体-关系)。
目前,数据仓库一般是建立在关系型数据库的基础 之上,所以其概念模型与一般关系型数据库采用的概念 模型相一致。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
与
信息,每位顾客一个月只有一个记录,这样的记录大约只需200
设
个字节。
计
16.10.2020
数据仓库与数据挖掘
问题:“上星期某某顾客是否给某某人打了电话?”
在低粒度级别上,完全可以回答这一问题,虽然 这种回答将花费大量资源去查询大量的记录,但是 问题结果是可以确定的。
在高粒度级别上,则无法明确地回答这个问题。 假如在数据仓库中存放的只是所打电话的总数,那 么就无法确定其中是否有一个电话是打给某人的。
数据仓库与数据挖掘
仓库管理器的具体功能
• 检验各字段相互之间的关系与一致性
• 将临时保在存储介质中的数据转换与合并,然后加载至数据仓库
• 对数据仓库数据添加索引、视图、数据分区
• 根据需要进行数据的标准化
• 根据需要生成新的集合信息
• 更新已有的集合信息
• 备份数据仓库(完整或是递增式)
• 备存数据仓库中过时的数据(另存至其它存储介质)
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
查询管理器
• 功能
执行管理数据仓库系统中所有查询工作的相关处理程序。
• 实现途径
(1)外购调度软件
(2)使用用户存取工具
(3)数据仓库系统所提供的系统监控工具
(4)数据库管理系统所提供的管理工具
(5)针对特殊需要而编写程序以及脚本文件
• 加载管理器
执行程序:抽取与加载程序
功能:抽取并加载数据、在加载数据之前与进行中执行简单的 转换
• 仓库管理器
执行程序:数据整理与转换程序、备份与备存程序
功能:转换并管理数据仓库数据、备份与备存数据
• 查询管理器
系
执行程序:查询管理程序
统 分
功能:引导并管理数据仓库的查询
析
与
设
计
16.10.2020
粒度深深地影响存放在数据仓库中数据量的大小,同时影 响数据仓库所能回答的查询类型。
在数据仓库中的数据粒度与查询的详细程度之间要做出权 衡。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.2 数据粒度
当提高粒度级别时,数据所能回答查询的能力会 随之降低。换言之,在一个很低的粒度级别上,几乎 可以回答任何问题,但在高粒度级别上,数据所能处 理的问题的数量是有限的。
3.3 数据模型
• 逻辑模型 指数据的逻辑结构,如多维模型、关系模型、层次
模型等。数据仓库的逻辑模型描述了数据仓库的主题的 逻辑实现,即每个主题对应的模式定义。
数据仓库与数据挖掘
加载管理器
• 功能 支持数据抽取与加载
• 实现途径 (1)外购的软件工具 (2)针对特殊要求而编写程序、存储过程以及脚本文
件
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
加载管理器
控制程序 存储程序
加载控制器
系
统
数据拷贝管理工具
分
析
与
快速加载程序
设
计
16.10.2020
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
加载管理将抽取的数据快速加载临时保存介质
• 执行简单的数据转换任务
• 将转换后数据加载至与数据仓库类似的数据
系
结构之中
统
分
析
与
设
计
16.10.2020
数据仓库与数据挖掘
仓库管理器
• 功能 执行管理一个数据仓库所需的必要程序
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.3 数据模型
数据模型是对现实世界的一种抽象,根据抽象程度 的不同,可形成不同抽象层次上的数据模型。与数据库 的数据模型相类似,数据仓库的数据模型也分为三个层 次:
➢ 概念模型
➢ 逻辑模型
系
➢ 物理模型
统
分
析
与
设
计
16.10.2020
系 统
• 复杂度
分
视数据仓库系统而定。
析
与
设
计
16.10.2020
数据仓库与数据挖掘
查询管理器
元数据
事实数据与维度数据
系
统
分
析
与
设
集合数据
计
16.10.2020
查询向导 存储过程 查询管理器 查询管理工具 查询调度
工作站
工作站
工作站 数据仓库与数据挖掘
查询管理器的具体功能
• 将查询引导至正确的表 • 实现客户查询的调度
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.1 数据仓库组成
数据
信息
决策
经营数据
加载 管理
系
器
统
分
外部数据
析
与
设
计
16.10.2020
详细信息
集合信息
查询 管理 器
元数据
数据查询 CLAP工具
仓库管理器
CLAP工具
数据仓库与数据挖掘
数据仓库的管理器
文件结构
暂时数据存储所 数据仓库结构
数据仓库与数据挖掘
加载管理器
建议
用户尽量选用适合的软件工具来协助进行整个加载 管理的工作;
但是,因为源数据的特性存在很大的差异,数据仓 库中加载管理器的功能无法一致,所以不可能完全使用 外购的软件工具,而必须自行设计针对特殊需要而编写 的程序、存储过程或是脚本文件。
查询管理器将把查询统计分析的结果存入查询概述
文件,供仓库管理器使用,以决定为哪些项目执行数据
集合的工作。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.2 数据粒度
➢ 定义
粒度是指数据仓库的数据单位中保存数据的细化或综合程 度的级别。细化程度越高,粒度级就越小;相反,细化程度越 低,粒度级就越大。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
系
左图是一个低粒度级,每个活动(在这里是一次电话)被详细
统
记录下来,数据的格式如图所示。到月底每个顾客平均有200条
分
记录(全月中每个电话都记录一次),因而总共需要40000个字节;
析
右图的边是一个高粒度级。数据代表一位顾客一个月的综合
• 实现途径
(1)外购的系统管理工具 (2)针对特殊需要而编写的程序以及脚本文件
• 复杂度
因自动化的程度而异
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
仓库管理器
控制程序 SQL脚本
仓库控制器
系 统
备份/还原工具
分
析
存储方式
与
设
计
16.10.2020
暂时数据存储所
星型、雪花型摘要 集合表格
数据仓库与数据挖掘
3.3 数据模型
• 概念模型
客观世界到计算机系统的一个中间层次,它最常用 的表示方法是E-R法(实体-关系)。
目前,数据仓库一般是建立在关系型数据库的基础 之上,所以其概念模型与一般关系型数据库采用的概念 模型相一致。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
与
信息,每位顾客一个月只有一个记录,这样的记录大约只需200
设
个字节。
计
16.10.2020
数据仓库与数据挖掘
问题:“上星期某某顾客是否给某某人打了电话?”
在低粒度级别上,完全可以回答这一问题,虽然 这种回答将花费大量资源去查询大量的记录,但是 问题结果是可以确定的。
在高粒度级别上,则无法明确地回答这个问题。 假如在数据仓库中存放的只是所打电话的总数,那 么就无法确定其中是否有一个电话是打给某人的。
数据仓库与数据挖掘
仓库管理器的具体功能
• 检验各字段相互之间的关系与一致性
• 将临时保在存储介质中的数据转换与合并,然后加载至数据仓库
• 对数据仓库数据添加索引、视图、数据分区
• 根据需要进行数据的标准化
• 根据需要生成新的集合信息
• 更新已有的集合信息
• 备份数据仓库(完整或是递增式)
• 备存数据仓库中过时的数据(另存至其它存储介质)
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
查询管理器
• 功能
执行管理数据仓库系统中所有查询工作的相关处理程序。
• 实现途径
(1)外购调度软件
(2)使用用户存取工具
(3)数据仓库系统所提供的系统监控工具
(4)数据库管理系统所提供的管理工具
(5)针对特殊需要而编写程序以及脚本文件
• 加载管理器
执行程序:抽取与加载程序
功能:抽取并加载数据、在加载数据之前与进行中执行简单的 转换
• 仓库管理器
执行程序:数据整理与转换程序、备份与备存程序
功能:转换并管理数据仓库数据、备份与备存数据
• 查询管理器
系
执行程序:查询管理程序
统 分
功能:引导并管理数据仓库的查询
析
与
设
计
16.10.2020
粒度深深地影响存放在数据仓库中数据量的大小,同时影 响数据仓库所能回答的查询类型。
在数据仓库中的数据粒度与查询的详细程度之间要做出权 衡。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.2 数据粒度
当提高粒度级别时,数据所能回答查询的能力会 随之降低。换言之,在一个很低的粒度级别上,几乎 可以回答任何问题,但在高粒度级别上,数据所能处 理的问题的数量是有限的。
3.3 数据模型
• 逻辑模型 指数据的逻辑结构,如多维模型、关系模型、层次
模型等。数据仓库的逻辑模型描述了数据仓库的主题的 逻辑实现,即每个主题对应的模式定义。
数据仓库与数据挖掘
加载管理器
• 功能 支持数据抽取与加载
• 实现途径 (1)外购的软件工具 (2)针对特殊要求而编写程序、存储过程以及脚本文
件
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
加载管理器
控制程序 存储程序
加载控制器
系
统
数据拷贝管理工具
分
析
与
快速加载程序
设
计
16.10.2020
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
加载管理将抽取的数据快速加载临时保存介质
• 执行简单的数据转换任务
• 将转换后数据加载至与数据仓库类似的数据
系
结构之中
统
分
析
与
设
计
16.10.2020
数据仓库与数据挖掘
仓库管理器
• 功能 执行管理一个数据仓库所需的必要程序
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.3 数据模型
数据模型是对现实世界的一种抽象,根据抽象程度 的不同,可形成不同抽象层次上的数据模型。与数据库 的数据模型相类似,数据仓库的数据模型也分为三个层 次:
➢ 概念模型
➢ 逻辑模型
系
➢ 物理模型
统
分
析
与
设
计
16.10.2020
系 统
• 复杂度
分
视数据仓库系统而定。
析
与
设
计
16.10.2020
数据仓库与数据挖掘
查询管理器
元数据
事实数据与维度数据
系
统
分
析
与
设
集合数据
计
16.10.2020
查询向导 存储过程 查询管理器 查询管理工具 查询调度
工作站
工作站
工作站 数据仓库与数据挖掘
查询管理器的具体功能
• 将查询引导至正确的表 • 实现客户查询的调度