数据仓库的概念和体系结构概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
出了难题。为此一个新的olap结构——混合型
olap(holap)被提出,它能把molap和rolap两种
结构的优点结合起来。迄今为止,对holap还没有
一个正式的定义。但很明显,holap结构不应该是
molap与rolap结构的简单组合,而是这两种结构
技术优点的有机结合,能满足用户各种复杂的分
析请求。
城市
北京 长沙 武汉
广州
上海
果汁
可乐 商品 毛巾
浴巾
牛奶
12 3 4 日期
商品、城市、日期维 工业 国家 年 类别 省 月 商品 市 日
2020/8/11
数据仓库与数据挖掘
13
4.度量值
是多维数据集的核心值。 是最终用户在数据仓库应用中所需要查看的 数据。 如:销售量、成本、费用等。
2020/8/11
SQL查询
Database 服务器
查询结果
前端工具
Load
OR
SQL查询 MOLAP 服务器 用户请求
2020/8/11
查询结果 数据仓库与数据挖掘 查询结果
28
OLAP工具
2020/8/11
数据仓库与数据挖掘
29
1.3 数据仓库的技术、方法与产品
数据仓库实施中的三个关键环节
数据抽取; 数据存储与管理 数据表现
MOLAP是以多维数据库的方式组织存储数 据
ROLAP是利用现有的关系数据库技术来模 拟多维数据。
HOLAP是一混合模式,对于常用的维度和 维层次,使用多维数据表来记录,对于 用户不常用的维度和数据,采用类似 ROLAP星型结构来存储。
2020/8/11
数据仓库与数据挖掘
25
1. ROLAP体系结构 OLAP将分析用的多维数据存储在关系数据
73
2季度 2002 2003
56
56
103 139
73
69
3季度 2002 2003
45
23
98
97
59
62
4季度 2002 2003
66
55
87
82
96
94
2020/8/11
数据仓库与数据挖掘
21
(4)其它OLAP操作
维度是有层次性的,如时间维可能由:年、季、 月、日构成,维度的层次反映了数据的综合程度 。
22
“上卷”是指沿某一个维的概念分层向上归约 ;
下钻”是上卷的逆向操作,它是沿某一个维的概 念分层向下或引入新的维来实现;
“钻过”是指对多个事实表进行查询;
“钻透”是指对立方体操作时,利用数据库关系 ,钻透立方体的底层,进入后端的关系表。
2020/8/11
数据仓库与数据挖掘
23
OLAP的其它操作还有统计表中最高值和最低值的 项数,计算平均值、增长率、利润、投资回报率 等统计计算。
历史数据
不更新,但周期性刷新 一次处理的数据量大
响应时间合理 面向分析,分析驱动
2020/8/11
数据仓库与数据挖掘
10
OLAP技术的有关概念 :多维数据集、
维度、数据立方体、度量值和多维分析
;
1.多维数据集是数据的集合(多维数组)
多维数据集是决策支持的依据,也是OLAP的核 心。
OLAP展现的结果是一幅幅多维视图。
库中并根据应用的需要有选择地定义一批 实视图作为表也存储在关系数据库中。不 必要将每一个sql查询都作为实视图保存, 只定义那些应用频率比较高、计算工作量 比较大的查询作为实视图。
Database 服务器
ROLAP 服务器
SQL查询
用户请求
前端工具
查询结果
Metadata Request Processing
2020/8/11
数据仓库与数据挖掘
7
1.2 数据挖掘的概念与方法
数据挖掘的方法:
直接数据挖掘 间接数据挖掘。
2020/8/11
数据仓库与数据挖掘
8
1.2 数据挖掘的概念与方法
数据仓库与数据挖掘的关系
若将数据仓库(Data Warehouse)比 作矿井,那么数据挖掘(Data Mining) 就是深入矿井采矿的工作
2020/8/11
数据仓库与数据挖掘
31
数据准备区的工作:
ETL(extract/transformation/load) 数据抽取、转换、装载
数据抽取 数据清洗 数据转换 数据装载
2020/8/11
数据仓库与数据挖掘
32
1.3 数据仓库的技术、方法与产品
数据仓库实施方法论
数据仓库不是简单的数据或产品堆砌 ,它是一个综合集成解决方案和系统 工程。在数据仓库的实施过程中,技 术决策至关重要,技术选择或决策错 误很可能导致项目实施失败。
第1章 数据仓库的 概念与体系结构
2020/8/11
数据仓库与数据挖掘
1
1.1 数据仓库的概念、特点与组成
数据仓库的概念
数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相 对稳定的(Non-Volatile)、反映历史变 化(Time Variant)的数据集合,通常用 于辅助决策支持(DDS)
2020/8/11
数据仓库与数据挖掘
6
1.2 数据挖掘的概念与方法
数据挖掘的概念
数据挖掘(Data Mining),就是从大量数 据中获取有效的、新颖的、潜在有用的、 最终可理解的模式的过程,简单的说,数 据挖掘就是从大量数据中提取或“挖掘”知 识,又被称为数据库中的知识发现 (Knowledge Discovery in Database, KDD)
2020/8/11
数据仓库与数据挖掘
2
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
2020/8/11
数据仓库与数据挖掘
3
2020/8/11
数据仓库与数据挖掘
4
数据库与数据仓库的比较
数据库
细节的 在存取时准确的
可更新的 一次操作数据量小
查询结果
2020/8/11
数据仓库与数据挖掘
26
2. MOLAP体系结构 将OLAP分析所用到的多维数据物理上存储
为多维数组的形式,形成“立方体”的结 构。维的属性值被映射成多维数组的下标 值或下标的范围,而总结数据作为多维数 组的值存储在数组的单元中。由于MOLAP采 用了新的存储结构,从物理层实现起,因 此又称为物理OLAP(physical olap)。
数据挖掘是从数据仓库中找出有用信息 的一种过程与技术
2020/8/11
数据仓库与数据挖掘
9
1.3 数据仓库的技术、方法与产品
联机事务处理(OLTP)与联机分析处理 (OLAP)的比较;
OLTP
OLAP
细节性数据
综合性数据
当前数据
经常更新 一次性处理的数据量小
对响应时间要求高 面向应用,事务驱动
2020/8/11
数据仓库与数据挖掘
30
从数据仓库的概念结构看,应该包含: 数据源、数据准备区、数据仓库数据库 、数据集市/知识挖掘库以及各种管理工
具和应用工具。
业务系
数据源
统
外部数 据源
数
数
数据
据 准 备
据 仓 库 数
集市/ 知识 挖掘 库
应用工具
区
据
库
数据
集市/
知识
应用工具
挖掘
库
管理工具
图1.1 数据仓库的概念结构
部门 部门1 部门2 2020/8/11 部门3
表1 (单位:万美元)
部门
销售
部门1
90
部门2
60
部门3
下 钻
80
上 卷
2004年
1季度
2季度
3季度
20
20
35
25
5
15
20 数据仓库与1数5 据挖掘 18
4季度
15
15
27
24
OLAP根据其存储数据的方式可分为 三类:ROLAP、MOLAP、HOLAP
多维数据集可以用一个多维数组表示。例如经典 的时间、地理位置和产品的多维数据集可以表示 为:(时间,地理位置,产品,销售数据),类 似地,其它多维数据集可表示为:(维1,维2, 维3,……,维n,观察变量)形式。
2020/8/11
数据仓库与数据挖掘
11
2.维度
数据仓库是用于决策支持的,管理人员在进行 决策分析时,经常需要选择一个对决策支持活动有 重要影响的因素去进行决策分析,这些决策因素就 构成了分析问题的角度,这些分析角度就是数据仓 库中的维度。从而构成了三维、多维空间。
面向应用 支持管理
数据仓库
综合或提炼的 代表过去的数据
不更新 一次操作数据量大
面向分析 支持决策
2020/8/11
数据仓库与数据挖掘
5
1.1 数据仓库的概念、特点与组成
数据仓库的组成:
数据仓库数据库; 数据抽取工具; 元数据:技术元数据与业务元数据; 访问工具; 数据集市(Data Marts); 数据仓库管理; 信息发布系统。
73
59
96
73
69
62
94
2002年 2003年
2020/8/11
1季度 2季度 3季度 4季度 1季度 2季度 3季度 4季度
北京市
上海市
123
134
56
103
45
98
66
87
134
102
56
139
23
97
数5据5 仓库与数据挖8掘2
天津市
67
73
59
96
73
69
62
94
20
旋转后的维方向(维度层次上的旋转操作
数据仓库与数据挖掘
14
5.多维分析 OLAP的多维分析是指对多维数据集中的数
据用切片、切块、旋转等方式分析数据。 使用户能从多个角度、多个侧面去观察数
据仓库中的数据。
CT?
2020/8/11
数据仓库与数据挖掘
15
(1)多维的切片
在多维分析过程中,如果对多维数据集的某个 维选定一维成员,这种选择操作,就可以称之 为切片。
2020/8/11
数据仓库与数据挖掘
16
服装切片
产品
北京 上海 江苏
12 3 4
销售数量: 10000
化妆品 玩具 服装 电器
时间(月)
2020/8/11
数据仓库与数据挖掘
17
(2)多维的切块
与切片类似,如果在一个多维数据集上对两个及 其以上的维选定维成员的操作称为切块。
如有多维数据集(维1,维2,……,维i,…… ,维k,……,维n,观察变量),对维i,…… ,维k,选定了维成员,那么(维1,维2,…… ,维i成员,……,维k成员,……,维n,观察 变量)就是多维数据集(维1,维2,……,维i ,……,维k,……,维n,观察变量)在维i, ……,维k上的一个切块。
有多维数据集(维1,维2,……,维i,……, 维n,观察变量),如果确定了某个维成员维i 的值,则称:在维i上的一个切片为(维 1,维 2,……,维i成员,……,维n,观察变量)。
一个多维数组的切片最终是由该数组中除切片 所在平面之外的其他成员值确定的。
维是观察数据的角度,切片的作用或结果是舍 弃一些观察角度,以便集中观察该维的数据。
2020/8/11
数据仓库与数据挖掘
18
(3)旋转
改变多维数据集显示的维方向。 旋转前的维方向
1季度
北京市 123 上海市 134源自文库天津市 67
2002年 2季 3季度 度
56 45 103 98 73 59
4季度
66 87 96
2003年 1季度 2季度 3季度
134 56 23 102 139 97 73 69 62
维度是数据仓库中识别数据的索引。 维度具有层次性。 可以根据数据的组织层次进行“上卷”或“下钻” ,了解具体信息。
维是人们观察数据的特定角度
2020/8/11
数据仓库与数据挖掘
12
3.数据立方体
从不同角度对同一数据进行观察得到的数据 交点,构成了数据立方体。
当观察的角度(参数)超过三个所构成的数 据结果集称为超立方体,也称为超维数据集。
4季度
55 82 94
2020/8/11
数据仓库与数据挖掘
19
旋转后的维方向(不同维度间的旋转操作
)
2002年
2003年
1季度 2季度 3季度 4季度 1季度 2季度 3季度 4季度
北京市 123 56
45
66 134 56
23
55
上海市 134 103
98
87 102 139 97
82
天津市 67
维度层次越高、代表的数据综合度越高,数据量 越少。
维度层次越低、代表的数据综合度越低,细节越 充分,数据量越多。
有关操作:“上卷”(roll_up)、“下钻”( drill_down)、“钻过”(drill_across)和“ 钻透”(drill_through)等。
2020/8/11
数据仓库与数据挖掘
Database 服务器 Load MOLAP 服务器 用户请求
前端工具
2020/8/11
查SQ询L查结询果数据仓P库MRr与oeectq数aeudse据saistnt挖ag 掘
查询结果
27
3. HOLAP体系结构
由于molap和rolap有着各自的优点和缺点,且它们
的结构迥然不同,这给分析人员设计olap结构提
)
2002年
2003年
1季度 2季度 3季度 4季度 1季度 2季度 3季度 4季度
北京市 123 56
45
66 134 56
23
55
上海市 134 103
98
87 102 139 97
82
天津市 67
73
59
96
73
69
62
94
1季度
2002 2003
北京市 123
134
上海市 134
102
天津市 67