在线分析处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
饮料
饮料
上海
浙江
650
970
储多 数维 据数 的据 方库 式存
数据 较大冗余,占 但可能形成稀疏 冗余 空间大 矩阵
北京
糕点 饮料 230 660
上海
840 650
浙江
780 970
查询 单项查询简单 效率更高 效率
Business Intelligence and Data Mining
16
BI&DM
8
BI&DM
在线分析处理(OLAP)简介
– 是满足决策支持或多维环境特定的查询和报表需求,它的技术核 心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的 集合。
• OLAP的目标
Business Intelligence and Data Mining
9
BI&DM
OLAP的基本概念和基本操作
BI&DM
商务智能与数据挖掘
第六讲 在线分析处理
1
BI&DM
主要内容
• 在线分析处理(OLAP)简介 • OLAP的基本概念和基本操作 • OLAP的数据模型 • 典型OLAP模型的数据组织与应用(ROLAP & MOLAP) • OLAP的发展——OLAM
Business Intelligence and Data Mining
– OLAP的基本分析功能包括切片、切块、旋转、上钻、下钻等. 切片(Slicing)——在多维数组的某一维上选定一个维成员后所 得到的结果。 切块(Dicing)——在多维数组的某一维上选定一个维成员区间 的操作。 钻取(Drilling)——主要包括上钻(Drilling-up)和下钻(Drillingdown)操作。下钻指从概括性的数据出发获得相应的更详细的 数据,上钻是下钻的逆操作。 旋转(Pivoting)——从不同的角度观察同一个数据立方体。 除了以上分析功能,还有分组、突出显示、数据函数及聚焦 或隐藏标签等。
北京
上海 浙江 50 40 120 100 60 210 240 80
产品
200
160 310 280 第四 季度 饮料 糕点
糕点
糕点 糕点 糕点
上海
上海 上海 …
2
3 4 …
120
210 310 …
第一 季度
第二 第三 季度 季度
时间
糕点
饮料 … 饮料
浙江
北京 … 浙江
4
1 … 4
250
140 … 260
如: 如:时间维上的层次有年、 (时间、地点、商店、 季、月、天等;地理维上的 商品、销售额 ),(2005,双 如:时间、部门、商品等 销售额、销售量等
层次如中国四川成都双流航 流,万达家电,冰箱,500) 空港开发区等
• OLAP的基本概念
变量——数据库中数据所描述的实体。在多维数据中,是用户所关
item
605 400
切片Q1 旋转
Q2 Q3 Q4 计 电 娱 安 算 话 乐 全 机
按time下 钻(从季度 到月份)
time
Business Intelligence and Data Mining Data Warehouse And Data Mining
12
12
BI&DM
OLAP的数据模型
定义4
OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数 据)的多种可能的观察形式进行快速、稳定一致和交互性的存取, 允许管理决策人员对数据进行深入观察。
OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原 始数据中转化出来的、能够真正为用户所理解的,并对真实反应 企业数据特性的信息进行快速、一致、交互地存取,从而获得对 数据更深入了解的一类软件技术。
BI&DM
OLAP的数据模型
– 在存储方式上,多维数据库与关系数据库是不同的。
产品 销售地区 北京 销售金额 230 糕点
• 数据存储
储关 数系 据数 的据 方库 式存
糕点
糕点 饮料
上海
浙江 北京
840
780 660 结构
关系数据库 存储数据
各维和销售额 分别对应列
多维数据库存 储数据
地区对应行,产 品对应列,中间 为变量值 基本没有冗余,
OLAP的数据模型
– 若增加汇总,存储空间的占用情况也不同。
产品
糕点
• 数据存储
销售地区
北京 上海 浙江 汇总 北京 上海 浙江 汇总 北京 上海
销售金额
230 840 780 1850 660 650 970 2280 890 1490
关 系 数 据 库 存 储 数 据 的 方 式
糕点 糕点 糕点 饮料 饮料 饮料 饮料 汇总 汇总
– 基本特性B
• OLAP的特性
– 特殊特性S
– 报表特性R – 维控制特性D
Business Intelligence and Data Mining
6
BI&DM
在线分析处理(OLAP)简介
基本特性 B
F1:多维概念视图(准则1) F2:直观的数据操纵(准则10) F3:可存取性(准则3) F4:分批提取VS解释(新增) F5:OLAP分析模型(新增) F6:C/S结构(准则5) F7:透明性(准则2) F8:支持多用户准则8) F9:处理非规范化数据(新增) F10:保存OLAP结果,且与源数据分离(新增) F11:抽取遗漏的数据(新增) F12:处理遗漏的数据(新增) F13:灵活的报表生成能力(准则11 ) F14:稳定的报表生成能力(准则4) F15:自动调节物理模式的能力(准则7) F16:维的等同性准则(准则6) F17:不受限制的维和聚集层次(准则12) F18:不受限制的跨维操作(准则9)
多维数据库存储数据的方式
北京 糕点 饮料 汇总 230 660 890 上海 840 650 1490 浙江 780 970 1750 汇总 1850 2280 4130
汇总
汇总
浙江
汇总
1750
4130
17
Business Intelligence and Data Mining
BI&DM
OLAP的数据模型
• OLAP的基本思想
Business Intelligence and Data Mining
4
BI&DM
在线分析处理(OLAP)简介
定义1 OLAP是一种针对企业进行数据复杂分析的软件技术。
• OLAP的定义
定义2 定义3
OLAP是利用多维数据库技术使用户以不同角度观察取得数据。
OLAP是一种数据分析技术,它能够完成基于某种数据存储的数 据分析功能。
– 若增加一个时间维——季度,采用关系数据库存储时仍使用二维 表,多维数据库则采用数据立方体这样的三维数组来存储。
• 数据存储
产品 关 系 数 据 库 存 储 数 据 的 方 式
糕点
销售地区
北京
时间(季度)
1
销售金额
50
糕点
糕点 糕点 糕点
北京
北京 北京 上海
2
3 4 1
40
60 80 200
销 售 地 区
个维上取得的值称为维成员,在一个维上,不同层次的维成员构成 它们的一个组合。
多维数据集——一个多维数据库的数据集合。在多维数据集中,各
个维和变量的数组形式称为多维数组。多维数组的值称为一个数据 单元。
Business Intelligence and Data Mining
10
BI&DM
OLAP的基本概念和基本操作
• OLAP的基本分析操作
Business Intelligence and Data Mining
11
BI&DM
Chicago Vancouver
Q1
time
Q2
计 电 算 话 机
切块 按locations上 钻(从城市到国 家)
item
location
New York Toronto Chicago Vancouver Q1 825 14
7
特殊特性 S
报表特性 R 维控制特性 D
Business Intelligence and Data Mining
BI&DM
在线分析处理(OLAP)简介
• BI survey系列调研报告的作者Nigel Pendse将OLAP的 特征概括为FASMI。
– 快速性(Fast):用户对OLAP的快速反应能力有很高的要求。系统能在5s 内响应用户请求,最长不超过20s。 – 可分析性(Analysis):OLAP系统应能处理任何逻辑分析和统计分析。 – 共享性(Shared) :支持多用户并发访问系统,具有可靠的安全性。
– 多维性(Multidimensional):系统必须提供对数据分析的多维视图和分
析。(最关键的特性) – 信息性(Information):不论数据量有多大,也不管数据存储在何处,
OLAP系统应能及时获得信息,并且管理大容量的信息。
Business Intelligence and Data Mining
5
(教材)
Business Intelligence and Data Mining
BI&DM
在线分析处理(OLAP)简介
• 1993年,E.F.Codd及其同事发表了一份“Providing OLAP to User-Analysts: An IT Mandate”的白皮书,里面包括 了12条准则,1995年又增加了6条,Codd将它们划分为四组, 分别为:
数据的一个子集,经过必要的聚集存储到OLAP存储器中供前 端分析工具读取。
• OLAP系统一般以数据仓库作为基础,从数据仓库中抽取详细
• 为了保证信息处理所需的数据以合适的粒度、合理的抽象程度
和标准化程度存储,OLAP可分为关系OLAP(ROLAP)、多维 OLAP(MOLAP)、混合OLAP(HOLAP)、桌面OLAP(DOLAP)和 客户OLAP(COLAP)。
Business Intelligence and Data Mining
13
BI&DM
OLAP的数据模型
Business Intelligence and Data Mining
14
BI&DM
OLAP的数据模型
– 在存储方式上,多维数据库与关系数据库是不同的。
产品 销售地区 北京 销售金额 230 糕点 表中数据涉及产品和销售地区两 个维。对关系数据库来说,任何 数据集均用二维表来存放;对多 维数据库也是用二维表来存放的, 但其存放方式和效率不同。
• 数据存储
储关 数系 据数 的据 方库 式存
பைடு நூலகம்
糕点
糕点 饮料
上海
浙江 北京
840
780 660
饮料
饮料
上海
浙江
650
970
储多 数维 据数 的据 方库 式存
北京
糕点 饮料 230 660
上海
840 650
浙江
780 970
15
Business Intelligence and Data Mining
心的客观事物或事件。变量是数值型的,且是一个可度量的量。
维——是变量的某种性质,是决策者用来观察变量的依据。如果一
个变量有三个相关的维,则可用一个立方体来表示这些数据。现实 中,一个变量有关的维往往不止三个,从概念上将其看做一个N维立 方体(超立方体)。
维的层次——根据问题的需要将各个维分解成不同抽象程度。在某
2
BI&DM
在线分析处理(OLAP)简介
– OLAP(On-Line Analytical Processing)是由关系数据库之父 E.F.Codd于1992年首先提出的,是针对特定问题的在线数据访问 和分析,通过对信息的多种可能的观察形势进行快速存取,允许 管理决策人员对数据进行深入的、多方面的探察。 – OLAP是在企业信息系统内积累的数据不断增多,查询要求越来越 复杂,分析需求越来越多,操作型信息系统中的查询和报表功能 已不能满足要求的背景下产生的。 – 目的是解决如何利用OLTP系统产生的大量数据为组织的决策提供 信息。
• MOLAP和ROLAP的特征
ROLAP
查询响应速度不够稳定, 有时快,有时比较慢 存储空间的使用效率较 高
可设置很多的维层次, 从而可实现诸多复杂的 钻取操作
• OLAP的由来
Business Intelligence and Data Mining
3
BI&DM
在线分析处理(OLAP)简介
– 联机分析处理在数据仓库系统中是重要的数据分析工具。 – OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的 状态和了解企业的变化。 – OLAP是独立于数据仓库的一种技术概念 – 当OLAP与数据仓库结合时,OLAP的数据源为数据仓库,数据仓库 的大量数据是根据多维方式组织的。
多维数据库数据立方体
18
Business Intelligence and Data Mining
BI&DM
OLAP的数据模型
MOLAP 查询能力 查询响应速度较快且较为稳定
当所有维成员组合都存在度量 值时,比较节省存储空间,否 则形成稀疏矩阵 维层次的设置受存储空间的约 束而无法设置较多的层次,从 而分析查询能力比ROLAP差