第05章 OLAP技术及应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多维数据集的稀疏特性,即大多数单元格的值都是零;
如果存储所有这些零值数据就会占用大量的存储空间;
OLAP系统应该为这种具有稀疏性的多维数据集的存储和查
询分析提供一种“最优”处理能力,既尽量减少零值单元格的 存储空间,又保证动态查询分析的快速、高效。
准则8多用户支持能力(multi-user support)
4
5.1 OLAP概述
以信息数据为分析对象,以OLAP技术开发的数据分析系统称
为联机分析处理系统,简称OLAP系统或OLAP工具或OLAP
产品。
OLAP(联机分析处理)作为一个系统或一类产品已同OLTP (
联机事务处理) 明显地区分开来。
OLAP的用户是企业中的专业分析人员及管理决策人员,他们 在分析业务经营数据时,希望从不同的角度来审视业务的衡
16
5.1 OLAP概述
5.1.4 OLAP系统的基本结构 1、数据源与数据仓库的数据源类似,并根据决策需要将其抽取 集成为多维数据集,再利用OLAP分析工具对多维(信息)数据 集进行各种分析,并为用户提供分析结果,支持用户决策。 2、从图5-1发现,OLAP系统的开发人员不仅要开发多维数据 的多维分析工具软件,还必须开发多维数据抽取和多维数据 集成软件方法。 3、如果每个OLAP系统的建立都直接从业务处理系统的数据源 中抽取数据来构造多维数据集,将增加数据抽取部分的工作 量;导致数据源和结论的不统一;加大OLAP系统的维护工作 量;缺乏对元数据的有效管理;加大OLAP系统的开发投入。
当数据的维度和数据综合层次增加时,OLAP系统为最终
用户提供报表的能力和响应速度不应该有明显的降低和减慢 。
8
5.1 OLAP概述
准则5 客户/服务器体系结构(client/server architecture) OLAP系统应该是一种客户/服务器(C/S)应用结构,并有 足够的智能保证多维数据服务器能被不同的客户应用工具以 最小的代价访问。
7
5.1 OLAP概述
准则3 存取能力(accessibility) OLAP系统应该有能力利用自有的逻辑结构访问异构数据 源,并且进行必要的转换以提供给用户一个连贯的展示。此 外,OLAP系统不仅能进行开放的存取,而且还能提供高效的 存取策略。 准则4 稳定的报表性能(consistent reporting performance)
6
5.1 OLAP概述
5.1.2 OLAP的12条准则 E.F.Codd的意思是,即使一个软件系统有决策支持功能, 若不满足这12条准就不能称为OLAP系统的衡量标准。现阶 段许多人仍将其作为评价和购买OLAP产品的参考标准。 准则1 多维概念的视图 (multidimensional conceptual view) 从用户的角度来看,整个企业的数据视图本质上是多维的 (时间、地理、品种),因此OLAP的概念模型也应该是多维 的。 准则2 透明性(transparency) 用户不必关心表格或图显的数据来源,只用OLAP工具查询数 据;OLAP系统应该是开放系统的一个部分,当按用户需要将 OLAP系统嵌入到结构的任何地方都不影响OLAP分析工具的 性能。
当时普遍使用的文件/服务器(F/S)结构,现在普遍C/S或 B/S结构。
准则6 维的等同性(generic dimensionality)
每个数据维度应该具有等同的层次结构和操作能力,比如 对每个维度都可以进行“切片”、“切块”和“旋转”等相 同的操作。
9
5.1 OLAP概述
准则7 动态的稀疏矩阵处理能力(dynamic sparse matrix handling)
可以通过直观、方便的点击操作完成。
11
5.1 OLAP概述
准则11 灵活的报表生成(flexible reporting) OLAP提供的报表功能应该以用户需要的任何方式展现信 息,以充分反映数据分析模型的多维特征。 准则12 非受限维与聚集层次(unlimited dimensions and aggregation levels) OLAP工具不应该为多维数据的维度数量和维度层次数量 设置任何限制。 说明:这个要求对系统要求有点高,可以适当降低要求。 因为在实际应用中,多维数据集的维度数量很少超过15个, 维度层次也通常在6个以内。
Line Analysis Processing,OLAP)的概念,并为OLAP系统提出了
12条广为人知的准则,使OLAP系统与OLTP系统或OLTP混合决策支持 功能的系统区分开来
3
5.1 OLAP概述
5.1.1 OLAP的定义 定义5-1(OLAP委员会):从原始数据中转化出来的、能 够真正为用户所理解的、并真实反映企业多维特性的数据称 为信息数据。 定义5-2(OLAP委员会):联机分析处理(OLAP)是一种 软件技术,它使分析人员(管理人员或执行人员)能够从多种 角度对信息数据进行快速、一致、交互地存取,以达到深入 理解数据的目的。 定义5-3(简):OLAP是针对特定问题的联机多维数据快 速访问和分析处理的软件技术,能帮助决策者对数据进行深 入的多角度观察。
量指标是一种很自然的思考模式。
5
5.1 OLAP概述
例如:分析宾馆入住数据,可能会综合时间周期、宾馆辖
区、旅客来源、是否有前科等多种因素,主要为社会公共安
全部门的决策提供服务支持。而OLTP则是是对传统数据库进 行联机的日常操作,比如对入住记录、常住人口的查询和修 改,主要为宾馆、派出所等单位的特定数据管理和应用服务 。
15
5.1 OLAP概述
5.1.4 OLAP系统的基本结构 根据OLAP的定义和12(5)条准则,可以给出OLAP系统的 基本体系结构(图5-1)。它不仅描述了OLAP系统的所有组成 部分,还描述了从数据源中抽取数据、形成分析使用的多维 数据集,通过OLAP分析工具对其进行分析,并为用户提供各 种分析结果等组成部分之间的相互关系
数据仓库与数据挖掘
第05章
OLAP技术及应用
第 5章
OLAP技术及应用 OLAP概述 OLAP的多维分析操作 OLAP系统的分类 OLAP、DW与DM的关系 DOLAM决策支持系统方案 警务数据仓库的OLAP应用
5.1 5.2 5.3 5.4 5.5 5.6
2
5.1 OLAP概述
5.1.1 OLAP的定义
21
5.2 OLAP的多维分析操作
解:根据切片的定义5-5,对3维数据集进行切片操作的结 果是一个2维数据集。因此,可得在时间维指定维成员“2月 ”的切片结果如表5-1所示。它表示2月份从广东、湖南、江 苏、福建等四省来的旅客,入住鹿城等辖区宾馆的人次数。
22
5.2 OLAP的多维分析操作
定义5-6 从n(2)维数据集中选择一个2维子集的操作称为 局部切片(Partial/local Slice)操作,所得的2维子集称为一 个局部切片。 即对任意n(2)维数据集,其局部切片操作结果永远是2维 数据集。 (1) 为方便理解,可将定义5-5的切片操作称为全局切片操 作。 (2) 由于2维数据是人们最易接受和理解的多维数据展示方 法,因此,局部切片操作是最常用的一种多维数据分析方法。 (3) 对n(3)维数据集进行局部切片操作,必须先指定n-2 个维度成员以获得由剩余两个维度组成的二维数据集,然后从 这个二维数据集中获得局部切片。
20
5.2 OLAP的多维分析操作
1、若对一个n维数据集进行切片操作,则将得到一个n-1维的 数据集。 2、多维数据集的维度越高,人们对其理解就越困难。 3、切片操作是对多维数据集进行降维处理,方便用户理解多维 数据蕴藏的决策信息。 例 5-1 对于图5-2所示的3维数据集(n=3),若在时间维上 指定维成员“2月”,请给出其切片结果。为教学方便,假设 每个单元格的数值都大于零,它表示某省、某月入住某个辖 区内宾馆的人次数。
13
5.1 OLAP概述
定义5-4 联机分析处理(OLAP)就是共享多维信息的快 速分析,即FASMI (Fast Analysis of Shared Multidimensional Information)。
从定义可以发现,FASMI本质上概括了OLAP的5个主要特征。 (1) 快速性(Fast):用户对OLAP系统的快速反应能力有很高的要求,希 望系统能在5秒内对用户的大部分分析要求做出反应。 ① 快速性需求必须在线响应才能完成,故又称为在线性; ② 快速性还需要一些专门的技术支持,如专门的数据存储结构、大量 数据的预先计算、还有硬件特别设计等。 (2) 分析性(Analysis):OLAP系统应能处理与应用有关的任何逻辑分 析和统计分析,例如,连续时间序列分析、成本分析、意外报警等。此 外,还应使用户无须编程就可以定义新的计算,并作为查询分析的一部 分,以用户理想的方式给出报告。 (3) 共享性(Shared):OLAP系统必须提供并发访问控制机制,让多个 用户共享同一OLAP数据集的查询分析,并保证数据完整性和安全性。
12
5.1 OLAP概述
5.1.3 OLAP的简要准则 1、Codd的12条准则提出后,引起软件供应商不少争议。有的 说只要9就足够了,还有说不够,甚至Codd也补充了6条准则 。 2、随着人们对OLAP理解的深入,有些学者提出了更为简要的 定义,比如,一个独立于软件厂商的OLAP研究机构OLAP Report提出了简称FASMI的定义或简明准则,也得到业界的 广泛认可。
OLAP应提供并发获取和更新访问,保证完整性和安全性的
能力。
10
5.1 OLAP概述
准则9 非受限的跨维操作(unrestricted cross-dimensional operations)
多维数据之间存在固有的层次关系,这就要求OLAP工具能
自己推导出而不是最终用户明确定义出相关的计算。 准则10 直观的数据操纵(intuitive data manipulation) OLAP工具应为数据的分析操纵提供直观易懂操作界面, 比如“下钻”、“上卷”、“切片”等多维数据分析方法都
17
5.1 OLAP概述
5.1.4 OLAP系统的基本结构 4、 OLAP系统基本结构与数据仓库系统体系结构不同,前者没 有明确给出多维数据的管理工具。
Hale Waihona Puke 185.1 OLAP概述19
5.2 OLAP的多维分析操作
OLAP的多维分析操作包括对多维数据集的切片(slice)、 切块(dice)、下钻(drill-down)、上卷(roll-up)、旋转 (pivot)等数据分析方法,以便让用户能从多个角度、多个侧 面观察数据,从而深入地了解包含在数据中的有用信息,以 支持企业的决策。 5.2.1 切片 定义5-5 在n(3)维数据集的某一维上,指定一个维成员 的选择操作称为切片(Slice)操作,其结果称为n(3)维数据 集的一个切片。
14
5.1 OLAP概述
定义5-4 联机分析处理(OLAP)就是共享多维信息的快 速分析,即FASMI (Fast Analysis of Shared Multidimensional Information)。
(4) 多维性。OLAP系统必须提供对数据分析的多维视图,包括对层次 维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有效 的方法,是OLAP系统的灵魂和关键特性。 (5) 信息性。不论数据量有多大,也不管数据存储在何处,OLAP系统 应能及时获得信息,并且能管理大容量信息。 在以上5个特性中,快速性(在线性)和多维性就是OLAP系统的两 个关键特征。 (1) 在线(On-Line)性:表现为对用户请求的快速响应和交互操作 ,它是通过使用C/S或B/S应用结构实现的。 (2) 多维分析(Multi-Analysis):通过建立多维数据模型实现对数 据的多维分析,是OLAP技术的关键所在。
20世纪80年代开始,联机事务处理(OLTP)的数据库系统已在企事业单 位得到广泛的应用。 为了获得及时准确的决策信息,在OLTP数据库系统中增加了一些简单 的分析处理功能,形成一种“事务处理与分析处理”合二为一的系统。
由于传统数据库的事务处理方式和决策的分析处理对数据需求存在明显
的冲突,导致传统数据库系统无法很好地支持决策分析活动。 数据库之父E.F.Codd及其同仁于1993年提出了联机分析处理(On-