第四章 OLAP
OLAP分析

14
多维数据分析视图
对于更多维度的数据显示,需要选择维度及其成员分布在行或者列中。 在页面上可选定多个维度,但每个维度只能显示一个成员。在行或者列 中一般只选择二个维,每个维可以多个成员。例如对6维度数据,其 MTS如下图所示。 六维MTS例
鞋
鞋 鞋 鞋 …
上海
广州 广州 广州 …
3月
1月 2月 3月 …
400
150 250 300 …
11
多维类型结构(MTS)
表示方法是:每一个维度用一条线段来表示。维度中的每 一个成员都用线段上的一个单位区间来表示。
例如,用三个线段分别表示时间、产品和指标三个维的多维类型结构 如图所示。
三维MTS例
06 年 60 230 210
05 年 80 110 210
06 年 50 250 280
05 年 100 270 310
06 年 50 330 270
05 年 50 200 320
06 年 40 220
维的层次关系图
全国
江苏
北京
上海
苏州市
扬州市
宝应县
6
OLAP 概念
维的层次与类组合图
产品维
产品产地类
产品销地类
产品用途类
产品大类
产品小类
7
OLAP 数据显示与分析
8
多维数据显示
多维数据显示方法 多维类型结构(MTS) 多维数据分析视图
数据仓库与数据挖掘技术 第4章 OLAP技术

销售地区 服装切片
产品税
北京 上海 江苏
1
化妆品
玩具
电器
服装
销售数量 、销售地区、产品三个维度所构成的多维数据库
(3)共享性(Shared)。即OLAP应能实现在多用户环境下的 安全保密要求和并发控制。多个用户同时使用,能够根据用 户所属的安全级别,让他们只能看到自身权限下的信息。 (4)多维性(Multidimensional)。指对数据分析的多维视图 和分析,是OLAP的关键属性,包括对层次维和多重层次维 的支持。 (5)信息性(Information)。指OLAP系统管理数据和获得信 息的能力,能管理大量的数据并即时地获得用户所需信息。 这里有许多因素需要考虑,如数据的可复制性、可利用的磁 盘空间、OLAP产品的性能及与数据仓库的结合度等。
内容
OLAP概述 多维数据库及其存储 OLAP的类型 OLAP的体系结构 OLAP中的索引技术 OLAP的评价标准 OLAP的前端展现 小结
联机分析处理(OLAP)是数据仓库上的分析展示工具,它建立 在数据多维视图的基础上,可以提供给用户强大的统计、分析、 报表处理功能及进行趋势预测能力,OLAP主要有两个特点: 一是在线性即联机,体现为对用户请求的快速响应和交互式 操作;另一特点是多维分析,数据的多维视图使用户能从多 角度、多侧面、多层次的查看包含在数据中的信息,数据仓库 的面向主题的特点为OLAP的建模提供了良好的基础,但数据 仓库并不能自己自行分析,还需要借助OLAP工具进行更好的 展现。
3. 数据分析并非完全依赖于数据仓库 数据分析技术的发展,并不完全依赖于数据仓库,也可以直 接对各种源数据进行分析。 OLAP技术是一种多维数据分析技术,侧重于数据仓库的数 据分析,为管理者提供信息支持。对于决策分析而言,历史 数据是相当重要的,许多分析方法必须以大量的历史数据为 依托,如果没有对历史数据的详细分析,则难以把握企业的 发展趋势。
【数据库系统课件】OLAP及其多维数据分析

OLAP及其多维数据分析国防科技大学系统工程与数学系陈元陈文伟联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。
当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。
用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。
因此Codd提出了多维数据库和多维分析的概念,即OLAP。
一、OLAP的概念根据OLAP产品的实际应用情况和用户对OLAP产品的需求,人们提出了一种对OLAP更简单明确的定义,即共享多维信息的快速分析。
(1)快速性用户对OLAP的快速反应能力有很高的要求。
系统应能在5秒内对用户的大部分分析要求做出反应。
如果终端用户在30秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。
对于大量的数据分析要达到这个速度并不容,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设计等。
(2)可分析性OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
尽管系统需要事先编程,但并不意味着系统已定义好了所有的应用。
用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。
用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、成本分配工具、意外报警、数据开采等。
(3)多维性多维性是OLAP的关键属性。
系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。
事实上,多维分析是分析企业数据最有效的方法,是OLAP的灵魂。
(4)信息性不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。
这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、OLAP产品的性能及与数据仓库的结合度等。
第4章:联机分析处理技术

{(city,item,date),(city,item),(city,date), (item,date),(city),(item),(date),all } all 表示不对任何维分组,这组形成了该数据立方体的方 体格
OLAP概述
OLAP的基本概念
数据单元
在多维数据集中每个维都选定一个维成员后,这些维成员的组 合就唯一确定了一个数据单元
多维数据集的度量值
在多维数据集中有一组度量值,这些值是基于多维数据集中事 实表的一列或多列数字
度量值是多维数据集的核心值,是最终用户在数据仓库应用中 所需要查看的数据
OLAP是独立于数据仓库的为数
据仓库,数据仓库的大量数据是根据多维方式组 织的。
OLAP概述
OLAP的由来
Codd提出了多维数据库和多维分析的概念,即联机分析处 理
OLAP的定义
OLAP是一种软件技术,它使分析人员能够迅速、一致、交 互地从各个方面观察信息,以达到深入理解数据的目的。这 些信息是从原始数据转换过来的,按照用户的理解,它反映 了企业真实的方方面面。( OLAP理事会)
维的一个取值称为该维的一个维成员 是数据项在某维中位置的描述 如“2012年9月10日”是在时间维上位置的描述
OLAP概述
OLAP的基本概念
多维数据集
是决策支持的支柱 OLAP的核心 又称立方体或超立方体 三维数据可以利用三维坐标建立立方体进行表示 超三维数据可以利用一个多维表来进行显示
对OLTP数据库中的数据进行再加工,形成一个综合的、面 向分析的、更好的支持决策制定的决策支持系统(DSS)
OLAP分析及应用案例分析

云端OLAP服务将采用按需付费的计费模式 ,用户只需为自己的实际使用量付费,降低 数据分析成本。
感谢您的观看
THANKS
03
选和查看所需的数据。
旋转与转置
旋转是指改变数据立方体的维度顺序,以便从不同的角度查看数据。 转置是指将数据立方体中的行和列进行交换,以便更好地适应不同的分析需求。
旋转和转置可以帮助用户更好地理解和组织数据,使其更符合特定的分析需求。
钻取
1
钻取是指深入探索数据立方体中的细节信息,从 宏观到微观逐步查看数据的层次结构。
SAP BO
简介
SAP BO(BusinessObjects)是SAP公司开发的一款商业智能工具, 提供数据查询、报表制作和数据分析功能。
特点
集成性、可靠性、安全性。
应用场景
适用于使用SAP系统的企业,帮助用户进行数据分析和可视化呈现, 支持多平台和移动设备访问。
04
OLAP应用案例分析
电商销售数据分析
广泛应用于各行业,如金融、市场营销、销售等,用于数据分析 和可视化呈现。
QlikView
01
02
03
简介
QlikView 是一款内存内 分析工具,支持实时数据 分析和快速查询。
特点
高性能、灵活性、可扩展 性。
应用场景
适用于需要处理大量数据 的企业,如零售、物流和 制造业,用于数据挖掘和 商业智能应用。
通过多维数据分析,可以更全面地了 解数据的各个方面,从而更好地支持 决策制定和业务分析。
切片与切块
01
切片是指从数据立方体中选择某一维度的数据,以查看该维度 下的数据分布情况。
02
切块是指同时选择多个维度的数据,以查看这些维度之间的数
OLAP

问、处理和分析,通过直观的方式从多个维度、 多种数据综合程度将系统的运营情况展现给使 用者。
OLTP与OLAP
随着数据库系统广泛应用,数据库系统记录和
处理的数据越来越多,及时地记录和处理企业 的各种业务数据,这些系统成为联机事务处理 (OLTP)系统。数据库技术的广泛应用和技术的 发展,人们已经不再满足于仅仅用数据库系统 来记录企业的业务活动数据和对数据的简单处 理,人们需要对企业业务活动的数据进行各种 分析,以便发现企业业务趋势,这些系统称为 联机分析处理(OLAP)系统。
维度
维的层次
人们观察数据的某个特定角度(即某个维)
还可以存在细节程度不同的多个描述方面, 我们称这个描述方面为维的层次。 一个维往往具有多个层次,例如:
描述时间维时,可以从日期、月份、季度、年等 不同层次来描述,那么日期、月份、季度、年等 就是时间维的层次; 同样,城市、地区、国家就构成了一个地理维的 多个层次。
ROLAP与MOLAP比较(续)
MOLAP的查询速度比较快,但有下面限制: 用多维数组实现多维实视图,需要很大的存储空间。在实际的数
据仓库中,每维的属性值个数可能数万。例如几万种产品、几万 个连锁店等。而实际的维数可能多达几十乃至几百。耗费的存储 空间相当可观,由此带来加载、维护等问题。 在多维数组中,很可能有些单元是空白的,如节假日商店不营业; 某些产品在某些地区不销售等。 MOLAP与关系数据库系统从存储结构到查询语言都有相当大的差别, 不可能在RDBMS的基础上实现。
MOLAP
4 4.3
OLAP分类 MOLAP
ROLAP与MOLAP比较
在MOLAP中,不但把多维实视图在概念上看成一个超立方
体,而且在物理上把多维实视图组成一个多维数组,而不 象ROLAP以表的形式存储实视图。 在MOLAP中,维的属性值被映射成多维数组的下标值或下 标的范围,而总数据作为多维数组的值存储在数据的单元 中。 ROLAP在节省存储空间、灵活性、与关系数据库保持一致 性等方面有明显的优势; MOLAP则在性能和管理的简便 性方面有其优点。
olap 通俗的举例

olap通俗的举例
OLAP(联机分析处理)是一种用于多维数据分析的数据处理技术。
为了更好地理解,我们可以通过一个通俗的例子来说明。
假设你是一家零售公司的数据分析师,负责分析销售数据。
你有一个包含以下信息的关系型数据库表:
1.日期
2.产品
3.地区
4.销售量
5.销售额
使用OLAP,你可以将这些数据从关系型数据库中导入到一个多维数据立方体(也称为数据仓库)中。
这个多维数据立方体将数据组织成多个维度,使你能够更灵活、直观地分析数据。
例子中的OLAP查询可能包括:
1.按时间分析销售趋势:你可以轻松地查看每个月或每个季度的销售量和销售额,以识别销售的季节性变化。
2.按产品类别比较销售绩效:通过将产品分组为不同的类别,你可以比较不同产品类别的销售量和销售额,从而确定哪些类别最受欢迎。
3.按地区分析市场份额:你可以按地区查看销售数据,了解不同地区的市场份额和潜在增长机会。
4.执行交叉分析:通过组合多个维度,例如日期、产品和地区,你可以执行更深入的交叉分析,例如在特定月份,某一地区的某一产品的销售情况。
总体来说,OLAP提供了一种以更直观、灵活的方式分析多维数据的手段,有助于从不同角度深入挖掘数据的价值。
第四章 OLAP技术

CH4
OLAP的定义:
OLAP是使分析人员、管理人员或执行人
员能够从多种角度对从原始数据中转化出来
的、能够真正为用户所理解的、并真实反映
企业维特性的信息进行快速、一致、交互地 存取,从而获得对数据的更深入了解的一类 软件技术——OLAP委员会的定义(请特别注 意,这是一类技术,而非特指某软件、或管 理方法)。
CH4
当然,有关维层次关系的描述,要存放 在元数据库中。
CH4
4.维的类关系 ——在同一个维层次的成员中划分的类 别,进而可以在这些类别的基础上找出共同 特征。
CH4
5.OLAP与数据仓库的关系 DW是一个包含了企业历史数据的大规 模数据库,其中的数据不能用于OLTP; OLAP技术则利用DW中的数据进行联机 分析,将复杂分析的结果快速返回用户 —— 这期间, OLAP会用到多维数据集、数据聚集 等技术, 亦即,使用多维结构组织DW中的数 据、 创建汇总数据的立方体并执行复杂查询 的要求。
CH4
2.OLAP的特性 快速性 ——要求数秒内(不超过30秒) 对用户的多数分析做出反应; 可分析性 ——能处理与应用相关的逻 辑及统计分析(OLAP内不必编程即可定义新的 计算,或连接其他分析工具,如时间序列分 析工具); 多维性 ——OLAP的关键属性,灵魂; 信息性 ——不论数据量多大,也不管 数据存储在何处,OLAP均能获得信息。
CH4
§2 OLAP与多维分析 多维分析技术是OLAP的核心。多维概念 支持多维切片、切块、旋转等功能。 1.多维基本概念 维 决策者利用DW进行决策分析的出发点或 角度,称为维。 事实上,数据仓库就是按照上述的维来 组织的,并以维作为索引识别数据。
CH4
维,一般具有水平层次和垂直层次—— 前者由维层次中相同级别的字段组成,后者 由维层次中不同级别的字段组成。
OLAP数据库

OLAP数据库OLAP百家争鸣OLAP简介OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策⽀持系统,就是我们说的数据仓库。
与此相对的是OLTP(on-line transactionprocessing)联机事务处理系统。
联机分析处理 (OLAP) 的概念最早是由关系数据库之⽗E.F.Codd于1993年提出的。
OLAP的提出引起了很⼤的反响,OLAP作为⼀类产品同联机事务处理 (OLTP) 明显区分开来。
Codd认为联机事务处理(OLTP)已不能满⾜终端⽤户对数据库查询分析的要求,SQL对⼤数据库的简单查询也不能满⾜⽤户分析的需求。
⽤户的决策分析需要对关系数据库进⾏⼤量计算才能得到结果,⽽查询的结果并不能满⾜决策者提出的需求。
因此,Codd提出了多维数据库和多维分析的概念,即OLAP。
OLAP委员会对联机分析处理的定义为:从原始数据中转化出来的、能够真正为⽤户所理解的、并真实反映企业多维特性的数据称为信息数据,使分析⼈员、管理⼈员或执⾏⼈员能够从多种⾓度对信息数据进⾏快速、⼀致、交互地存取,从⽽获得对数据的更深⼊了解的⼀类软件技术。
OLAP的⽬标是满⾜决策⽀持或多维环境特定的查询和报表需求,它的技术核⼼是"维"这个概念,因此OLAP也可以说是多维数据分析⼯具的集合。
OLAP的准则和特性E.F.Codd提出了关于OLAP的12条准则:准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能⼒准则准则4 稳定的报表能⼒准则5 客户/服务器体系结构准则6 维的等同性准则准则7 动态的稀疏矩阵处理准则准则8 多⽤户⽀持能⼒准则准则9 ⾮受限的跨维操作准则10 直观的数据操纵准则11 灵活的报表⽣成准则12 不受限的维与聚集层次⼀⾔以蔽之:OLTP系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作,强调事务性;OLAP系统则强调数据分析,强调SQL执⾏时长,强调磁盘I/O,强调分区。
04OLAP

decision makers, not on daily operations or transaction
processing
Provide a simple and concise view around particular
subject issues by excluding data that are not useful in
11
Extraction, Transformation, and Loading (ETL)
Data extraction get data from multiple, heterogeneous, and external sources Data cleaning detect errors in the data and rectify them when possible Data transformation convert data from legacy or host format to warehouse format Load sort, summarize, consolidate, compute views, check integrity, and build indicies and partitions Refresh propagate the updates from the data sources to the warehouse
Operational database: current value data Data warehouse data: provide information from a historical perspective (e.g., past 5-10 years) Contains an element of time, explicitly or implicitly But the key of operational data may or may not contain “time element”
数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘第一章课后习题一:填空题1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。
2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。
3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。
4)元数据是“关于数据的数据”。
根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。
5)数据处理通常分为两大类:联机事务处理和联机事务分析6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。
7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。
8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。
9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。
10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。
二:简答题1)什么是数据仓库?数据仓库的特点主要有哪些?数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用2)简述数据挖掘的技术定义。
从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。
3)什么是业务元数据?业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据4)简述数据挖掘与传统分析方法的区别。
本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。
OLAP的基本概念

OLAP的基本概念(1)变量(度量)变量是数据度量的指标,是数据的实际意义,即描述数据“是什么”。
像上面示例中的人数。
(2)维度维度是描述与业务主题相关的一组属性,单个属性或属性集合可以构成一个维。
如上面示例中的学历、民族、性别等都是维度。
(3)维的层次一个维往往可以具有多个层次,例如时间维度分为年、季度、月和日等层次,地区维可以是国家、地区、省、市等层次。
这里的层次表示数据细化程度,对应概念分层。
后面介绍的上钻操作就是由低层概念映射到高层概念。
概念分层可除根据概念的全序和偏序关系确定外,还可以通过对数据进行离散化和分组实现。
(4)维的成员若维是多层次的,则不同的层次的取值构成一个维成员。
部分维层次同样可以构成维成员,例如“某年某季度”、“某季某月”等都可以是时间维的成员。
(5)多维数组多维数组用维和度量的组合表示。
一个多维数组可以表示为(维1,维2,……,维n,变量),例如(部门,职系、民族、性别,人数)组成一个多维数组。
(6)数据单元(单元格)多维数组的取值。
当多维数组中每个维都有确定的取值时,就唯一确定一个变量的值。
数据单元可以表示为(维1成员,维2成员,……,维N成员,变量的值),例如(人事教育部,技能,回族,男,1人)表示一个数据单元,表示人事教育部职系是技能的回族男性有1人。
(7)事实事实是不同维度在某一取值下的度量,例如上述人事教育部职系是技能的回族男性有1人就表示在部门、职系、民族、性别四个维度上企业人数的事实度量,并且在为人数事实中包含部门维度人事教育部这一个维度层次,如果将人数事实的所有维度考虑在内,就构成有关人数的多维分析立方体。
OLAP技术(联机分析处理)

OLAP技术(联机分析处理)简写为OLAP,随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
联机分析处理(OLAP)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
中文名联机分析处理外文名Online Analytical Processing简写OLAP应用行业IT应用数据仓库系统目录1. 1 作用2. 2 起源3. 3 分类4. 4 发展背景5. 5 特点6. 6 逻辑概念1. 7 体系结构2. ROLAP3. MOLAP4. HOLAP5. 8 实现方式6. 9 实施方法1. 关系型联机2. 多维联机3. 其它因素4. 假设分析5. 复杂计算6. 数据评估7. 10 产品介绍1. 11 控件2. Silverlight3. WinForms4. 12 相关标准联机分析处理作用编辑联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决联机分析处理联机分析处理联机分析处理联机分析处理联机分析处理联机分析处理策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
第4章联机分析处理(OLAP)new精品PPT课件

– 不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获 得指导性的信息,并且管理大容量信息。
2 OLAP多维数据结构
2.1 两种OLAP多维数据结构
• 超立方结构(Hypercube)
– 超立方结构指用三维或更多的维数来描述一个对象,每个维 彼此垂直。数据的测量值发生在维的交叉点上,数据空间的 各个部分都有相同的维属性。
– 以多维数据组织方式为核心,也就是说, MOLAP使用多维 数组存储数据。
– 多维数据在存储中将形成“立方块(Cube)”的结构, 在 MOLAP 中 对 “ 立 方 块 ” 的 “ 旋 转 ” 、 “ 切 块 ” 、 “切片”是产生多维数据报表的主要技术。
4 OLAP分类 4.3 MOLAP
4 OLAP分类 4.3 MOLAP
(维度1,维度2,…,维成员Vi,…,维度n,度量) 为多维数组在维度i上的切片(Vi表示维度i的维成员)
– 定义1中,一次切片一定使原来维数减1,因此所得切片结果并不 一定是二维的“平面”,切片结果维数取决于原来的多维数组的 维数。这个定义不够通俗,还有另外一个定义
– 定义2:选定多维数组中两个维:维i和维j,在这两个维上取一区 间或者任意的维成员,而将其他维都分别取定一个维成员的动作, 称为多维数组在维i和维j上的一个切片。
员类别等维的描述信息。 • 维表和事实表通过主关键字和外关键字联系在一起,形成了“星
型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储 空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模 式”。 • 星座模型和雪暴模型:有多个事实表的星型模型和雪花模型
4 OLAP分类 4.2 ROLAP
1 OLAP定义和特性
第四章联机分析处理精选全文完整版

4.1 从OLTP到OLAP
4.1.1 OLAP的出现 4.1.2 什么是OLAP 4.1.3 OLTP和OLAP的关系及比较
4.1.1 OLAP的出现
1970年,E.F.Codd博士提出了关系数据模型,1979年Oracle发布了关系数据库管理系统 OLTP推动了业务处理自动化,积累了大量的数据
基本概念(续)
数据单元(单元格) 多维数组的取值称为数据单元 (维1维成员,维2维成员 ,···,维n维成员,变量的值) 数据单元:(北京,1997年1月,批发,10000)
基本概念(续)
多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵
: :
多维分析的基本分析动作
图6-3: 旋转
地区维
时间维
产品维
产品维
时间维
地区维
旋转以改变 页面显示
(c)
OLAP的多维数据的位置: 1. 作为数据仓库的一部分 2. 作为数据仓库工具层的一部分
第四章 在线分析处理OLAP
联机分析处理(OLAP)
4.1 从OLTP到OLAP 4.2 OLAP的特征及衡量标准 4.3 OLAP实施 4.4 基于多维数据库的OLAP实现 4.5 基于关系数据库的OLAP实现 4.6 两种技术间的比较
联机分析处理(OLAP)
决策支持中的典型问题: 东部地区和西部地区今年6月份和去年6月份在销售总额上的对比情况,并且销售额按10万-20万、20万-30万、30万-40万,以及40万以上分组 特点: 多角度 多层次 访问大量数据 快速回答
OLAP技术

6/3/2015
OLAP技术简介
OLAP定义
定义1 :OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据) 的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进 行深入观察。 定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原 始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、 一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) 。
6/3/2015
OLAP技术简介
OLAP分类(三)
MOLAP的逻辑存储模型:
以多维立方体和预计算来存储,实际数据的稀疏分布以及预计算是导致MOLAP空 间急剧膨胀的主要因素。
X X
X
X
X
6/3/2015
OLAP技术简介
OLAP分类(二)
ROLAP存储模式:ROLAP数据以星型模式(Star Schema)或雪花型模式存储: 事实表:用来存储事实的度量值和各个维的码值。 。
"Dimension Table"
OLAP技术简介
OLAP分类(四)
ROLAP的优势:
没有大小限制。(因为Star Schema本身不需要额外的存储空间) 。
现有的关系数据库的技术可以沿用。
可以通过SQL实现详细数据与概要数据的存储。 现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、
6/3/2015
OLAP技术简介
OLAP的基本特征
快速性:用户对OLAP的快速反应能力有很高的要求。系统对用户的大部分分析要求的响应 速度应该为秒级。 可分析性:OLAP系统能处理与应用有关的任何逻辑分析和统计分析。 多维性:多维性是OLAP的关键属性。系统提供对数据的多维视图和分析,包括对层次维和 多重层次维的完全支持。 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且 具有管理大容量信息的能力
OLAP(联机分析处理)

OLAP(联机分析处理)数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing); OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
通俗的讲,就是对数据的增删改查等操作。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
是对数据按不同维度的聚合,维度的上钻,下卷等。
OLAP可以分为ROLAP,MOLAP和HOLAPROLAP:使用关系型数据库或者扩展的关系型数据库来管理数据仓库数据,而OLAP中间件支持其余的功能。
ROLAP包含了每个后端关系型数据库的优化,聚合,维度操作逻辑的实现,附件的工具以及服务等。
所以ROLAP比MOLAP有更好的可伸缩性。
比较典型的ROLAP有mondrian, Presto(facebook)。
目前阿里的DRDS也可以看作是ROLAP的框架MOLAP:通过基于数据立方体的多位存储引擎,支持数据的多位视图。
即通过将多维视图直接映射到数据立方体上,使用数据立方体能够将预计算的汇总数据快速索引。
比较典型的MOLAP框架有kylin(apache), Lylin(ebay)、pinot(linkedin)和druid也就是说MOLAP是空间换时间,即把所有的分析情况都物化为物理表或者视图,查询的时候直接从相应的物化表中获取数据,而ROLAP则通过按维度分库,分表等方式,实现单一维度下的快速查询,通过分布式框架,并行完成分析任务,来实现数据的分析功能。
MOLAP 实现较简单,但当分析的维度很多时,数据量呈指数增长,而ROLAP在技术实现上要求更高,但扩展性也较好。
HOLAP:混合OLAP结合ROLAP和MOLAP,得益于ROLAP 较大的可伸缩性和MOLAP的快速查询。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概 论
OLAP的定义 OLAP的定义 OLAP的基本概念 OLAP的基本概念 OLAP的基本分析操作 OLAP的基本分析操作
概 论
OLAP的定义 OLAP的定义 OLAP的基本概念 OLAP的基本概念 OLAP的基本分析操作 OLAP的基本分析操作
OLAP的定义 OLAP的定义
OLAP的特点 OLAP的特点 OLAP理事会的定义 OLAP理事会的定义 OLAP的特征 OLAP的特征 OLAP的准则 OLAP的准则
切片/ 切片/切块的例子
OLAP的基本分析操作 OLAP的基本分析操作
切片
切块
钻取
旋转
钻取(Drill) 钻取(Drill)
钻取包含向下钻取(Drill down)和向上钻取 钻取包含向下钻取(Drill-down)和向上钻取 (Drill(Drill-up)/上卷 Roll-up)操作, 上卷( (Drill-up)/上卷(Roll-up)操作, 钻取的深 度与维所划分的层次相对应。 度与维所划分的层次相对应。 下钻是指从概括性的数据出发获得相应的更详 细的数据。 细的数据。 上钻是指从详细的数据中获得相应的概括性的 数据。 数据。 钻取的深度与维所划分的层次相对应
OLAP的定义 OLAP的定义
OLAP的特点 OLAP的特点 OLAP理事会的定义 OLAP理事会的定义 OLAP的特征 OLAP的特征 OLAP的准则 OLAP的准则
OLAP的特点 OLAP的特点
在线性 (On Line) 对用户请求的快速响应和交互式操作, 对用户请求的快速响应和交互式操作,由C/S 体系结构实现。 体系结构实现。 多维分析 (Multi-dimension Analysis) (Multi是OLAP的核心所在。 OLAP的核心所在。 的核心所在
OLAP的基本分析操作 OLAP的基本分析操作
切片
切块
钻取
旋转
切片(Slice) 切片(Slice)
切片就是在某个或某些维上选定一个 属性成员,而在其他维上取一定区间 属性成员, 的属性成员或全部属性成员来观察数 据的一种分析方法。 据的一种分析方法。 选定一个二维子集。 选定一个二维子集。
OLAP的基本分析操作 OLAP的基本分析操作
目录
概论 多维OLAP和关系 多维OLAP和关系OLAP 和关系OLAP OLAP的体系结构 OLAP的体系结构 OLAP的新发展 OLAM OLAP的新发展---OLAM 的新发展---
目录
概论 多维OLAP和关系 多维OLAP和关系OLAP 和关系OLAP OLAP的体系结构 OLAP的体系结构 OLAP的新发展 OLAM OLAP的新发展---OLAM 的新发展---
多维OLAP和关系OLAP的对比 多维OLAP和关系OLAP的对比
数据存储 MOLAP和ROLAP的特征 MOLAP和ROLAP的特征
星型模式 ROLAP与MOLAP比较 ROLAP与MOLAP比较
OLAP的定义 OLAP的定义
OLAP的特点 OLAP的特点 OLAP的发展 OLAP的发展 OLAP的特征 OLAP的特征 OLAP的准则 OLAP的准则
OLAP的准则 OLAP的准则
基本特征B 基本特征B 特殊特性S 特殊特性S 报表特性R 报表特性R 维控制特性D 维控制特性D
概 论
OLAP的定义 OLAP的定义 OLAP的基本概念 OLAP的基本概念 OLAP的基本分析操作 OLAP的基本分析操作
概 论
OLAP的定义 OLAP的定义 OLAP的基本概念 OLAP的基本概念 OLAP的基本分析操作 OLAP的基本分析操作
OLAP的基本分析操作 OLAP的基本分析操作
切片、切块、钻取、旋转等分析操作 切片、切块、钻取、
使得用户可以从多个角度、多个侧面观察数据 使得用户可以从多个角度、 库中的数据、从而更加深入地了解包含在数据 库中的数据、 中的信息
钻取的例子
按 时 间 维 向 上 钻 取
60
按 时 间 维 向 下 钻 取
OLAP的基本分析操作 OLAP的基本分析操作
切片
切块
钻取
旋转
旋转
旋转是指改变一个报告或页面显示的维 方向 旋转包括交换行和列、或是把某一行维 旋转包括交换行和列、 移到列维中去, 移到列维中去,或把页面显示中的一个 维和页面外的维进行交换
多维数据集例子
服装切片
产品
北京 上海 江苏
销售数量: 10000
1
2
3
4
化妆品 玩具 服装 电器 时间(月)
OLAP的基本概念 OLAP的基本概念
度量值 维 多维数据集 虚拟维度 父子维度
虚拟维度
虚拟维度是基于物理维度内容的逻辑维 度。 可以是物理维度中的成员属性、 可以是物理维度中的成员属性、也可以 是物理维度表中的列 通过虚拟维度, 通过虚拟维度,可以基于物理维度表中 的某个成员属性对多维数据集进行分析, 的某个成员属性对多维数据集进行分析, 而不额外占用存储空间 由于虚拟维度是基于维度的成员属性, 由于虚拟维度是基于维度的成员属性, 谷只有该维度本身是被包括在多维数据 集中时, 集中时,才能添加使用该虚拟维度
切片
切块
钻取
旋转
切块(Dice) 切块(Dice)
切块就是在各个维上取一定区间的成 员属性或全部成员属性来观察数据的 一种分析方式。 一种分析方式。 可以看成是在切片的基础上,由多个 可以看成是在切片的基础上, 切片叠和起来。 切片叠和起来。 切片是切块的特例、切块是切片的扩 切片是切块的特例、 展
Client OLAP
混合联机分析处理, 混合联机分析处理, Hybrid OLAP
OLTP、ROLAP与MOLAP模式 OLTP、ROLAP与MOLAP模式
多维OLAP和关系OLAP的对比 多维OLAP和关系OLAP的对比
数据存储 MOLAP和ROLAP的特征 MOLAP和ROLAP的特征
星型模式 ROLAP与MOLAP比较 ROLAP与MOLAP比较
OLAP的基本概念 OLAP的基本概念
度量值 维 多维数据集 虚拟维度 父子维度
OLAP的基本概念 OLAP的基本概念
度量值 维 多维数据集 虚拟维度 父子维度
度量值
度量值是人们观察事务的焦点。比如对 企业来说,最受关注的其产品销售量、 销售额等,度量值存放在多维数据集 中的事实表中,通常为数字,即度量 值是最终用户浏览多维数据集时重点 查看的数字数据。
OLAP的定义 OLAP的定义
OLAP的特点 OLAP的特点 OLAP理事会的定义 OLAP理事会的定义 OLAP的特征 OLAP的特征 OLAP的准则 OLAP的准则
OLAP理事会的定义 OLAP理事会的定义
OLAP是一种软件技术, OLAP是一种软件技术,它使分析人员能够迅 是一种软件技术 速、一致、交互地从各个方面观察信息,以 一致、交互地从各个方面观察信息, 达到深入理解数据的目的。 达到深入理解数据的目的。 OLAP的大部分策略是将关系型的或者普通的 OLAP的大部分策略是将关系型的或者普通的 数据进行多维数据存储, 数据进行多维数据存储,从而达到联机分析 处理的目的。 处理的目的。
目录
概论 多维OLAP和关系 多维OLAP和关系OLAP 和关系OLAP OLAP的体系结构 OLAP的体系结构 OLAP的新发展 OLAM OLAP的新发展---OLAM 的新发展---
OLAP分类 OLAP分类
OLAP
按照存储方式
按照处理地点
ROLAP MOLAP HOBiblioteka APServer OLAP
OLAP的基本概念 OLAP的基本概念
度量值 维 多维数据集 虚拟维度 父子维度
维
维是指人们观察实务的角度,时间维度、地区维度 维是指人们观察实务的角度,时间维度、 维的层次性:人们观察数据的某个特定角度(即某个维) 维的层次性:人们观察数据的某个特定角度(即某个维) 还可以存在细节程度不同的多个描述层次。 还可以存在细节程度不同的多个描述层次。时间维可以分 为日期、 为日期、周、月、季度、年等不同维层次,地区维也可以 季度、年等不同维层次, 分为街道、城市、省、国家等不同的维层次。 分为街道、城市、 国家等不同的维层次。
维的例子
销售地区
华东
华中
西南
上海
江苏
湖北
河南
云南
四川
OLAP的基本概念 OLAP的基本概念
度量值 维 多维数据集 虚拟维度 父子维度
多维数据集
所有同质的度量值及其关联的维的维成员构成一个多 维数据集。 维数据集。 当维数为3 当维数为3时,多维数据集表现为一个数据立方体 当维数超过3 当维数超过3时,多维数据集表现为超立方体。 多维数据集表现为超立方体。 多维数据集是OLAP的核心。 多维数据集是OLAP的核心。 的核心 每一个多维数据集都可以用一个多维数组表示。 每一个多维数据集都可以用一个多维数组表示。维成 员作为该数组的下标、度量值为该数组元素的取值。 员作为该数组的下标、度量值为该数组元素的取值。 多维数据集可以用多维数据库实现,也可以用关系数 多维数据集可以用多维数据库实现, 据库实现
OLAP的基本概念 OLAP的基本概念
度量值 维 多维数据集 虚拟维度 父子维度
父子维度
父子维度基于两个维度表列, 父子维度基于两个维度表列,这两列一起定义 了维度成员中的沿袭关系。 了维度成员中的沿袭关系。 一列称为成员键列,标识每个成员; 一列称为成员键列,标识每个成员; 另一列称为父键列,标识每个成员父代。所谓 另一列称为父键列,标识每个成员父代。 父代,即层次结构中的上一层节点, 父代,即层次结构中的上一层节点,子列与父 列必须具有相同的数据类型, 列必须具有相同的数据类型,而且在同一表中 父子维度的深度随其层次结构的分支而变化