Chap4_1_联机分析处理(OLAP)
联机事务处理(OLTP)和联机分析处理(OLAP)
联机事务处理(OLTP)和联机分析处理(OLAP)1.概述当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
2.什么是联机事务处理(OLTP)联机事务处理系统(OLTP),也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
这样做的最大优点是可以即时地处理输入的数据,及时地回答。
也称为实时系统(Real time System)。
衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。
OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
OLTP数据库通常具有以下特征:1.支持大量并发用户定期添加和修改数据;2.反映随时变化的单位状态,但不保存其历史记录;3.包含大量数据,其中包括用于验证事务的大量数据;4.具有复杂的结构;5.可以进行优化以对事务活动做出响应;6.提供用于支持单位日常运营的技术基础结构;7.个别事务能够很快地完成,并且只需访问相对较少的数据。
OLTP 系统旨在处理同时输入的成百上千的事务。
OLTP系统中的数据主要被组织为支持如下事务:1.记录来自销售点终端或通过网站输入的订单;2.当库存量降到指定级别时,订购更多的货物;3.在制造厂中将零部件组装为成品时对零部件进行跟踪;4.记录雇员数据。
通常在数据库系统中,事务是工作的离散单位。
例如,一个数据库事务可以是修改一个用户的帐户平衡或库存项的写操作。
第4章-OLAP-在线联机分析
OLTP与OLAP对比表
OLTP OLAP
数据库原始操作
细节性数据 当前数据 经常性更新数据 一次性处理的数据量少 对响应时间要求高 用户量大
数据库导出数据或数据仓库数据
综合性数据 历史性数据 不可更新,但可周期性刷新数据 一次性处理的数据量多 响应时间合理 用户量少
面向操作人员、支持日常操作
面向应用、实物驱动
– (‘2000年’, ‘家电’, ‘南京市’, ‘1亿’) – (‘2000年7月’,‘女性服装’,‘江苏省’, ‘10亿’)
数据单元(单元格)
多维数组的取值称为数据单元。 当多维数组的各个维都选中一个维成员,
这些维成员的组合就唯一确定了一个观 察对象的值,即(维成员1,维成员 2,……,维成员n,对象值)。
面向决策人员、支持管理需要
面向分析、分析驱动
OLAP特性
快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5
秒内对用户的大部分分析要求做出反应。客户/服务器体系结构 -两层或三层C/S结构。
可分析性 :OLAP 系统应能处理与应用有关的任何逻辑分析和统计
分析。
多维性 :多维性是 OLAP 的关键属性。系统必须提供对数据的多维
问、处理和分析,通过直观的方式从多个维度、 多种数据综合程度将系统的运营情况展现给使 用者。
OLTP与OLAP
随着数据库系统广泛应用,数据库系统记录和
处理的数据越来越多,及时地记录和处理企业 的各种业务数据,这些系统成为联机事务处理 (OLTP)系统。数据库技术的广泛应用和技术的 发展,人们已经不再满足于仅仅用数据库系统 来记录企业的业务活动数据和对数据的简单处 理,人们需要对企业业务活动的数据进行各种 分析,以便发现企业业务趋势,这些系统称为 联机分析处理(OLAP)系统。
OLAP 服务器
OLAP 服务器OLAP 服务器1. 简介1.1 概述在本章节中,将对OLAP(联机分析处理)服务器进行简要的概述和定义。
2. 功能特点2.1 数据存储与管理功能描述了OLAP服务器用于数据存储和管理的主要功能。
2.2 多维数据查询与分析功能解释了如何使用OLAP服务器进行多维数据查询和分析,并其相关特性。
3.系统架构设计讨论了在实施一个完整的 OLTP (On-Line Transaction Processing) 和 OLAS( On-line Analytical System ) 应用程序时所需考虑到的问题以及解决方案。
包括客户端、服务层、数据库等组件之间相互关系图示或描述文字说明。
4.安装配置指南提供详尽步骤来帮助用户正确地安装并配置该软件产品。
这些步骤应涵盖从软件开始直至成功运行起来为止所有必须执行操作.5.快速入门教程这一部份提供给新手迅速上手,通过几个基础例子讲解最常见情景下怎样建立自己第一个Cube.6.高级技术支持此篇幅是针对那些已经熟悉了基本操作并且希望深入学习更多高级技巧的用户。
这里会详细讲解一些复杂场景下怎样使用OLAP服务器。
7.常见问题与故障排除列出可能遇到的常见问题和相应的解决方案,以及如何进行故障排查。
8. 附件在此处列出文档所涉及到的所有附件,并提供或其他相关信息。
9. 法律名词及注释- OLAP:联机分析处理(On-Line Analytical Processing)是指通过对大量数据进行查询、汇总、统计等方式来获取有关业务过程中各种活动情况和结果变化趋势等知识性信息。
10. 结束语。
什么是联机分析处理(OLAP)
OS Java CORBA COM+ Middleware XML&WebService Patterns ONE&NET P2P Development Database Download Doc什么是联机分析处理(OLAP )(转载自北大高科网站,/)联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd 于1993年提出的,他同时提出了关于OLAP 的12条准则。
OLAP 的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP (on-line transaction processing )、联机分析处理OLAP (On-Line Analytical Processing )。
OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP 与OLAP 之间的比较。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through 等。
管理学第三章数据仓库-联机分析处理课件
维数组,是多维数据的表达方式。
(维1,维2,…,维n,变量) 单元格:多维数组的取例:(值南称京,为一季单度元,计算格机(,82数5)据单
元),可表示为
(维1维成员,…,维n维成员,变量值)
5
SQL Server 的Analysis 三种多维数据存 储方式:
Q3 1034 1034 45 1002 940 759 58 728 812 1023 30 501
Q4 1142 1090 54 984 978 864 59 784 927 1038 38 580
23
3-D数据立方体表示:维是时间、类型、地区;度量为万元
地区
上海 1087 968 38 872
北京 818 746 43 591
南京
Q1 605 825 14 400
Q2 680 952 31 512
时间
Q3 812 1023 30 501
Q4 927 1038 38 580
计算机
安全
家庭娱乐
电话
类型
24
3.3.1 数据立方体
-由表到数据立方体
假定我们想从四维的角度观察销售数据,再附 加一维供应商。 观察4-D事物变得麻烦,可把4-D立方体看成3D立方体的序列:
3.旋转
改变一个页面显示的维方向的操作称为旋转 (或转轴)。
32
广州 城 上海 市 北京
南京 605 825 14 400
【例3】类型和地区在一 个2-D切片上转动。
计算机 安全 家庭娱乐 电话
类型
旋转
类型
家庭娱乐 计算机 电话
安全
上海
605
825 14
简述olap的基本操作方法
简述olap的基本操作方法
OLAP(Online Analytical Processing)是一种基于多维数据模型的数据分析技术,用于快速、交互式地分析大量历史和实时数据。
它的基本操作方法包括:
1. 切片(Slice):选择一个或多个维度的特定值,以便在一个子立方体中查看数据。
通过选择某个时间点、特定地区或某个产品类型等,可以对数据进行切片操作,缩小分析范围。
2. 切块(Dice):选择一个或多个维度的部分值,以便在一个子立方体中查看数据。
通过选择某个时间段、特定地区和某个产品类型等,可以对数据进行切块操作,同时筛选数据。
3. 旋转(Rotate):改变维度的对应关系,以便以不同的视角分析数据。
通过旋转可以更好地理解数据之间的关系,发现数据中的模式和趋势。
4. 聚集(Aggregate):根据维度的层级关系,对数据进行聚合操作。
通过聚集可以将细节数据转化为更高层级的总计或平均值,以便进行更高层次的分析。
5. 钻取(Drill Down/Up):在维度层级之间进行导航。
通过钻取可以从整体数据中深入到更具体的细节数据,或者从细节数据回到整体数据。
6. 过滤(Filter):根据特定的条件对数据进行筛选。
通过过滤可以排除不需要
的数据,集中分析感兴趣的数据。
7. 排序(Sort):根据某个维度或测度对数据进行排序。
通过排序可以按照特定的顺序查看数据,更好地理解数据之间的差异。
总的来说,OLAP的基本操作方法可以帮助用户从不同的角度对数据进行分析,提取有用的信息,并发现数据之间的关系和规律。
第4章:联机分析处理技术
内容
OLAP概述 OLAP中的多维分析操作 OLAP的基本数据模型 OLAP的衡量标准
OLAP概述
OLAP的由来
联机事务处理(OLTP):利用关系数据库存储和管理业务 数据,并建立相应的应用系统来支持日常业务运作。这种应 用以支持业务处理为主要目的。所存储的数据被称为操作型 数据或业务数据 对OLTP数据库中的数据进行再加工,形成一个综合的、面 向分析的、更好的支持决策制定的决策支持系统(DSS)
特化(specialize)
通过用低层抽象(如time维的day)值替换高层抽象(如time 维的year)值,概念分层可以用于特化数据;
OLAP的基本数据模型
OLAP系统一般以数据仓库作为基础, 从数据仓库中抽取详细数据的一个子 集,经过必要的聚集存储到OLAP存储 器中供前端分析工具读取 为了保证信息处理所需的数据以合适 的粒度、合理的抽象程度和标准化程 度存储,按照其数据存储格式可以分 为关系OLAP(ROLAP)、多维OLAP (MOLAP)和混合OLAP(HOLAP)
38
数据存储的容量
ROLAP使用的传统关系数据库的存储方法,在存 储容量上基本没有限制。 MOLAP通常采用多平面叠加成立体的方式存放 数据。 MOLAP受操作系统平台中文件大小的限制,当 数据量超过操作系统最大文件长度时,需要进行 数据分割。 多维数据库的数据量级难以达到TB 级(只能 10~20G)
OLAP中的多维分析操作
OLAP中的多维分析操作
切片和切块
切片:在给定数据立方体的一个维上进行选择操作,切片的 结果是得到一个二维平面数据,如银行分行=“分行1”
OLAP中的多维分析操作
olap的基本操作
olap的基本操作
OLAP的基本操作
OLAP(Online Analytical Processing)是一种数据分析技术,它可以帮助用户快速地分析大量的数据,从而发现数据中的规律和趋势。
OLAP的基本操作包括切片、切块、钻取和旋转。
切片是指在数据立方体中选择一个或多个维度,然后对这些维度进行筛选,从而得到一个子集。
例如,我们可以选择“时间”这个维度,然后筛选出某个时间段内的数据。
切片可以帮助用户快速地找到自己需要的数据,从而提高分析效率。
切块是指在数据立方体中选择一个或多个维度,然后对这些维度进行分组,从而得到一个子集。
例如,我们可以选择“地区”这个维度,然后按照不同的地区进行分组,从而得到每个地区的数据。
切块可以帮助用户更好地理解数据,从而发现数据中的规律和趋势。
钻取是指在数据立方体中选择一个或多个维度,然后对这些维度进行扩展或缩小,从而得到更详细或更概括的数据。
例如,我们可以选择“时间”这个维度,然后将其扩展到更细的粒度,比如按照月份或者日期进行分析。
钻取可以帮助用户更深入地了解数据,从而发现数据中的更多细节。
旋转是指在数据立方体中选择一个或多个维度,然后将这些维度进行交换,从而得到一个新的数据视图。
例如,我们可以选择“时间”
和“地区”这两个维度,然后将它们进行交换,从而得到每个时间段内每个地区的数据。
旋转可以帮助用户更好地比较不同维度之间的数据,从而发现数据中的更多规律和趋势。
OLAP的基本操作可以帮助用户更好地理解和分析数据,从而发现数据中的规律和趋势。
在实际应用中,用户可以根据自己的需求选择不同的操作,从而得到最合适的数据视图。
OLTP、OLAP介绍
OLTP、OLAP介绍⼀、什么是OLTP OLTP,即联机事务处理(Online Transaction Processing),表⽰事务性⾮常⾼的系统,⼀般都是⾼可⽤的在线系统,以⼩的事务以及⼩的查询为主,评估其系统的时候,⼀般看其每秒执⾏的Transaction以及Execute SQL的数量。
在这样的系统中,单个数据库每秒处理的Transaction往往超过⼏百个,或者是⼏千个,Select 语句的执⾏量每秒⼏千甚⾄⼏万个。
OLTP主要⽤来记录某类业务事件的发⽣,如购买⾏为,当⾏为产⽣后,系统会记录是谁在何时何地做了何事,这样的⼀⾏(或多⾏)数据会以增删改的⽅式在数据库中进⾏数据的更新处理操作,要求实时性⾼、稳定性强、确保数据及时更新成功,像公司常见的业务系统如ERP,CRM,OA等系统都属于OLTP。
OLTP系统最容易出现瓶颈的地⽅就是CPU与磁盘⼦系统。
CPU出现瓶颈常表现在逻辑读总量与计算性函数或者是过程上,逻辑读总量等于单个语句的逻辑读乘以执⾏次数,如果单个语句执⾏速度虽然很快,但是执⾏次数⾮常多,那么,也可能会导致很⼤的逻辑读总量。
设计的⽅法与优化的⽅法就是减少单个语句的逻辑读,或者是减少它们的执⾏次数。
另外,⼀些计算型的函数,如⾃定义函数、decode等的频繁使⽤,也会消耗⼤量的CPU时间,造成系统的负载升⾼,正确的设计⽅法或者是优化⽅法,需要尽量避免计算过程,如保存计算结果到统计表就是⼀个好的⽅法。
磁盘⼦系统在OLTP环境中,它的承载能⼒⼀般取决于它的IOPS处理能⼒。
因为在OLTP环境中,磁盘物理读⼀般都是db file sequential read,也就是单块读,但是这个读的次数⾮常频繁。
如果频繁到磁盘⼦系统都不能承载其IOPS的时候,就会出现⼤的性能问题。
OLTP⽐较常⽤的设计与优化⽅式为Cache技术与B-tree索引技术。
Cache决定了很多语句不需要从磁盘⼦系统获得数据,所以,Web cache与Oracle data buffer对OLTP系统是很重要的。
BI基础资料-OLAP
联机分析处理 (OLAP)百科名片联机分析处理简写为OLAP,随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
目录[隐藏]作用起源分类[编辑本段]作用联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。
它并不将异常信息标记出来,是一种知识证实的方法。
[编辑本段]起源联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。
OLAP的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
Codd提出OLAP的12条准则来描述OLAP系统:准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力推测准则4 稳定的报表能力准则5客户/服务器体系结构准则6维的等同性准则准则7 动态的稀疏矩阵处理准则准则8 多用户支持能力准则准则9 非受限的跨维操作准则10 直观的数据操纵准则11灵活的报表生成准则12 不受限的维与聚集层次[编辑本段]分类当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-linetransaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
联机分析处理OLAP精品PPT课件
联机分析处理(OLAP)
1 OLAP概述 2 OLAP的数据模型 3 多维数据的显示方法 4 OLAP的多维数据分析
一Pl、eaOsLeAPin概s述ert Title
Please insert sub-title
➢ 1.1 OLAP的由来 ➢ 1.2 OLAP的定义
1.2.1 OLAP委员会的定义 1.2.2 OLAP简明定义
一个维成员并不一定在每个维层次上都要取值。例 如,“某年某月”、“某月某日”、“某日”等都是时 间维的维成员。
一Pl、eaOsLeAPin概s述ert Title
P•lea1s.e3insOerLtAsPu的b-t一itle些基本概念
多维数组 一个多维数组可以表示为:(维1,维2,… ,维n,
变量) 例如,日用品销售数据的一个多维数组(地区,时
一Pl、eaOsLeAPin概s述ert Title
P•lea1s.e1insOerLtAsPu的b-t由itle来
简单地说,在数据仓库系统中,OLAP是重要的数 据分析工具。OLAP的基本思想是企业的决策者应能灵 活地,从多方面和多角度以多维的形式来观察企业的状 态和了解企业的变化。
一Pl、eaOsLeAPin概s述ert Title
指对数据分析的多维视图和分析,是OLAP的关键属 性,包括对层次维和多重层次维的支持。
一Pl、eaOsLeAห้องสมุดไป่ตู้in概s述ert Title
P•lea1s.e2insOerLtAsPu的b-t定itle义
1.2.2 OLAP简明定义
➢ 信息性(Information) 指OLAP系统管理数据和获得信息的能力,能管理大
量的数据并及时地获得用户所需的信息。
OLAP(在线分析处理)技术技术白皮书
OLAP(在线分析处理)技术一、发展背景60年代,关系数据库之父E.F.Cdd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。
1993年,E.F.Cdd提出了OLAP(联机分析处理)概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。
用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。
因此,E.F.Cdd提出了多维数据库和多维分析的概念,即OLAP技术概念。
OLTP与OLAP的不同点:二、关于OLAP◆定义OLAP(联机分析处理) :是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术——OLAP委员会的定义(请特别注意,这是一类技术,而非特指某软件、或管理方法)。
OLAP的目标:是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
◆OLAP相关基本概念:1、维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
2、维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。
3、维的成员:维的一个取值。
是数据项在某维中位置的描述。
(“某年某月某日”是在时间维上位置的描述)4、多维数组:维和变量的组合表示。
一个多维数组可以表示为:(维1,维2,…,维n,变量)。
(时间,地区,产品,销售额)5、数据单元(单元格):多维数组的取值。
(2000年1月,上海,笔记本电脑,$100000)◆OLAP的特性1、快速性:用户对OLAP的快速反应能力有很高的要求,主要是指计算机的计算的反应速度,系统应能在5秒内对用户的大部分分析要求做出反应,但对业务数据的实时信息却很难反应。
第五章联机分析处理(OLAP)-Read
第五章联机分析处理(OLAP)DW是管理决策分析的基础,若要有效地利用DW中的信息资源,必须有强大的工具对信息进行分析、决策,OLAP就是一个得到广泛用的DW技术。
OLAP专门用于支持复杂的决策分析,是支持信息管理和业务管理人员决策活动的一种决策分析工具。
它可以根据分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,并且以直观的、容易理解的形式将查询结果提供给各种决策人员,使他们迅速、准确地掌握企业的运营情况,了解市场的需求。
OLAP技术主要有两个特点:一是在线(On-Line),表现为对用户请求的快速响应和交互操作,它的实现是由客户机/服务器体系结构完成的;二是多维分析(Multi-Analysis),这也是OLAP技术的核心所在。
§ 5.1 OLAP技术基本概念一、OLAP的定义OLAP是E.F.Codd于1993年提出的。
OLAP理事会的定义:OLAP是一种软件技术,他使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,这些信息是从原始数据直接转换过来的,他们以用户容易理解的方式反映企业的真实情况。
OLAP大部分策略都是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到联机分析处理的目的。
这种多维DB也被看作一个超立方体,沿着各个维方向存贮数据,它允许用户沿事物的轴线方便地分析数据,与主流业务型用户相关的分析形式一般有切片和切块以及下钻、挖掘等操作。
共享多维信息的快速分析。
二、OLAP的功能特征:OLAP是一种数据分析技术,其功能特征是:1、快速性用户对OLAP的快速反映有很高的要求,一般要求能在5秒内对分析要求有反映。
设计时应考虑:专门的数据存贮格式,大量的事先运算,特别的硬件设计。
2、可分析性OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
因为事先编程并不能定义所有的应用,所以,在OLAP分析的过程中,用户无需编程就可以定义新的计算,将成为分析的一部分,且以用户希望的方式给出报告。
谈谈联机分析处理
关于数据仓库与联机分析处理的概述一、数据仓库及数据库的概念及其特点1、数据仓库的概念及其特点“什么是数据仓库?”这恐怕是每一个刚刚开始接触数据仓库的技术人员都会提出的一个问题。
有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析的技术。
这些定义都从一定的侧面反映了数据仓库的概念,但并不全面。
目前,业界公认的数据仓库定义是由数据仓库之父the Data Warehouse》一书中给出:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。
”正如Inmon所描述的,数据仓库具有如下特点:(1)数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。
所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
(2)数据仓库的数据是集成的建立数据仓库的主要目的就是为用户提供易于访问的商业信息。
为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。
在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。
(3)数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。
数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。
(4)数据仓库的数据是随时间不断变化的数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。
但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。
数据仓库会随时间的变化不断增加新的数据内容和删去过时的数据内容。
3 OLAP联机分析处理
ROLAP服务器
ROLAP 和 MOLAP比较的结论 ROLAP在大数据量的存储上有绝对的优势,如果需 要建立一个大型的、功能复杂的企业级数据仓库, 就要选择ROLAP。 如果希望建立一个目标单一、维数不是很多的分析 型数据集市,则MOLAP可能是一个较佳的选择。
HOLAP服务器
HOLAP服务器结合ROLAP和MOLAP技术 对于常用的维度和维层次,在HOLAP中使用多维数 据表来记录。 对于不常用的维度和数据,采用类似于ROLAP星型 结构来存储。 允许将大量详细数据存放在关系数据库中,而聚集 保持在分离的MOLAP存储中。 HOLAP在主要性能上都介于 MOLAP和 ROLAP之间, 其技术复杂度高于MOLAP和 ROLAP。
ROLAP服务器
ROLAP服务器
星型结构
ROLAP服务器
雪花模式:是星型模式的变种,有些表是规范化形式,减少冗余, 便于维护,节省存储空间,但降低浏览的性能。
ROLAP服务器
事实星座:多个事实表共享维表(数据仓库通常采用事实星座模式)
ROLAP服务器
ROLAP服务器的结构
注:在ROLAP中,多维数据立
Web数据的多维分析
钻取
数据聚集
旋转
产 品
时 间
产 品
财务指标
pivot
Drill-across: Distribution first, Sales Org. second
OLAP分类
OLAP
Relational database
按照存储方式
ROLAP
按照处理地点
ROLAP MOLAP HOLAP
MOLAP服务器
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
OLAP的多维数据分析
OLAP 的一些基本概念 理解数据立方 OLAP 的基本分析操作
OLAP 的一些基本概念
变量 维 维的层次 维成员 多维数组
数据单元(单元格)
变量
变量是数据的实际意义,即描述数据是什
么。例如,数据 100 本身并没有意义或 者说意义未定,它可能是一个学校的学生 人数,也可能是某产品的单价,还可能是 某商品的销售量等。在一般情况下,变量 总是一个数值度量指标,例如人数、单价、 销售量等都是变量,而100 则是变量的一 个值。
联机分析处理(OLAP)
OLAP 的基本概念 OLAP的多维数据分析 OLAP 的模型 OLAP工具评价
引例
在最近几年的一次股东会议上,百事可乐
公司(PepsiCo,Inc)的首席执行官韦 思· 加洛韦(D. WayneCalloway)说:“10 年前,我可以告诉你们立体脆(Doritos) 在密西西比州西部的销售情况。今天,我 不但可以告诉你们立体脆在密西西比州西 部销售得多么好,而且还可以告诉你们它 们在加利福尼亚、在奥伦奇城、在欧文县 以及每周四在本地Vons 超市第四通道的 促销中销售得多么好。
400 500 425 525 375
450
480 600 510 630 450
2月
桌子 台灯
3月
桌子 台灯
OLAP 的基本分析操作
OLAP 分析是指对以多维形式组织起来的
数据采取切片、切块、旋转等各种分析操 作,以求剖析数据,使最终用户能从多个 角度、多侧面观察数据仓库中的数据,从 而深入了解包含在数据中的信息、内涵
切片 切块 旋转 钻取
切片
定义 1:在多维数组的某一维上选定一维
成员的操作称为切片(Slice),即在多维数 组(维l,维2,……,维n,变量)中选一维, 如维i,并取其一维成员(设为“维成员 Vi”),所得的多维数组的子集(维1,……, 维成员Vi,……维n,变量)称为在维i 上 的一个切片
图3.6 四维数据的显示
商店3 上衣 (页面) 直接销 售 1月 2月 3月 450 380 400
裤 固定成 本 350 280 310 直接销 售 550 460 480 固定成 本 450 360 410
帽子 直接销 售 500 400 450 固定成 本 400 320 400
对于更多维度的数据显示,需要选择维度
维
维是人们观察数据的特定角度。例如,企
业常常关心产品销售数据随着时间的推移 而产生的变化情况,这时是从时间的角度 来观察产品的销售,所以时间是一个维 (时间维); 企业也时常关心自己的产品在不同地区的 销售分布情况,这时是从地理分布的角度 来观察产品的销售,所以地理分布也是一 个维(地理维)。其他还有如产品维、顾客 维等。
OLAP 的基本概念
OLAP 的发展背景 联机分析处理是数据仓库系统的一个应用
OLAP 的发展背景
自 20 世纪80 年代开始,许多企业利用关
系型数据库来存储和管理业务数据,并建 立相应的应用系统来支持日常的业务运作。 这种应用以支持业务处理为主要目的,被 称为联机事务处理(On-line Transaction Processing,OLTP)应用,它所存储的 数据被称为操作数据或者业务数据
05 年 200 50 150
06 年 200 180 200
05 年 350 150 180
06 年 250 230 170
05 年 150 150 270
06 年 140 120 250
旋转后再切片
1 季度 年龄 2 季度 3 季度 4 季度
>20 50>x>20 >50
05 年 100 300 250
及其成员分布在行或者列中。在页面上可 以选定多个维度,但每个维度只能显示一 个成员。在行或者列中一般只选择二个维, 每个维可以多个成员。例如,对6个维度 数据,它的MTS如图3.7所示。
图3.7 六维MTS例
对以上6维数据中,设定页面维度为商店
的成员是“商店3”,客户维度成员是 “老年”。行维度含时间维和产品维共2 个维度,其中时间维中成员为“1月、2月、 3月” 。产品维中成员为“桌子、台灯”。 列维度含指标维和场景维共2个维度,其 中指标维中成员为“直接销售、间接销售、 总销售”。场景维中成员为“实际、计 划”。 具体的显示数据如图3.8所示。
旋 转
行列交换 产 品 维 时间维 (a ) 地区维 旋转以改变 显示布局 产 品 维 产品维 时 间 维 产品维
地 区 维 时间维
时间维
实例
旋转前的数据
2005 年
部门 1 季度 2 季度 3 季度 4 季度
2006 年
1 季度 2 季度 3 季度 4 季度
部门 1 部门 2 部门 3
200 250 200
取值,例如“某年某月”、“某月某日”、 “某年”等都是时间维的维成员。 对应于一个数据项来说,维成员是该数据 项在某维中位置的描述。例如,对于一个 销售数据来说,时间维的维成员“某年某 月某日”就表示该销售数据是“某年某月 某日”的销售数据,“某年某月某日”是 该销售数据在时间维中位置的描述。
多维数组
200 50 150
350 150 180
150 150 270
120 200 180
200 180 200
250 230 170
140 120 250
旋转后的数据
1 季度 部门 2 季度 3 季度 4 季度
部门 1 部门 2 部门 3
05 年 200 250 200
06 年 120 200 180
400
150 250 300
多维类型结构(MTS)
表示方法是:每一个维度用一条线段来表
示。维度中的每一个成员都用线段上的一 个单位区间来表示。
例如,用三个线段分别表示时间、产品和
指标三个维的多维类型结构如图3.3所示。
图3.3三维MTS例
在图3.3多维类型结构(MTS)中,指定时
间维成员是3月,产品维成员是鞋,指标 维成员是销售量,这样它代表了三维数据 总得一个空间数据点,如图3.4所示。
图3.4多维类型结构中的空间数据点
多维数据的分析视图
在平面的屏幕上显示多维数据,是利用行、
列和页面三个显示组来表示的。 例如,对上例的四维MTS实例,在页面上 选定商店维度中“商店3”,在行中选定 时间维的“1月、2月、3月”共3个成员, 在列中选定产品维中的“上衣、裤、帽子” 三个成员,以及指标维中的“固定成本、 直接销售”二个成员。 该四维数据的显示如图3.6所示。
一个多维数组可以表示为(维l,维
2,……,维n,变量)。例如,若日用品 销售数据是按时间、地区和销售渠道组织 起来的三维立方体,加上变量“销售额”, 就组成了一个多维数组(地区,时间,销 售渠道,销售额),如果在此基础上再扩 展一个产品维,就得到一个四维的结构, 其多维数组为(产品,地区,时间,销售 渠道,销售额)。
图 4.3 (地区,产品,销售额)切片
例如,以“产品、城市、时间”三维数据,如 图
产品Leabharlann 电视机 广州 电冰箱 上海 95 96
城市
时间
对三维数据,通过“切片” ,分别从城市和产 品等不同的角度观察销售情况:
ã Ö ¹ Ý Ï º É £ ç Ê µ Ó » ú
ç ± µ ù Ï ä
切块
定义 1:在多维数组的某一维上选定某一
MOLAP数据模型
MOLAP是基于多维数据库存储方式建立的OLAP;表
现为“超立方”结构,采用类似于多维数组的结构。 以多维方式组织数据,以维作为坐标系,采用类似 于数组形式存储数据 多维数据库中的元素具有相同类型的数值,如销售 量 例如,二维MDDB(数组,即矩阵)的数据组织见 表4.1所示
北京
北京 上海 上海 上海 广州 广州 广州 北京 北京 北京 上海 上海
2月
3月 1月 2月 3月 1月 2月 3月 1月 2月 3月 1月 2月
200
300 200 300 400 150 250 300 150 300 350 200 300
鞋
鞋 鞋 鞋
上海
广州 广州 广州
3月
1月 2月 3月
随着市场竞争的日趋激烈,企业更加强调
决策的及时性和准确性,这使得以支持决 策管理分析为主要目的的应用迅速崛起, 这类应用被称为联机分析处理,它所存储 的数据被称为信息数据
联机分析处理的概念最早由关系数据库之父 E.F.
Codd 于1993 年提出。Codd 认为,联机事务处理 已不能满足终端用户对数据库查询分析的要求, SQL 对大容量数据库的简单查询也不能满足用户分 析的需求。用户的决策分析需要对关系数据库进行 大量的计算才能得到结果,而查询的结果并不能满 足决策者提出的需求 因此,Codd 提出了多维数据库和多维分析的概念
数据单元(单元格)
多维数组的取值称为数据单元。当多维数
组的各个维都选中一个维成员时,这些维 成员的组合就唯一确定了一个变量的值。 那么数据单元就可以表示为(维1 维成员, 维2 维成员,……维n 维成员,变量的值)。
例如,在产品、地区、时间和销售渠道上
各取维成员“牙膏”、“上海”、 “1998 年12 月”和“批发”,就唯一确 定了变量“销售额”的一个值(假设为100 000),则该数据单元可表示为(牙膏,上 海,1998 年12 月,批发,100 000)
区间的维成员的操作称为切块,即限制多 维数组的某一维的取值区间。显然,当这 一区间只取一个维成员时,即得到一个切 片(切片的定义1)
图3.11 三维数据切块
旋转