第13章_联机分析处理(OLAP)技术-完成
数据仓库与数据挖掘考试习题汇总 3
1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
联机事务处理(OLTP)和联机分析处理(OLAP)
联机事务处理(OLTP)和联机分析处理(OLAP)1.概述当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
2.什么是联机事务处理(OLTP)联机事务处理系统(OLTP),也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
这样做的最大优点是可以即时地处理输入的数据,及时地回答。
也称为实时系统(Real time System)。
衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。
OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
OLTP数据库通常具有以下特征:1.支持大量并发用户定期添加和修改数据;2.反映随时变化的单位状态,但不保存其历史记录;3.包含大量数据,其中包括用于验证事务的大量数据;4.具有复杂的结构;5.可以进行优化以对事务活动做出响应;6.提供用于支持单位日常运营的技术基础结构;7.个别事务能够很快地完成,并且只需访问相对较少的数据。
OLTP 系统旨在处理同时输入的成百上千的事务。
OLTP系统中的数据主要被组织为支持如下事务:1.记录来自销售点终端或通过网站输入的订单;2.当库存量降到指定级别时,订购更多的货物;3.在制造厂中将零部件组装为成品时对零部件进行跟踪;4.记录雇员数据。
通常在数据库系统中,事务是工作的离散单位。
例如,一个数据库事务可以是修改一个用户的帐户平衡或库存项的写操作。
联机分析处理
联机分析处理(英语:On-Line Analytical Processing,简称OLAP),是一套以多维度方式分析数据,而能弹性地提供积存(英语:Roll-up)、下钻(英语:Drill-down)、和透视分析(英语:pivot)等操作,呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库。
其主要的功能,在于方便大规模数据分析及统计计算,对决策提供参考和支持。
与之相区别的是联机交易处理(OLTP)。
∙OLAP需以大量历史数据为基础配合上时间点的差异并对多维度及汇整型的信息进行复杂的分析。
∙OLAP需要用户有主观的信息需求定义,因此系统效率较佳。
OLAP的概念,在实际应用中用广义和狭义两种不同的理解。
广义上的理解与字面意思相同,即针对于OLTP而言,泛指一切不对数据进行输入等事务性处理,而基于已有数据进行分析的方法。
但更多的情况下OLAP是被理解为其狭义上的含义,即与多维分析相关,基于立方体(CUBE)计算而进行的分析。
第十三章 商务智能
这些产品?
时间序列预测
聚类分析
分类(如决策树) 是,否
商务智能可以做什么?
顾客分析
提供头10%利润的顾客有什么特点? 购买产品或服务三个月后顾客的流失率是多少? 过去六个月里比平均消费额高两个百分点的都是
1.1 商务智能是什么?
Data
Information
Knowledge
“电子技术到来以后,人延伸出(或者说在体外 建立了)一个活生生的中枢神经系统。”
——麦克卢汉,《理解媒介》
一个平常饮料店的故事
1993年前,店里卖的饮料只有啤酒、可口可乐和北冰洋汽水 进货出货老板在一个旧本子上记录
一个平常饮料店的故事
1.5 商务智能的主要应用行业
制造业:可以在销售/营销方面采取更主动的行动以吸引客户,预测需 求,及时订货和补货,实时了解供应商和代理商的情况,优化调度、配 送和运输过程,实现低库存水平。
经贸业:有效获取、使用信息,提高效力。
保险业:根据投保品种、投保人等历史数据,合理设定储备金数额、 保险金标准,进行风险分析和损益判断,提供个性化保险服务
13.提升各方面商务绩效-这是商务智能在企业内部的最高目的 和作用,有效的商务智能系统和技术能够帮助企业提升各个方 面的绩效:财务的和非财务的,前台的和后台的,企业内的和 供应链内的,组织的和个人的
14.增强综合竞争力的——这是商务智能在企业中的最高目的和 作用。
1.2 商务智能的结构
Act Experience
数据迷雾铺天盖地
美国MCI是跨国的电信公司,长途电话客户2亿,电脑里数据存 了5TB,每月还增加300GB。
联机分析处理系统OLAP概述
OLAP概述 OLAP分析,又称多维分析,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP也可以简单定义成使用户能够以多维视图分析数据的工具。
通常用来进行多维分析的维有时间、地点、产品、度量值(如销售额)等。
例如,在销售经理查看销售数据时,他可能想了解某个产品在某个地区、某段时间的销售额,并通过交叉表的功能来按不同的维对销售数据进行分析和通过挖掘功能来了解深层次的信息。
图3-20:数据的多维形式通过三维方式展现数据,并在此基础上进行分析,能够揭示出在二维方式下隐藏的关系;并通过方便的数据导航功能,使用户更易比较数据变量之间的关系,从而可以发现数据中隐藏的信息。
关系型数据库往往不能支持对数据进行逻辑分析和统计分析。
而采用OLAP系统,用户无须编程就可以定义新的逻辑、统计等方面的计算,并可将其做为分析的一部分,并以用户理想的方式给出报告。
用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、数据挖掘工具等。
OLAP产品根据其实现多维分析的技术以及要实现的目标而分为三类: (1)、MOLAP(多维联机分析处理)。
MOLAP将事务型数据进行综合,通过多维结构的“立方体”的数据结构来储存经综合的数据。
MOLAP通过其层次型数据库及在内存内的索引来保障数据访问的性能。
用户可以利用数据导航工具来进行钻取、交叉查询及产生关于“立方体”的报告。
根据MOLAP的技术特点,MOLAP擅长于对一定数量的数据进行大量、复杂、快速的、反复的分析。
MOLAP通常用来进行假设分析和问题求解,如在预算应用中。
图3-21:MOLAP架构图(2)、ROLAP(关系型联机分析处理)。
ROLAP在分析数据是直接到关系型数据库中取数据,而不建立自己的“立方体”。
OLAP分析
14
多维数据分析视图
对于更多维度的数据显示,需要选择维度及其成员分布在行或者列中。 在页面上可选定多个维度,但每个维度只能显示一个成员。在行或者列 中一般只选择二个维,每个维可以多个成员。例如对6维度数据,其 MTS如下图所示。 六维MTS例
鞋
鞋 鞋 鞋 …
上海
广州 广州 广州 …
3月
1月 2月 3月 …
400
150 250 300 …
11
多维类型结构(MTS)
表示方法是:每一个维度用一条线段来表示。维度中的每 一个成员都用线段上的一个单位区间来表示。
例如,用三个线段分别表示时间、产品和指标三个维的多维类型结构 如图所示。
三维MTS例
06 年 60 230 210
05 年 80 110 210
06 年 50 250 280
05 年 100 270 310
06 年 50 330 270
05 年 50 200 320
06 年 40 220
维的层次关系图
全国
江苏
北京
上海
苏州市
扬州市
宝应县
6
OLAP 概念
维的层次与类组合图
产品维
产品产地类
产品销地类
产品用途类
产品大类
产品小类
7
OLAP 数据显示与分析
8
多维数据显示
多维数据显示方法 多维类型结构(MTS) 多维数据分析视图
GIS空间分析试题范围及参考答案
(1)地理空间数据立方体?地理空间数据立方体(Geospatial Data Cube)是一个面向对象的、集成的、以时间为变量的、持续采集空间与非空间数据的多维数据集合,组织和汇总成一个由一组维度和度量值定义的多维结构,用以支持地理空间数据挖掘技术和决策支持过程。
地理空间数据立方体绝非仅在数据库上加一层空间外衣,而是真正地以空间数据库为基础,进行复杂的空间分析,反映不同时空尺度下的动态变化趋势,为决策者提供及时、准确的信息。
地理空间数据立方体中的数据是经过选择、整理、集成等处理的,为空间数据挖掘提供了良好的数据基础,因而在地理空间数据立方体中进行数据挖掘比在原始数据库中更加有效。
(2)联机分析处理技术?联机分析处理(OLAP)是共享多维信息的、针对特定问题的联机数据访问和分析的软件技术,具有汇总、合并、聚集以及从不同角度观察消息的能力。
它可以跨越空间数据库模式的多个版本,处理来自不同组织的信息和由多个数据存储集成的信息。
联机分析处理对空间数据立方体进行的多维数据分析主要有切块、切片、旋转、钻取等分析动作,目的是进行跨维、跨层次的计算与建模。
(3)地理空间数据挖掘典型方法?1、地理空间统计方法2、地理空间聚类方法3、地理空间关联分析4、地理空间分类与预测分析5、异常值分析[地理空间数据挖掘系统包括三大支柱模块:地理空间数据立方体、联机分析处理(OLAP)模块和空间数据挖掘模块。
](4)空间分析的研究对象?空间分析的研究对象:空间分析主要通过对空间数据和空间模型的联合分析来挖掘空间目标的潜在信息。
空间目标是空间分析的具体研究对象。
空间目标具有空间位置、分布、形态、空间关系(距离、方位、拓扑、相关场)等基本特征。
空间关系是指地理实体之间存在的与空间特性有关的关系,是刻画数据组织、查询、分析和推理的基础。
不同类型的空间目标具有不同的形态结构描述,对形态结构的分析称为形态分析。
(5)空间分析的研究目标?空间分析研究的主要目标有:✓认知。
商务智能系统
➢从技术角度看,商务智能是以企业中的数据仓库为 基础,经由联机分析处理工具、数据挖掘工具加上 决策人员的专业知识,从根本上帮助公司把运营数 据转化成为高价值的可以获取的信息(或者知识), 并且在恰当的时候通过恰当的方式把恰当的信息传 递给恰当的人的过程。
➢从数据分析的角度看,商务智能是为了解决商业活 动中遇到的各种问题,利用各种信息系统进行的高 质量和有价值的信息收集、分析、处理过程,其基 本功能包括个性化的信息分析、预测和辅助决策。
从商务智能系统的循环流程中可以看出,数据仓库、 OLAP (On-Line Analytical Processing:联机分析处理)和数 据挖掘(Data Mining)是其主要的技术支柱:
➢数据仓库是处理海量数据的基础,存储按照商务智能要求 重新组织的来自业务系统的数据;
➢联机分析处理不仅进行数据汇总/聚集,同时还提供切片、 切块、下钻、上钻和旋转等数据分析功能,用户可以方便 地对海量数据进行多维分析;
1 外部数据源通过运行环境(ERP、CRM、SCM等)流 入BI循环(包含有关客户、供应商、竞争对手、产 品以及企业本身的信息);
2 进入数据仓库/数据集市等数据存储部分——对加 入数据仓库的数据进行净化和转换,纠正错误的数 据和统一格式,使其满足数据仓库应当具有的数据 格式和质量标准;将其存储在中央存储库中(充当 中央存储库的可以是关系型数据库或者多维数据 库),数据的抽取、净化、转换和存储是BI循环的 核心组成部分;
数据仓库与数据挖掘教程(第2版)陈文伟版课后答案
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
什么是联机分析处理(OLAP)
OS Java CORBA COM+ Middleware XML&WebService Patterns ONE&NET P2P Development Database Download Doc什么是联机分析处理(OLAP )(转载自北大高科网站,/)联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd 于1993年提出的,他同时提出了关于OLAP 的12条准则。
OLAP 的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP (on-line transaction processing )、联机分析处理OLAP (On-Line Analytical Processing )。
OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP 与OLAP 之间的比较。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through 等。
数据挖掘中的名词解释
第一章1,数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
2,人工智能(Artific ial Intelli gence)它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
3,机器学习(Machine Learnin g)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
4,知识工程(Knowled ge Enginee ring)是人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段。
5,信息检索(Informa tion Retriev al)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
6,数据可视化(Data Visuali zation)是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
7,联机事务处理系统(OLTP)实时地采集处理与事务相连的数据以及共享数据库和其它文件的地位的变化。
在联机事务处理中,事务是被立即执行的,这与批处理相反,一批事务被存储一段时间,然后再被执行。
8, 联机分析处理(OLAP)使分析人员,管理人员或执行人员能够从多角度对信息进行快速一致,交互地存取,从而获得对数据的更深入了解的一类软件技术。
8,决策支持系统(decisio n support)是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
数据仓库与数据挖掘教程(第2版)陈文伟版课后习题答案(非常全)
第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
MIS管理信息系统各章节简答题
第一章:组织、管理和网络化企业一、为什么信息系统对企业运营管理非常重要?(P10)1.答:企业持续寻求改进其运行效率以求达到高获利,信息系统和技术有助于企业提高效率和生产效率,配合企业过程和管理行为的改变.2.信息系统和技术是公司创造新产品和新服务甚至整个新企业模式的重要驱动器.3.利用信息系统和信息技术可以更好的服务顾客,拉近与顾客的距离,增加收入和利润,更好的与供应商来沟通以便降低成本。
4.信息系统有助于企业获得更准确的数据,以便做出更好的决策。
5.信息系统有助于企业形成自己的竞争优势.6.企业也投资于运营企业所必需的信息系统和技术。
二、什么是信息系统?信息系统的三个基本活动是什么?三个维度是什么?(注:学会用三个维度来分析案例)(P12)1.含义:信息系统技术上可以定义为相互连接的部件的集合,它可以进行信息收集、处理、储存和分发,以支持一个组织的决策和控制。
信息系统包括组织内或围绕它的环境的主要人员、地点和事情的信息。
2.三个基本活动:在一个信息系统中,生产信息主要有三个主要活动,这些活动是输入、处理和输出。
输入是在组织内部或其外部环境中捕捉或收集原始数据.处理是把这些数据转换成较有意义的形式。
输出是将处理后的信息转交给使用它的人或其他活动。
3.三个维度:组织维、管理维、技术维。
组织维:组织是由不同的层次和专业任务组成的结构。
管理维:管理工作在于对企业所面临的许多情况进行感知,作出决策,列出解决企业问题的正式计划。
技术维:计算机硬件是在信息系统汇总进行输入、处理和输出的物理设备。
计算机软件由详细的预编指令组成,用它来再一个信息系统中协调和控制计算机硬件.数据管理技术包括管理物理存储介质上数据的软件。
网络和通信技术由物理设备和软件组成,连接各种软件硬件,由一个地点到另一个地点传送数据。
三、辅助资产是什么?(P1801.辅助资产是由初始投资中引导出价值所需的资产。
主要的辅助资产有组织资产、管理资产和社会资产。
简述olap的基本操作
简述olap的基本操作OLAP(联机分析处理)是一种数据处理技术,它允许用户通过非常具有交互性的界面查询或分析数据,而无需编写复杂的SQL语句或程序。
因此,OLAP系统已成为商业智能的核心组成部分。
OLAP的基本操作通常包括以下几个方面:1. 切片(slice):即选定一个二维表,然后选取其中一行、一列或一个单元格,从而得到一个更小的子表。
切片操作可以帮助用户在数据集中快速找到特定行、列或单元格,从而更好地理解数据。
2. 切块(dice):即选定一个多维数据集,然后根据用户的选择,从中选择一个或多个维度和相应的切片,得到一个新的多维子集。
切块操作可以帮助用户更好地理解数据的关联关系。
3. 旋转(pivot):即将多维数据集的某些维度交换,以便更好地观察不同维度之间的关系。
例如,在一个销售数据库中,用户可以将销售日期作为列,将不同地区作为行,以便更好地分析不同地区的销售情况。
4. 过滤(filter):即根据用户的要求,从数据集中筛选特定的数据子集,该子集符合特定的条件或条件。
例如,在一个销售数据库中,可以根据特定的地区、时间范围或产品类型过滤数据,以便更好地分析数据。
5. 聚合(aggregate):即使用各种函数(如求和、平均值或计数)将多个数据点或值合并为一个值或汇总数据,以便更好地分析更大的数据集。
例如,在一个销售数据库中,可以根据某个地区、某个产品或某个时间段聚合数据,以便更好地理解数据。
总之,OLAP是一种非常强大的数据处理技术,它允许用户通过简单易用的界面快速地查询、分析和理解数据。
通过使用OLAP的基本操作,用户可以更好地了解数据,并在商务决策中做出更明智的选择。
OLAP的三大实现技术
多维联机分析处理(MOLAP)
但是,如果数据相当稀疏,虚拟的多维立方体中很多数值为空时, MOLAP的数据文件需要对相关的位臵留空,而ROLAP的事实表却不会存 储这些纪录。为了有效地解决这种情况,MOLAP采用了稀疏维和密集维 相结合的处理方式。
多维联机分析处理(MOLAP)
在实际应用中,不可能所有分析的维度都是密集的,也绝少存在所 有分析的维度都是稀疏的,因此稀疏维和密集维并用的模式几乎主导了 所有的MOLAP应用。而稀疏维和密集维的定义全部集中在概要文件中, 因此,只要预先定义好概要文件,所有的数据分布就自动确定了。 在这种模式中,密集维的组合组成了的数据块(Data Block),每个数 据块是I/O读写的基础单位(如上图),所有的数据块组成了数据文件。稀 疏维的组合组成了索引文件,索引文件的每一个数据纪录的末尾都带有 一个指针,指向要读写的数据块。因此,进行数据查询时,系统先搜索 索引文件纪录,然后直接调用指针指向的数据块进行I/O读写(如果该数 据块尚未驻留内存),将相应数据块调入内存后,根据密集维的数据放臵 顺序直接计算出要查询的数据距离数据块头的偏移量,直接提取数据下 传到客户端。因此,MOLAP 方式基本上是索引搜索与直接寻址的查询 方式相结合,比起ROLAP的表/索引搜索和表连接方式,速度要快得多。
雪花模型14关系型联机分析处理rolap用关系模式表达多维概念的示例图星型模式销售事物表产品代码邮政编码销售商代码财政周序号销售数量销售成本总销售额财政周序号产品代码产品维表时间维表销售渠道维表地理维表15关系型联机分析处理rolap用关系模式表达多维概念的示例图雪花模式销售事物表产品代码邮政编码销售商代码财政周序号销售数量销售成本总销售额财政周序号产品代码商标代码公司代码产品类代码产品小类代码产品代码当前时间财政周序号财政年度序号销售店代码零售商代码城市名称国家地区邮政编码商标代码商标名称产品代码产品名称产品小类代码产品小类名称公司代码公司名称零售商代码零售商名称销售店代码零售店名称财政周序号财政周名称财政年度序号财政年度名称产品类代码产品类名称商标表产品表产品类表产品小类表公司表产品维表地理维表销售渠道维表零售商表销售商店表时间维表财政年度表财政周表16关系型联机分析处理rolap注
OLAP 技 术 介 绍
OLAP 技术介绍刘可2004-08-20OLAP (on-line analytical processing) 联机分析处理,这一概念是由关系型数据库之父E.F.Codd于1993年提出的。
20世纪60年代末Codd提出关系型数据模型以后,关系型数据库与OLTP(on-line transaction processing)得到了快速的发展。
随着关系型数据库的快速发展,全球的数据量急剧膨胀,越来越多的数据被生产出来,同时人们对信息的需求也在快速的提升;而信息来源的最主要途径便是已掌握的海量数据,于是管理人员对数据的查询需求变得越来越复杂,他们贪婪的希望能够快速的尽可能多的从GB、TB甚至PB级数据中直观的了解到隐藏在这些数据背后的信息。
通俗的OLTP技术越来越力显得不从心。
于是数据仓库体系结构与OLAP技术应运而生。
数据仓库体系结构不是我在这里说的重点,这里我旨在从OLAP技术的特性(总体把握),OLAP技术的常用操作(前台分析操作),OLAP技术中数据存储方式(后台数据存储)三个角度全面介绍介绍OLAP技术。
一、O LAP技术的特性OLAP技术不同于OLTP技术,有非常多的特性,概括起来主要有如下几点特性:OLAP 技术是面向分析人员、管理人员的;OLAP技术对数据访问通常是只读的,并且一次访问大量数据;OLAP技术是面向主题的多维数据分析技术。
OLAP技术是面向分析人员、管理人员的区别于OLTP面向操作人员,OLAP技术主要面向分析人员、管理人员,他是提供分析人员、管理人员快速直观访问数据的一种途径。
使分析人员、管理人员能直观的从海量数据中获得有用信息以提供决策依据。
OLAP技术对数据访问通常是只读的,并且一次访问大量数据。
OLAP技术主要是针对海量数据的查询,通常不对数据做修改。
这种数据访问有别于OLTP中不断的对数据进行增删改操作。
同时这种查询不是简单的记录属性的检索,而是为了从海量数据中获取有用信息的针对大量数据的查询,通常一次需要查询会涉及到上百万条以上数据。
联机分析处理
联机分析处理简介联机分析处理,英文名称为On-Line Analysis Processing,简写为OLAP。
随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
操作型应用和分析型应用,特别是在性能上难以两全,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑是分散而杂乱的、非系统化的,因此分析功能有限,不灵活,维护困难。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,他们通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
1993年,E.F.Codd(关系数据库之父)将这类技术定义为“联机分析处理”。
作用联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。
BI基础资料-OLAP
联机分析处理 (OLAP)百科名片联机分析处理简写为OLAP,随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
目录[隐藏]作用起源分类[编辑本段]作用联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。
它并不将异常信息标记出来,是一种知识证实的方法。
[编辑本段]起源联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。
OLAP的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
Codd提出OLAP的12条准则来描述OLAP系统:准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力推测准则4 稳定的报表能力准则5客户/服务器体系结构准则6维的等同性准则准则7 动态的稀疏矩阵处理准则准则8 多用户支持能力准则准则9 非受限的跨维操作准则10 直观的数据操纵准则11灵活的报表生成准则12 不受限的维与聚集层次[编辑本段]分类当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-linetransaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLAP(在线分析处理)技术技术白皮书
OLAP(在线分析处理)技术一、发展背景60年代,关系数据库之父E.F.Cdd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。
1993年,E.F.Cdd提出了OLAP(联机分析处理)概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。
用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。
因此,E.F.Cdd提出了多维数据库和多维分析的概念,即OLAP技术概念。
OLTP与OLAP的不同点:二、关于OLAP◆定义OLAP(联机分析处理) :是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术——OLAP委员会的定义(请特别注意,这是一类技术,而非特指某软件、或管理方法)。
OLAP的目标:是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
◆OLAP相关基本概念:1、维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
2、维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。
3、维的成员:维的一个取值。
是数据项在某维中位置的描述。
(“某年某月某日”是在时间维上位置的描述)4、多维数组:维和变量的组合表示。
一个多维数组可以表示为:(维1,维2,…,维n,变量)。
(时间,地区,产品,销售额)5、数据单元(单元格):多维数组的取值。
(2000年1月,上海,笔记本电脑,$100000)◆OLAP的特性1、快速性:用户对OLAP的快速反应能力有很高的要求,主要是指计算机的计算的反应速度,系统应能在5秒内对用户的大部分分析要求做出反应,但对业务数据的实时信息却很难反应。
联机分析技术
1.特点:OLAP 在以数据仓库为数据源时,它有两个特点:在线性( On Line ):由客户机/服务器这种体系结构来完成的;多维分析:这也是OLAP 的核心所在。
2 作用:. 联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP 专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
3. OLAP的基本多维分析操作有钻取(Drill-up和Drill-down八切片(Slice )和切块( Dice )、以及旋转( Pivot )等。
钻取:是改变维的层次,变换分析的粒度。
它包括向下钻取 ( Drill-down ) 和向上钻取(Drill-up ) /上卷(Roll-up) 。
Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down 则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。
如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。
旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
4. 五、联机分析处理的实现方式同样是仿照用户的多角度思考模式,联机分析处理有三种不同的实现方法:•关系型联机分析处理(ROLAP,Relatio nal OLAP)•多维联机分析处理(MOLAP,Multi-Dime nsio nal OLAP) •前端展示联机分析处理(Desktop OLAP)其中,前端展示联机分析需要将所有数据下载到客户机上,然后在客户机上进行数据结构/报表格式重组,使用户能在本机实现动态分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
销售员维
日期 顾客代码 制造商代码 销售员代码 产品代码 销售额
产品代码 产品维表
制 造 商 代 码
制造商维表
图13.3 星型模式示例
13.2 多维数据模型
13.2.1 基本概念
雪片模式就是对维表按层次进一步细化 后形成的。如图13.4,在 “星型” 维表的 角上又出现了分支,这样变形的星型模式 被称为“雪片模式”(Snow Flake Schema)。
13.2 多维数据模型
13.2.1 基本概念
星型模式通常由一个中心表(事实表)和一组 维表组成。
顾客维 时间维 销售事实表 销售员维 产品维 制造商维
图13.2星型模式
13.2 多维数据模型
13.2.1 基本概念
星型模式的 事实表与所有的 维表相连,而每 一个维表只与事 实表相连。维表 与事实表的连接 是通过码来体现 的,如图13.3所 示。
13.3 OLAP的实现
13.3.1 MOLAP结构
多维存取
DB MOLAP 服务器
用 户
DW
多维视图 多维数据库
图13.8 MOLAP结构的系统环境
13.3 OLAP的实现
13.3.1 MOLAP结构
MOLAP如何以多维立方体Cube来组织数据的 呢?前面我们已经讲解了多维立方体Cube的数据 单元可以表示为:(维1维成员,维2维成员 ,··, · 维n维成员,度量值)。多维数组只存储Cube的 度量值,维值由数组的下标隐式给出。关系表则 维值和度量值都存储。
13.Байду номын сангаас 多维数据模型
13.2.1 基本概念
多维立方体(Cube) 多维数据模型的数据结构可以用这样来一个多 维数组来表示:(维1,维2,·· ·,维n,度量值),例 如:图13.1所示的电器商品销售数据是按时间、 地区、商品,加上变量“销售额”组成的一个三 维数组:(地区,时间,商品,销售额)。三维数 组可以用一个立方体来直观的表示。一般地多维 数组用多维立方体CUBE来表示。多维立方体 CUBE也称为超立方体。
13.2.2 多维分析的基本操作
向上综合(Roll-up): Roll-up也称为上钻操作。提供Cube上的聚集 操作。包括两种形式,一种是在某个维的某一层 次上由低到高的聚集操作,例如在时间维上由日 聚集到月,由月聚集到年;另一种是通过减少维 的个数进行聚集操作,例如两维Cube中包含有时 间维和地区维,如果我们把地区维去掉,则得到 一个按时间维对所有地区进行聚集操作。
13.2 多维数据模型
13.2.2 多维分析的基本操作
向下钻取(Drill-down): Drill-down 也称为下钻操作。Drill-down是 Roll-up的逆操作。它同样包括两种形式,在某个 维的某一层次上由高到低的钻取操作,找到更详 细的数据。或者通过增加新的维来获取更加细节 的数据。
13.2 多维数据模型
13.2.1 基本概念
维成员(Member) 维的一个取值称为该维的一个维成员,也称作 维值。如果一个维的某种层次具有多个层,那么 该维的维成员是不同维层的取值的组合。假设时 间维的层次是年、月、日这三个层,分别在年、 月、日上各取一个值组合起来,就得到了时间维 的一个维成员,即“某日某月某年”。一个维成 员并不一定在每个维层上都要取值,例如,“某 年某月”、“ 某月某日”、“某年”等都是时间 维的维成员。
13.2 多维数据模型
13.2.2 多维分析的基本操作
销售额 (万元) 第1季度 北京 78 1996 第2季度 45 第3季度 34 第4季度 56
上海
90
67
87
91
Roll Up
销售额 (万元)
Drill Down
1996
1月
北京 上海 30 28
2月
26 30
3月
22 32
图13.7 Drill-down和Roll-up操作
13.3 OLAP的实现
13.3.2 ROLAP结构
同MOLAP相比,关系数据库表达多维立方体 不大自然,由于关系数据库的技术较为成熟, ROLAP在数据的存储容量、适应性上占有优势。 当维数增加、减少时只需增加、删除相应的关系, 修改事实表的模式,较容易适应多维立方体的变 化。因此,ROLAP的可扩展性好。
13.2 多维数据模型
13.2.1 基本概念
商品
地区
北京 销售额(万 元) 电冰箱 洗衣机
电视机
1 2 3 4
时间
图13.1按商品、时间和地区组织的电器商品销售数据
13.2 多维数据模型
13.2.1 基本概念
数据单元(Cell) 多维立方体CUBE的取值称为数据单元。当多 维立方体的各个维都选中一个维成员,这些维成 员的组合就唯一确定了一个变量的值。 对于三维以上的超立方体,很难用可视化的 方式直观地表示出来。为此人们用较形象的星型 模式”(Star Schema)和“雪片模式”(Snow Flake Schema)来描述多维数据模型。
第13章 联机分析处理(OLAP) 技术
13.1 什么是OLAP 13.2 多维数据模型 13.3 OLAP的实现 13.4 小结
13.1 什么是OLAP
OLAP(On_Line Analytical Processing)即 联机分析处理,是以海量数据为基础的复杂分析 技术。 OLAP概念是由 E.F.Codd于1993年提出的。 OLAP软件提供的是多维分析和辅助决策功能。 对于深层次的分析和发现数据中隐含的规律和知 识,则需要数据挖掘(Data Mining)技术和相应 的数据挖掘软件来完成。
13.3 OLAP的实现
13.3.1 MOLAP结构
2. 在数据稀疏的情况下,即Cube的许多数据 单元(维1维成员,维2维成员 ,·· ·,维n维成员, 度量值)上无度量值,多维数组由于大量无效值 的存在,存储效率会下降。
13.3 OLAP的实现
13.3.2 ROLAP结构
ROLAP将多维立方体结构划分为两类表,一 类是事实(Fact)表,另一类是维表。事实表用来描 述和存储多维立方体的度量值及各个维的码值; 维表用来描述维信息,包括维的层次及成员类别 等。ROLAP用关系数据库的二维表来表示事实表 和维表。也就是说ROLAP用“星型模式”和“雪 片模式”来表示多维数据模型。
13.4 小结
我们主要应把握以下几点: 1. 掌握维、层、层次、成员、度量和立方 体等主要的概念,了解多维数据模型的一 些比较深入的问题,如,属性、可汇总性、 维层次的种类等。 2. 掌握联机分析的主要操作。 3. 了解主流的联机分析软件结构,领会在 不同的实现结构中是如何实现多维数据模 型的各个要素。
13.2 多维数据模型
13.2.1 基本概念
变量(Measure) 变量也称度量,是数据的实际意义,即描述数 据“是什么”。例如:数据“10000”本身并没有 意义或者说意义未定,它可能是一个学校的学生 人数,也可能是某产品的单价,还可能是某商品 的销售量等。一般情况下,变量是一个数值的度 量指标,例如:“人数”、“单价”、“销售量” 等都是变量或称为度量,而“10000万元”则是 变量的一个值,销售量10000万元常称为度量值。
电视机 600 550 200 …… …… …… ……
图13.5(b) 切片
13.2 多维数据模型
13.2.2 多维分析的基本操作
旋转(Pivot): 改变一个超立方体Cube的维方向的操作称为 旋转。旋转用于改变对Cube的视角,即用户可以 从不同的角度来观察Cube。如图13.6(a),是把一 个横向为时间,纵向为产品的二维表旋转为横向 为产品和纵向为时间的二维视图。假如对图13.1 的Cube把商品维、时间维、地区维执行旋转操作 就得到对13.6(b)。
13.2 多维数据模型
13.2.2 多维分析的基本操作
产 品 维 行列交换
时 间 维
时间维
产品维
图13.6 旋转操作示例(a)
13.2 多维数据模型
13.2.2 多维分析的基本操作
电器商品种类 地区维 电器商品种类
时间维 旋转以改变视角
时间维
地区维
图13.6 旋转操作示例(b)
13.2 多维数据模型
13.3 OLAP的实现
13.3.1 MOLAP结构
首先,和关系表相比,多维数据库组只存储 Cube的度量值。例如图13.1中只存储销售量的值 (在表的之间),不存储地区维和商品维的维成 员值。多维数组的存储效率高;其次,多维数组 可以通过数组的下标直接寻址,和关系表(通过 表中列的内容寻址,常常需要索引或全表扫描) 相比,它的访问速度快。更重要的是,多维数组 有着高速的综合速度,因此可以较好地支持向上 综合、向下钻取等多维分析操作。
13.3 OLAP的实现
13.3.1 MOLAP结构
多维数组存储方式存在如下不足: 1. 多维数组的物理存放方式通常是按照某个 预定的维序线性存放的,不同维的访问效率差别 很大。以图13-9(b)二维数组为例,如果按行存 放的话,则访问某电器产品的销售额时,效率很 高,因为一次I/O读取的页面包含了多个行值;但 访问某地区的销售额时,效率就会降低。
13.2 多维数据模型
13.2.1 基本概念
维(Dimension) 维是人们观察数据的特定角度。例如,企业常 常关心产品销售量随时间的变化情况, 这时他是从 时间的角度来观察产品的销售, 所以时间就是一个 维(时间维)。企业也时常关心自己的产品在不 同的地区的销售分布情况,这时他是从地区分布 的角度来观察产品的销售,所以地区也是一个维 (地区维)。 “维”是OLAP中十分重要的概念。
13.2 多维数据模型
13.2.1 基本概念
维的层次(Hierarchy) 人们观察数据的某个特定角度(即某个维)还 可能存在细节程度不同的多个描述方面,我们称 这多个描述方面为维的层次。例如:描述时间维 时,可以从年、季、月、日等不同层次来描述, 那么年、季、月、日等就是时间维的一种层次; 同样,县、市、省、大区、国家等构成了地区维 的一种层次。