第4章 联机分析处理概述及模型
联机分析处理
联机分析处理简介联机分析处理,英文名称为On-Line Analysis Processing,简写为OLAP。
随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
操作型应用和分析型应用,特别是在性能上难以两全,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑是分散而杂乱的、非系统化的,因此分析功能有限,不灵活,维护困难。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,他们通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
1993年,E.F.Codd(关系数据库之父)将这类技术定义为“联机分析处理”。
作用联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。
第4章-OLAP-在线联机分析
OLTP与OLAP对比表
OLTP OLAP
数据库原始操作
细节性数据 当前数据 经常性更新数据 一次性处理的数据量少 对响应时间要求高 用户量大
数据库导出数据或数据仓库数据
综合性数据 历史性数据 不可更新,但可周期性刷新数据 一次性处理的数据量多 响应时间合理 用户量少
面向操作人员、支持日常操作
面向应用、实物驱动
– (‘2000年’, ‘家电’, ‘南京市’, ‘1亿’) – (‘2000年7月’,‘女性服装’,‘江苏省’, ‘10亿’)
数据单元(单元格)
多维数组的取值称为数据单元。 当多维数组的各个维都选中一个维成员,
这些维成员的组合就唯一确定了一个观 察对象的值,即(维成员1,维成员 2,……,维成员n,对象值)。
面向决策人员、支持管理需要
面向分析、分析驱动
OLAP特性
快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5
秒内对用户的大部分分析要求做出反应。客户/服务器体系结构 -两层或三层C/S结构。
可分析性 :OLAP 系统应能处理与应用有关的任何逻辑分析和统计
分析。
多维性 :多维性是 OLAP 的关键属性。系统必须提供对数据的多维
问、处理和分析,通过直观的方式从多个维度、 多种数据综合程度将系统的运营情况展现给使 用者。
OLTP与OLAP
随着数据库系统广泛应用,数据库系统记录和
处理的数据越来越多,及时地记录和处理企业 的各种业务数据,这些系统成为联机事务处理 (OLTP)系统。数据库技术的广泛应用和技术的 发展,人们已经不再满足于仅仅用数据库系统 来记录企业的业务活动数据和对数据的简单处 理,人们需要对企业业务活动的数据进行各种 分析,以便发现企业业务趋势,这些系统称为 联机分析处理(OLAP)系统。
联机事务处理与联机分析处理
数据库管理系统
与用户,应用程序和数据库本身进行交 互,以对数据进行定义、增、删、改、 查和控制等操作的软件。
3
数据库类型
目前主流数据库类型有关系型数据 库和非关系型数据库。
第六章 离婚制度
二、离婚制度的历史沿革
(一)外国离婚制度的历史沿革
1.禁止离婚主义
2.许可离婚主义
(1)专权离婚主义 (2)限制离婚主义 (3)自由离婚主义
(二)协议离婚是较为简便的离婚方式,这种离婚方式成 本低,充分尊重当事人的意愿。
二、协议离婚的条件
《民法典》第五编婚姻家 庭第1076条规定了协议离 婚的条件。“夫妻双方自 愿离婚的,应当签订书面 离婚协议,并亲自到婚姻 登记机关申请离婚登记。 离婚协议应当载明双方自 愿离婚的意思表示和对子 女抚养、财产以及债务处 理等事项协商一致的意 见。”
2.1 联机事务处理-OLTP
数据库与联机事务处理 关系数据库简介 关系数据库的设计范式 联机事务处理的主要操作 事务的特性
2.1.1 数据库与联机事务处理
数据库
商业智能技术的重
要基础、有组织的
数据结合、存储的
2
数据可供多用户和
程序共享。
1
4
联机事务处理
基于数据库的数据处理过程,前端将接收到的 用户数据传递到后台进行处理,系统在短时间 内对用户的进行反应并显示处理结果。
三、协议离婚的程序
我国内地协议离婚需要按照行政程序进行,夫妻双方需要办理 离婚登记手续。协议离婚应当符合以下程序:
三十日内,任何一方不愿意离婚的,可以向婚姻登 记机关撤回离婚登记申请
“离婚冷静期”(自婚姻
申
登记机关收到离婚登记
请
申请之日起三十日内)
数据仓库与数据挖掘教程(第2版)陈文伟版课后答案
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
第4章联机分析处理(OLAP)new精品PPT课件
– 不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获 得指导性的信息,并且管理大容量信息。
2 OLAP多维数据结构
2.1 两种OLAP多维数据结构
• 超立方结构(Hypercube)
– 超立方结构指用三维或更多的维数来描述一个对象,每个维 彼此垂直。数据的测量值发生在维的交叉点上,数据空间的 各个部分都有相同的维属性。
– 以多维数据组织方式为核心,也就是说, MOLAP使用多维 数组存储数据。
– 多维数据在存储中将形成“立方块(Cube)”的结构, 在 MOLAP 中 对 “ 立 方 块 ” 的 “ 旋 转 ” 、 “ 切 块 ” 、 “切片”是产生多维数据报表的主要技术。
4 OLAP分类 4.3 MOLAP
4 OLAP分类 4.3 MOLAP
(维度1,维度2,…,维成员Vi,…,维度n,度量) 为多维数组在维度i上的切片(Vi表示维度i的维成员)
– 定义1中,一次切片一定使原来维数减1,因此所得切片结果并不 一定是二维的“平面”,切片结果维数取决于原来的多维数组的 维数。这个定义不够通俗,还有另外一个定义
– 定义2:选定多维数组中两个维:维i和维j,在这两个维上取一区 间或者任意的维成员,而将其他维都分别取定一个维成员的动作, 称为多维数组在维i和维j上的一个切片。
员类别等维的描述信息。 • 维表和事实表通过主关键字和外关键字联系在一起,形成了“星
型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储 空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模 式”。 • 星座模型和雪暴模型:有多个事实表的星型模型和雪花模型
4 OLAP分类 4.2 ROLAP
1 OLAP定义和特性
数据仓库系列-联机分析处理 第四讲
LOGO
• 另一方面,能够随时监控数据仓库有许多方面的 原因,包括:
• A.决定是否对数据进行重组。 • B.决定索引结构的有效性。 • C.决定数据仓库中的数据是否溢出。 • D.决定数据的统计组成。 • E.决定剩余可用空间。
LOGO
• 如果某项技术不能高效和方便地监视数据,则这种技 • 术不适用于元数据管理。
3.企业级数据集市结构
LOGO
• 尽管自底向上结构也存在许多缺点,但它基于数据集市 构建数据仓库的由小到大,由部分到整体的思想给后来者 很大的启发。
LOGO
2.1.3 数据仓库的技术要求
• 1.数据管理技术
• (1)大批量数据管理
• 在数据仓库的所有技术中最重要的是管理大批 量数据技术。如果不能管理大批量数据,那么 数据仓库的创建与使用是不可能的。管理大批 量数据包括管理大批量数据能力和管理好大批 量数据的能力,即管理大批量数据技术要求管 理能力的满足和管理的高效率两方面要求。
据仓库的复杂查询、决策分析和知识的挖掘等功能。
•
LOGO
• (2)数据仓库的管理层包含数据管理与元数据管 理两部分。数据管理与元数据管理主要负责对数 据仓库中的数据抽取、清理、加载、更新与刷新 等操作进行管理。
LOGO
• (3)数据仓库环境支持层主要包含数据传输和数 据仓库基础两大部分。这两大部分对于数据仓库 的创建和使用来说是必不可少的,没有这两个数 据仓库的支持环境,数据仓库的创建与使用是无 法实现的。
LOGO
2. 数据存储技术
• 数据的存储技术包含多介质存储设备的管理 技术,数据存储的控制技术,数据的并行存储 与管理技术,可变长技术和锁切换技术等。
LOGO
3. 数据仓库接口技术
管理学第三章数据仓库-联机分析处理课件
维数组,是多维数据的表达方式。
(维1,维2,…,维n,变量) 单元格:多维数组的取例:(值南称京,为一季单度元,计算格机(,82数5)据单
元),可表示为
(维1维成员,…,维n维成员,变量值)
5
SQL Server 的Analysis 三种多维数据存 储方式:
Q3 1034 1034 45 1002 940 759 58 728 812 1023 30 501
Q4 1142 1090 54 984 978 864 59 784 927 1038 38 580
23
3-D数据立方体表示:维是时间、类型、地区;度量为万元
地区
上海 1087 968 38 872
北京 818 746 43 591
南京
Q1 605 825 14 400
Q2 680 952 31 512
时间
Q3 812 1023 30 501
Q4 927 1038 38 580
计算机
安全
家庭娱乐
电话
类型
24
3.3.1 数据立方体
-由表到数据立方体
假定我们想从四维的角度观察销售数据,再附 加一维供应商。 观察4-D事物变得麻烦,可把4-D立方体看成3D立方体的序列:
3.旋转
改变一个页面显示的维方向的操作称为旋转 (或转轴)。
32
广州 城 上海 市 北京
南京 605 825 14 400
【例3】类型和地区在一 个2-D切片上转动。
计算机 安全 家庭娱乐 电话
类型
旋转
类型
家庭娱乐 计算机 电话
安全
上海
605
825 14
第4章:联机分析处理技术
内容
OLAP概述 OLAP中的多维分析操作 OLAP的基本数据模型 OLAP的衡量标准
OLAP概述
OLAP的由来
联机事务处理(OLTP):利用关系数据库存储和管理业务 数据,并建立相应的应用系统来支持日常业务运作。这种应 用以支持业务处理为主要目的。所存储的数据被称为操作型 数据或业务数据 对OLTP数据库中的数据进行再加工,形成一个综合的、面 向分析的、更好的支持决策制定的决策支持系统(DSS)
特化(specialize)
通过用低层抽象(如time维的day)值替换高层抽象(如time 维的year)值,概念分层可以用于特化数据;
OLAP的基本数据模型
OLAP系统一般以数据仓库作为基础, 从数据仓库中抽取详细数据的一个子 集,经过必要的聚集存储到OLAP存储 器中供前端分析工具读取 为了保证信息处理所需的数据以合适 的粒度、合理的抽象程度和标准化程 度存储,按照其数据存储格式可以分 为关系OLAP(ROLAP)、多维OLAP (MOLAP)和混合OLAP(HOLAP)
38
数据存储的容量
ROLAP使用的传统关系数据库的存储方法,在存 储容量上基本没有限制。 MOLAP通常采用多平面叠加成立体的方式存放 数据。 MOLAP受操作系统平台中文件大小的限制,当 数据量超过操作系统最大文件长度时,需要进行 数据分割。 多维数据库的数据量级难以达到TB 级(只能 10~20G)
OLAP中的多维分析操作
OLAP中的多维分析操作
切片和切块
切片:在给定数据立方体的一个维上进行选择操作,切片的 结果是得到一个二维平面数据,如银行分行=“分行1”
OLAP中的多维分析操作
4联机分析处理(NEW)
Dept. of Computers,CUIT
OLAP基本概念 基本概念
数据分析模型 OLAP的提出 多维数据结构 多维数据操作 多维数据模型的实现
Dept. of Computers,CUIT
多维数据模型
多维数据模型又称多维概念视图,通常用Cube Cube来表示。 Cube 多维数据模型可以更加直观的表示现实中的复杂关系 多维数据模型的基本组成:维、度量(变量、指标) 举例:计算每一个商场、每个产品的销售额
Dept. of Computers,CUIT
维层次和类的区别( 维层次和类的区别(续1) )
分析动作不同
按维层次进行分析
逐层向上综合数据;逐层向下细化数据;
按维成员的类进行分析
选择类属性对维成员全集进行分类 对同类维成员归纳出共同的特性 按类进行分析不能跨维层次,只在同层次(兄弟结点)进行
将维层次与类交叉组合进行分析(见下图)
解释模型(Exegetical Model) 解释模型( Model) 支持工具较多 静态数据分析 利用已有的多层次路径层层细化,找出事实
发生的原因
Dept. of Computers,CUIT
数据分析模型:思考模型 数据分析模型:
思考模型(Contemplative Model) 思考模型( Model) 支持工具较少 动态数据分析(动态性较低) 在一维或多维上引入变量或参数,分析引入 后会发生什么 引入变量时,须创建大量综合数据
按照一定维层次结构和度量(事实)的逻辑上的组织 其逻辑上相当于一个多维数组
Dept. of Computers,CUIT
数据立方体(Cubes)(续) 数据立方体 (
第四章联机分析处理精选全文完整版
4.1 从OLTP到OLAP
4.1.1 OLAP的出现 4.1.2 什么是OLAP 4.1.3 OLTP和OLAP的关系及比较
4.1.1 OLAP的出现
1970年,E.F.Codd博士提出了关系数据模型,1979年Oracle发布了关系数据库管理系统 OLTP推动了业务处理自动化,积累了大量的数据
基本概念(续)
数据单元(单元格) 多维数组的取值称为数据单元 (维1维成员,维2维成员 ,···,维n维成员,变量的值) 数据单元:(北京,1997年1月,批发,10000)
基本概念(续)
多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵
: :
多维分析的基本分析动作
图6-3: 旋转
地区维
时间维
产品维
产品维
时间维
地区维
旋转以改变 页面显示
(c)
OLAP的多维数据的位置: 1. 作为数据仓库的一部分 2. 作为数据仓库工具层的一部分
第四章 在线分析处理OLAP
联机分析处理(OLAP)
4.1 从OLTP到OLAP 4.2 OLAP的特征及衡量标准 4.3 OLAP实施 4.4 基于多维数据库的OLAP实现 4.5 基于关系数据库的OLAP实现 4.6 两种技术间的比较
联机分析处理(OLAP)
决策支持中的典型问题: 东部地区和西部地区今年6月份和去年6月份在销售总额上的对比情况,并且销售额按10万-20万、20万-30万、30万-40万,以及40万以上分组 特点: 多角度 多层次 访问大量数据 快速回答
数据仓库,联机分析处理,数据挖掘Data WarehousingPPT演示文稿
每个事务只访问少量记 有的事务可能要访问大
录
量记录
以秒为单位计量
以秒、分钟、甚至小时 为计量单位
12
• 尽管OLTP系统和数据仓库有着许多不同的特性且 基本构建思想不同,但是他们却是紧密联系的,因 为OLTP系统是数据仓库的数据来源。
• OLTP系统并不是为了快速回答查询,也不是为了 存储分析趋势的历史数据而创建的。一般的, OLTP提供了大量的原始数据,这些数据不易被分 析。
9
d) non-volatile 数据的非易失性
• 数据仓库的非易失性是指数据仓库的数据不进行更 新处理,而是一旦数据进入数据仓库以后,就会保 持一个相当长的时间。因为数据仓库中数据大多表 示过去某一时刻的数据,主要用于查询、分析,不 像业务系统中的数据库那样,要经常进行修改、添 加,除非数据仓库中的数据是错误的。
10
e) in support of management dec的组织的根本目的在于对决策的支持。 高层的企业决策者、中层的管理者和基层的业务 处理者等不同层次的管理人员均可以利用数据仓 库进行决策分析,提高管理决策的质量。
• 企业管理人员可以利用数据仓库进行各种管理决 策的分析,利用自己所特有的、敏锐的商业洞察 力和业务知识从貌似平淡的数据发现众多的商机。 数据仓库为管理者利用数据进行管理决策分析提 供了极大的便利。
2
数据仓库的引出 1.传统数据库以及OLTP(On-Line Transaction Processing 联机事务处理)在日常的管理事务处理中 获得了巨大的成功,但是对管理人员的决策分析要 求却无法满足。 2.因为,管理人员常常希望能够通过对组织中的大 量数据进行分析,了解业务的的发展趋势。而传统 数据库只保留了当前的业务处理信息,缺乏决策分 析所需要的大量的历史信息。 3.为满足管理人员的决策分析需要,就需要在数据 库的基础上产生适应决策分析的数据环境——数据 仓库(Data Warehose)。
数据挖掘4
96
73 69 62 94
4.2.2 多维分析
4.其它OLAP操作
“上卷”(roll_up)、“下钻”(drill_down等操作。“上卷” 是指沿某一个维的概念分层向上归约 ;“下钻”是上卷的逆向 操作,它是沿某一个维的概念分层向下或引入新的维来实现 。 OLAP的其它操作还有统计表中最高值和最低值的项数,计算 平均值、增长率、利润、投资回报率等统计计算。
4.2.1 MOLAP和ROLAP的概念
1. OLAP服务器 20世纪90年代出现了专用的OLAP服务器软件,OLAP服务器包含了为企 业用户预定义的超级立方体,从而能为具有明确的数据分析范围和分析 要求的企业提供高性能的决策支持。
OLAP数据库 DBI 客户端 软件 客户端 软件 图4-3 OLAP服务器结构
(3)多维性。多维性是OLAP的关键属性。系统能够 提供对数据分析的多维视图和分析,包括对层次维和 多重层次维的支持。事实上,多维分析是分析企业数 据最有效的方法,是OLAP的灵魂。
(4)信息性。不论数据量有多大,也不管数据存储 在何处,OLAP系统应能及时获得信息,并且管理大 容量信息。 (5)共享性。共享性是在大量用户间实现潜在地共 享秘密数据所必须的安全需求。
第四章 联机分析处理
第4章 联机分析处理
4.1 联机分析的概念与特性 4.1.1 联机分析的概念 4.1.2 联机分析的特性 4.1.3 联机分析准则 4.2 多维OLAP和关系OLAP 4.2.1 MOLAP和ROLAP的概念 4.2.2 OLAP选择评价 4.2.3 OLAM
2. 维关系
联机分析处理OLAP精品PPT课件
联机分析处理(OLAP)
1 OLAP概述 2 OLAP的数据模型 3 多维数据的显示方法 4 OLAP的多维数据分析
一Pl、eaOsLeAPin概s述ert Title
Please insert sub-title
➢ 1.1 OLAP的由来 ➢ 1.2 OLAP的定义
1.2.1 OLAP委员会的定义 1.2.2 OLAP简明定义
一个维成员并不一定在每个维层次上都要取值。例 如,“某年某月”、“某月某日”、“某日”等都是时 间维的维成员。
一Pl、eaOsLeAPin概s述ert Title
P•lea1s.e3insOerLtAsPu的b-t一itle些基本概念
多维数组 一个多维数组可以表示为:(维1,维2,… ,维n,
变量) 例如,日用品销售数据的一个多维数组(地区,时
一Pl、eaOsLeAPin概s述ert Title
P•lea1s.e1insOerLtAsPu的b-t由itle来
简单地说,在数据仓库系统中,OLAP是重要的数 据分析工具。OLAP的基本思想是企业的决策者应能灵 活地,从多方面和多角度以多维的形式来观察企业的状 态和了解企业的变化。
一Pl、eaOsLeAPin概s述ert Title
指对数据分析的多维视图和分析,是OLAP的关键属 性,包括对层次维和多重层次维的支持。
一Pl、eaOsLeAห้องสมุดไป่ตู้in概s述ert Title
P•lea1s.e2insOerLtAsPu的b-t定itle义
1.2.2 OLAP简明定义
➢ 信息性(Information) 指OLAP系统管理数据和获得信息的能力,能管理大
量的数据并及时地获得用户所需的信息。
谈谈联机分析处理
关于数据仓库与联机分析处理的概述一、数据仓库及数据库的概念及其特点1、数据仓库的概念及其特点“什么是数据仓库?”这恐怕是每一个刚刚开始接触数据仓库的技术人员都会提出的一个问题。
有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析的技术。
这些定义都从一定的侧面反映了数据仓库的概念,但并不全面。
目前,业界公认的数据仓库定义是由数据仓库之父the Data Warehouse》一书中给出:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。
”正如Inmon所描述的,数据仓库具有如下特点:(1)数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。
所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
(2)数据仓库的数据是集成的建立数据仓库的主要目的就是为用户提供易于访问的商业信息。
为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。
在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。
(3)数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。
数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。
(4)数据仓库的数据是随时间不断变化的数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。
但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。
数据仓库会随时间的变化不断增加新的数据内容和删去过时的数据内容。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2015-4-20
39
3. 事实群模型
在某些复杂应用中,可能需要多个事实表来共享维
表,这种模型类似于星形模型的集合,被称之为星
系模型或事实群模型。 销售事实表和货运事实表共享时间维、产品维和地 区维举例。
2015-4-20
40
3. 事实群模型(续)
2015-4-20
41
4.3 多维分析操作
常见的度量有:销售量、供应量、营业额等。
通常是具体数据值。
城市
北京 长沙 武汉 广州 上海 果汁 可乐 毛巾 浴巾 牛奶 2015-4-20
究竟想了解什么?
商品
1 2
3
4
21
日期
2. 度量(续)
2015-4-20
22
3. 数据立方体
多维数据模型构成的多维数据空间称作为数据立方 体(Data Cube,简记为cube)。
2015-4-20
13
1. 维(续)
维成员(member) 维由一些维成员构成。维的一个取值称为维的一个
成员。如果维已经分成了若干个维层次,那么维成
员就是不同维层次取值的组合。
城市
北京 长沙 武汉 广州 上海 果汁 可乐 毛巾 浴巾 牛奶 2015-4-20
商品、城市、日期维 工业 国家 年
多维数据模型是一个多维空间。 核心概念主要涉及:维、维成员、维层次、度量等。
2015-4-20
12
1. 维
维是人们观察数据的特定角度,是每个事物的属性。 如:在分析产品销售数据时,需要知道在什么时候?
什么地区?销售什么产品?就涉及到观察的时间、
地区、产品三个角度。 维是商业活动中的一个基本要素。 每个维都有一个唯一的名字,如:时间维、地区维、 产品维等。
区维是指商店所在地区。假设数据仓库中有一张销 售表(如下图),只列出在时间T1、商品P1在济南
地区的商店( S 1 、 S 2 、 S 3 )的销售额,分别为:
(T1,S1,P1:100),(T1,S2,P1:78),(T1, S3,P1:97)
求和 计数 求最大值 求最小值
求平均值
2015-4-20 43
4.3.1 多维分析基础:聚集(续)
举例:零售商对产品的销售尽心给分析时,设置了 时 间 维 ( T i m e ) 、 地 区 维 ( S t o re ) 和 商 品 维
( Product ),度量是销售额(Sales),其中该地
是以海量数据为基础的复杂分析技术。
支持各级管理决策人员从不同角度,快速灵活地对 数据仓库中的数据进行复杂查询和多维分析处理。
2015-4-203Leabharlann 4.1.1 OLAP的起源
最早由关系数据库之父E.F.Codd于1993年提出。 原因:E.F.Codd认为联机事务处理已经不能满足终
端用户对数据库数据进行查询、分析的需要。
4.1.3 OLAP与OLTP的区别
OLAP与OLTP数据比较
OLTP数据 OLAP数据
原始数据
细节性数据 当前数据 可更新 一次处理的数据量小 面向应用,事务驱动 面向操作人员,支持日常操作
2015-4-20
导出数据
综合性或提炼性数据 历史数据 不可更新,但周期性追加和刷 新 一次处理的数据量大 面向分析,分析驱动 面向决策人员,支持管理需要
(“山东省”,“2009年第一季度”,“彩电”,“500万”)
2015-4-20
28
4.2.2 星形、雪花和事实群模型
常见的多维数据模型有: 星形模型
雪花模型
事实群模型
2015-4-20
29
1. 星形模型
星形模型是多维数据模型的基本结构,通常由一个 很大的中心表(事实表)和一组较小的表(维度表)
是从不同角度对同一数据进行观察得到的数据交点。
当观察的角度(参数)超过三个所构成的数据结果 集称为超立方体,也称为超维数据集。
2015-4-20
23
3. 数据立方体(续)
一个二维数据立方体对应的某地区商店销售额表
时间(季度) 彩电 第一季度 第二季度 第三季度 第四季度 500万 200万 240万 80万 冰箱 200万 300万 500万 100万 产品类型 洗衣机 240万 420万 250万 320万 家用电器 1500万 2100万 1000万 1700万
19
1. 维(续)
维属性(attribute) 维属性说明维成员所具有的特征。
如:在地区维的商店这一层定义“负责人”、“商
店类型”等属性,在城市层上定义“人口”、“面 积”等属性。
2015-4-20
20
2. 度量
度量是要分析的目标或对象,是多维数据集的核心 值,是最终用户在数据仓库应用中需查看的数据。
OLAP是基于多维数据库和多维分析的。
2015-4-20
4
4.1.2 OLAP的定义
OLAP委员会给出的定义: 定义 1 : OLAP 是针对某个特定的主题进行联机数 据访问、处理和分析,通过直观的方式从多个维度、 多种数据综合程度将系统的运营情况展现给使用者。
定义 2 : OLAP 是使分析人员、管理人员和执行人
求作出响应。
可分析性:用户无需编程就可以定义新的专门计算, 将其作为分析的一部分,并以用户所希望的方式给 出报告,处理与应用相关的各种逻辑分析和统计分 析。 多维性:提供对数据的多维视图和分析。
及时性:不论数据量有多大、数据存储在何处,应
能及时获得信息,并且管理海量信息。
2015-4-20 7
维度表上用了多于一张的维表表示,称为详细类别 表。
2015-4-20
35
2. 雪花模型(续)
地域维上用了多于一张的维表表示。
2015-4-20
36
2. 雪花模型(续)
2015-4-20
37
2. 雪花模型(续)
产品ID 产品名称 公司ID 公司名称 产品颜色ID 产品颜色 产品维表 产品ID 公司ID 产品颜色ID 产品商标ID 产品类型ID 产品ID 产品ID 销售商ID 地址ID 时间ID 销售数量 销售成本 总收入 产品商标ID 商标名称 产品类型ID 产品类型名
时间 维表
时间ID
销售商ID
销售商 维度表
地址ID
地理位 置维表 2015-4-20
雪花模式的关系数据库表示
38
2. 雪花模型(续)
星形模型和雪花模型的主要区别是雪花模型中的维
表是规范化的。
维表不但易于维护,而且节省存储空间。 雪花模型在执行查询操作时需要进行较多的链接操 作,可能会影响系统的性能。
日期
4.2 多维数据模型
研究内容:主要研究多维数据的抽象表示问题。 采用方式:通常采用数据立方体的方式表示。
实现目标:允许管理决策人员对多维数据从不同的
角度进行快速、稳定和交互式的观察和存取。 存在三种模型:星形模型、雪花模型、事实群模型。
2015-4-20
11
4.2.1 基本概念
8
4.1.3 OLAP与OLTP的区别(续)
两者最终结果: OLAP通过逐层细化、切片、切块、数据旋转等操 作,采用非数据处理专业人员容易理解的形式(多 维报表、统计图形)展现结果。
OLTP 大多使用操作人员常用的固定表格方式显示
数据。
2015-4-20
9
4.1.4 OLAP核心技术
程度就称为不同的维层次。 如:销售地区维有分区、省、市,对于时间维有日、 月、季度。
2015-4-20
16
1. 维(续)
地区维的维成员之间的层次关系实例。
总部
中国
美国
......
华北
华东
......
北京
河北
......
商店
2015-4-20
商店
......
17
1. 维(续)
维层之间以及维层与成员的关系。
河北省所有商店销售额 产品类型
冰箱 200万 300万 500万 100万 洗衣 机 240万 420万 250万 320万 家用电 器 1500万 2100万 1000万 1700万
福建省所有商店销售额 产品类型
彩电 500万 200万 240万 80万 冰箱 200万 300万 500万 100万 洗衣 机 240万 420万 250万 320万 家用电 器 1500万 2100万 1000万 1700万
组成。
产品 维表
时 间 维 表
事实 表
销售 商维 度表
......
2015-4-20
30
1. 星形模型(续)
2015-4-20
31
1. 星形模型(续)
2015-4-20
32
1. 星形模型(续)
产品维表
产品ID
产品ID 销售商ID 地址ID 时间ID 销售数量 销售成本 总收入
时间维 表
销 售 商 维度表
员能够从多角度对信息进行快速、一致、交互地存 取,从而获得对数据的更深入了解的一类软件技术。
2015-4-20 5
4.1.2 OLAP的定义(续)
OLAP基本功能: 能够对用户提出的各类复杂查询快速响应。
具备多维建模能力。
2015-4-20
6
4.1.2 OLAP的定义(续)
主要特点: 快速性:能在很短的时间内对用户的大部分分析要
时间ID
销售商ID
地址ID
地 理 位 置维表
2015-4-20
星形模型的关系数据库表示
33
1. 星形模型(续)