数据挖掘与技术-ch2-OLAP
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:对时间维的切片操作,它对中心数据立方体 使用条件:时间=“Q1”选择销售数据。
广州 城 上海 市 北京
南京 605 825 14 400 计算机 安全
家庭娱乐 电话
类型
地区 广州 440 (城市) 上海 1560
北京 395
南京
Q1 605 825 14 400
时间
(季) Q2 Q3
Q4
计算机
OLAP利用多维数据集和数据聚集技术对数 据仓库中的数据进行组织和汇总,用联机分析 和可视化工具对这些数据迅速进行评价。
查询/报告 分析 数据挖掘
顶层:前端工具
OLAP服务器
数 据 仓 库 系 监控 管理 统 结 元数据存储 构 图
输出 OLAP服务器
数据仓库
数 据
集
市
提取,清理 转换,装入
刷新
操作数据库
外部数据源
中间层:OLAP服务器 底层:DW服务器 数据
由上面DWS的结构图可看出,DW工具层是DWS的 重要组成部分。只用通过高效的工具,DW才能真正 发挥出数据宝库的作用。
OLAP是近年来十分流行的DW主要的前端支持工 具。在OLAP系统中,客户能够以多维视觉图的方式, 搜寻数据仓库中存储的数据。
数据切块就是将完整的数据立方体切取一部分数据而 得到的新的数据立方体,如图所示。
图 数据切块的示意
在一个多维数据集中对两个(及其以上的)维选定
维成员的操作可以称为切块。即在(维1,维2,…, 维i,…,维k,…,维n,观察变量)多维数据集 上,对维i,…,维k,选定了维成员,则(维1, 维2,…,维i成员,…,维k成员,…,维n,观 察变量)就是多维数据集(维1,维2,…,维i,…, 维k,…,维n,观察变量)在维i,…,维k上的一 个切块。显然,当i=k时,切块操作就退化成切片
维:是人们观察数据的特定角度,是考虑问题时的一 类属性,属性集合构成一个维。例如,企业常常关心 产品销售数据随着时间推移而产生的变化情况,这时 他是从时间的角度来观察产品的销售,所以时间就是 一个维(时间维)。企业也时常关心自己的产品在不 同地区的销售分布情况,这时他是从地理分布的角度 来观察产品的销售,所以地理分布也是一个维(地理 维)。
第2章 联机分析处理
决策支持中的典型问题:
东部地区和西部地区今年6月份和去年6月份在销 售总额上的对比情况,并且销售额按10万-20万、 20万-30万、30万-40万,以及40万以上分组
特点:
多角度 多层次 访问大量数据 快速回答
2.1 联机分析处理概念
数据仓库是进行决策分析的基础,但 还必须要有强有力的工具进行分析和决 策,OLAP即是与数据仓库密切相关的 工具产品。
维的成员:维的一个取值称为该维的一个维成员。 如果一个维是多层次的,那么该维的维成员是在不 同维层次的取值的组合。
例如,考虑时间维具有日期、月份、年这三个层次, 分别在日期、月份、年上各取一个值组合起来,就 得到了时间维的一个维成员,即“某年某月某日”。 一个维成员并不一定在每个维层次上都要取值,例 如,“某年某月”、“某月某日”、“某年”等等 都是时间维的维成员。对应一个数据项来说,维成 员是该数据项在某维中位置的描述。例如对一个销 售数据来说,时间维的维成员“某年某月某日”就 表示该销售数据是“某年某月某日”的销售数据, “某年某月某日”是该销售数据在时间维位置的描 述。
联机分析处理是共享多维信息的快速分析(Fast Analysis of Shared Multidimensional Information)。( OLAP 的 简单定义)
OLAP的特性:
快速性:系统能在数秒内对用户的多数分析要求做出 反应
可分析性:用户无需编程就可以定义新的专门计算, 将其作为分析的一部分,并以用户所希望的方式给出 报告
2、OLAP
0LAP(online analytical processing)“联机分析处理” 是使用多维结构为分析提供对数据的快速访问的一种 最新技术。OLAP的源数据通常存储在关系数据库的 数据仓库中。
联机分析处理(OLAP)系统的目的旨在处理发现企业 趋势和影响企业发展的关键因素而提供进行数据组织 和查询工具。OLAP查询通常需要大量的数据。例如, 政府机动车辆执照部的领导可能需要一份报告,显示 过去二十年中每年由该部门注册的车辆的牌号和型号。
2.2 OLAP的多维数据分析
在多维数据模型中,数据组织成多 维,每维包含由概念分层定义的多个抽 象层,最终用户能从多个角度,多侧面 地观察DB中的数据,从而深入了解包含 在数据中的信息、内涵。
一、数据切片
在多维分析过程中,如果对多维数据集的某个维 选定一维成员,这种选择操作就称为切片。也即: 如有(维1,维2,…,维i,…,维n,观察变量) 多维数据集,对维i选定了某个维成员,则(维1, 维2,…,维i成员,…,维n,观察变量)就是多 维数据集(维1,维2,…,维i,…,维n,观察 变量)在维i上的一个切片。这种切片的数量完全 取决于维i上的维成员个数,如果维数越多,可 以做的切片也就越多。
在OLTP系统中,个别事务能够很快地完成,并且只需 访问相对较少的数据。OLTP系统旨在处理同时输入的 成百上千的事务。
尽管OLTP系统擅长记录支持日常操作所需的数据,但 是OLTP数据的组织方式不能很容易地为管理人员提供 计划单位工作所需的信息。OLTP已经不能满足终端用 户对数据库查询分析的需要。管理人员需要对信息进 行汇总,以获取、分析影响单位趋势所需的信息。他 们需要找出影响单位成功的、以及如何最好地对之进 行调整的关键因素,这样来提高企业的成功。他们需 要找出企业的工作负荷如何受季节和年度趋势的影响, 以便可以预测完成将来的工作所需的职员和资源数量。 这样,就出现了0LAP系统,用于对企业业务数据进行 联机数据查询和数据分析。
联机分析处理(OLAP)系统的示意图
3、OLTP与OLAP的区别
OLAP是在OLTP的基础上发展起来的,OLTP是以 数据库为基础的,面对的是操作人员和低层管理人 员对基本数据进行查询和增、删、改等处理。而 OLAP是以数据仓库为基础的数据分析处理,其最终 数据来源与OLTP一样均来自地层的数据库系统,但 由于二者面对的用户不同,OLTP面对的是操作人员 和低层管理人员,OLAP面对的是决策人员和高层管 理人员,因而数据理(OLAP)的概念最早是由关系数据库之 父E.F.Codd于1993年提出的。Codd认为联机事务 处理(0LTP)已不能满足终端用户对数据库查询分析的 需要,SQL对大数据库进行的简单查询也不能满足用 户分析的需求。用户的决策分析需要对关系数据库进 行大量计算才能得到结果,而查询的结果并不能满足 决策者提出的需求。因此Codd提出了多维数据库和 多维分析的概念,即OLAP。
OLTP和OLAP是两类不同的应用,它们的各自特点如表 所示。
四、数据仓库与OLAP
数据仓库是一个包含企业历史数据的大规 模数据库,这些历史数据安用十对企业的经营 决策提供分析和支持。数据仓库中的数据是不 能用于OLTP的,而OLAP技术则利用数据仓库中 的数据进行联机分析,将复杂的分析查询结果 快速地返回用户。
一、OLAP的定义
定义1:OLAP(联机分析处理)是针对特定问题的联 机数据访问和分析。通过对信息(这些信息已经从原 始的数据进行了转换,以反映用户所能理解的企业的 真实的“维”)的很多种可能的观察形式进行快速、 稳定一致的交互性的存取,允许管理决策人员对数据 进行深入观察。
定义2(OLAP理事会的定义):OLAP(联机分析处 理)是一种软件技术,他使分析人员能够迅速、一致、 交互地从各个方面观察信息,以达到深入理解数据的 目的,这些信息是从原始数据直接转换过来的,他们 以用户容易理解的方式反映企业的真实情况。
多维数组:维和变量的组合表示。一个多维数组可以 表示为:(维1,维2,…,维n,变量)。如图所示的日 用品销售数据是按时间、地区和销售渠道组织起来的 三维立方体,加上变量“销售额”,就组成了一个多 维数组(地区,时间,销售渠道,销售额)。如果在 图的基础上扩展一个维,产品维,就得到一个四维的 结构。
一般来说,OLTP系统中的数据主要为组织支持如下 事务:
支持主动添加和修改数据的大量并发用户。 能反映某个组织机构随时变化的状态,但不保存其历史
记录。
包含大量的数据,其中包括用来验证事务的大量数据。 具有复杂的结构。 可以进行优化,以对事务活动做出响应。 提供支持组织机构日常使用的技术基础设施。
维的层次:人们观察数据的某个特定角度(即某个 维)还可以存在细节程度不同的各个描述方面,称 这多个描述方面为维的层次。一个维往往具有多 个层次,例如描述时间维时,可以从日期、月份、 季度、年等不同层次来描述,那么日期、月份、 季度、年等就是时间维的层次;同样,城市、地 区、国家等构成了地理维的多个层次。
工作站
5
31600 200
2
11600
100
二
PC机
20
12400 100
12
7390
200
季
软件
213 87000 100
54 21900 100
度
计算机配件 568
43600
540
260 24500
250
三、OLAP与OLTP的关系
随着数据库系统广泛应用,数据库系统记录和处理的 数据越来越多,及时地记录和处理企业的各种业务数 据,这些系统成为联机事务处理(OLTP)系统。数据库 技术的广泛应用和技术的发展,人们已经不再满足于 仅仅用数据库系统来记录企业的业务活动数据和对数 据的简单处理,人们需要对企业业务活动的数据进行 各种分析,以便发现企业业务趋势,这些系统称为联 机分析处理(OLAP)系统。
销售渠道
北京
地区
销售额(万元)
零售
批发
123 4
时间(月)
图 按销售渠道、时间和地区组织日用品销售数据
数据单元(单元格):多维数组的取值。当多维数 组的各个维都选中一个维成员,这些维成员的组 合就唯一确定了一个变量的值。那么数据单元就 可以表示为:(维1维成员,维2维成员,……, 维n维成员,变量的值)。例如,在地区、时间 和销售渠道上各取维成员“北京”、“2006年12 月”和“批发”,就唯一确定了变量“销售额” 的一个值(假设为10000),则该数据单元可表 示为:(北京,2006年12月,批发,10000)。
安全
家庭娱乐
电话
类型
在切片的概念中,有以下两个重要的概念必须掌握:
多维数据集的切片数量多少是由所选定的那个维的维 成员数量的多少所决定的。
进行切片操作的目的是使人们能够更好地了解多维数 据集,通过切片的操作可以降低多维数数据集的维度, 可使人们将注意力集中在较少的维度下进行观察。
二、数据切块
1、OLTP
OLTP(online transaction processing)联机事务处理是 为在企业的全部业务事务发生时进行记录而设计的数 据处理系统。OLTP系统的特征是许多并发用户动态 地添加和修改数据。
联机事务处理(OLTP)系统的示意图
0LTP系统可以进行各种事务的联机实时处理。 例如,在银行系统中,OLTP系统可以用于银行 储蓄的业务中存款和取款业务的实时处理。在 民航、铁路、酒店等行业中,OLTP系统可以用 于处理订票和订房等业务的实时处理。对于企 业来说,OLTP系统可以用于生产业务(如订单、 入库、出库)的实时处理。
维1→ 维2 维3
北京地区 销售量 纯利润
成本
上海地区 销售量 纯利润 成本
第
工作站
12
67000 520
8
41200
440
一
PC机
35
19400 350
23 12700 200
季
软件
136
56900
120
200 75300
100
度
计算机配件 455
23100
670
1270 69700 1200
第
多维性:提供对数据分析的多维视图和分析 信息性:能及时获得信息,并且管理大容量信息
二、OLAP的相关基本概念
变量:变量是数据的实际意义,即描述数据“是什 么”。例如:数据“10000”本身没有意义或者说意义 未定,它可能是一个学校的学生人数,也可能是某产 品的单价,还可能是某商品的销售量,等等。一般情 况下,变量总是一个数值度量指标,例如:“人数”、 “单价”、“销售量”等都是变量,而数据“10000” 则是变量的一个值。
广州 城 上海 市 北京
南京 605 825 14 400 计算机 安全
家庭娱乐 电话
类型
地区 广州 440 (城市) 上海 1560
北京 395
南京
Q1 605 825 14 400
时间
(季) Q2 Q3
Q4
计算机
OLAP利用多维数据集和数据聚集技术对数 据仓库中的数据进行组织和汇总,用联机分析 和可视化工具对这些数据迅速进行评价。
查询/报告 分析 数据挖掘
顶层:前端工具
OLAP服务器
数 据 仓 库 系 监控 管理 统 结 元数据存储 构 图
输出 OLAP服务器
数据仓库
数 据
集
市
提取,清理 转换,装入
刷新
操作数据库
外部数据源
中间层:OLAP服务器 底层:DW服务器 数据
由上面DWS的结构图可看出,DW工具层是DWS的 重要组成部分。只用通过高效的工具,DW才能真正 发挥出数据宝库的作用。
OLAP是近年来十分流行的DW主要的前端支持工 具。在OLAP系统中,客户能够以多维视觉图的方式, 搜寻数据仓库中存储的数据。
数据切块就是将完整的数据立方体切取一部分数据而 得到的新的数据立方体,如图所示。
图 数据切块的示意
在一个多维数据集中对两个(及其以上的)维选定
维成员的操作可以称为切块。即在(维1,维2,…, 维i,…,维k,…,维n,观察变量)多维数据集 上,对维i,…,维k,选定了维成员,则(维1, 维2,…,维i成员,…,维k成员,…,维n,观 察变量)就是多维数据集(维1,维2,…,维i,…, 维k,…,维n,观察变量)在维i,…,维k上的一 个切块。显然,当i=k时,切块操作就退化成切片
维:是人们观察数据的特定角度,是考虑问题时的一 类属性,属性集合构成一个维。例如,企业常常关心 产品销售数据随着时间推移而产生的变化情况,这时 他是从时间的角度来观察产品的销售,所以时间就是 一个维(时间维)。企业也时常关心自己的产品在不 同地区的销售分布情况,这时他是从地理分布的角度 来观察产品的销售,所以地理分布也是一个维(地理 维)。
第2章 联机分析处理
决策支持中的典型问题:
东部地区和西部地区今年6月份和去年6月份在销 售总额上的对比情况,并且销售额按10万-20万、 20万-30万、30万-40万,以及40万以上分组
特点:
多角度 多层次 访问大量数据 快速回答
2.1 联机分析处理概念
数据仓库是进行决策分析的基础,但 还必须要有强有力的工具进行分析和决 策,OLAP即是与数据仓库密切相关的 工具产品。
维的成员:维的一个取值称为该维的一个维成员。 如果一个维是多层次的,那么该维的维成员是在不 同维层次的取值的组合。
例如,考虑时间维具有日期、月份、年这三个层次, 分别在日期、月份、年上各取一个值组合起来,就 得到了时间维的一个维成员,即“某年某月某日”。 一个维成员并不一定在每个维层次上都要取值,例 如,“某年某月”、“某月某日”、“某年”等等 都是时间维的维成员。对应一个数据项来说,维成 员是该数据项在某维中位置的描述。例如对一个销 售数据来说,时间维的维成员“某年某月某日”就 表示该销售数据是“某年某月某日”的销售数据, “某年某月某日”是该销售数据在时间维位置的描 述。
联机分析处理是共享多维信息的快速分析(Fast Analysis of Shared Multidimensional Information)。( OLAP 的 简单定义)
OLAP的特性:
快速性:系统能在数秒内对用户的多数分析要求做出 反应
可分析性:用户无需编程就可以定义新的专门计算, 将其作为分析的一部分,并以用户所希望的方式给出 报告
2、OLAP
0LAP(online analytical processing)“联机分析处理” 是使用多维结构为分析提供对数据的快速访问的一种 最新技术。OLAP的源数据通常存储在关系数据库的 数据仓库中。
联机分析处理(OLAP)系统的目的旨在处理发现企业 趋势和影响企业发展的关键因素而提供进行数据组织 和查询工具。OLAP查询通常需要大量的数据。例如, 政府机动车辆执照部的领导可能需要一份报告,显示 过去二十年中每年由该部门注册的车辆的牌号和型号。
2.2 OLAP的多维数据分析
在多维数据模型中,数据组织成多 维,每维包含由概念分层定义的多个抽 象层,最终用户能从多个角度,多侧面 地观察DB中的数据,从而深入了解包含 在数据中的信息、内涵。
一、数据切片
在多维分析过程中,如果对多维数据集的某个维 选定一维成员,这种选择操作就称为切片。也即: 如有(维1,维2,…,维i,…,维n,观察变量) 多维数据集,对维i选定了某个维成员,则(维1, 维2,…,维i成员,…,维n,观察变量)就是多 维数据集(维1,维2,…,维i,…,维n,观察 变量)在维i上的一个切片。这种切片的数量完全 取决于维i上的维成员个数,如果维数越多,可 以做的切片也就越多。
在OLTP系统中,个别事务能够很快地完成,并且只需 访问相对较少的数据。OLTP系统旨在处理同时输入的 成百上千的事务。
尽管OLTP系统擅长记录支持日常操作所需的数据,但 是OLTP数据的组织方式不能很容易地为管理人员提供 计划单位工作所需的信息。OLTP已经不能满足终端用 户对数据库查询分析的需要。管理人员需要对信息进 行汇总,以获取、分析影响单位趋势所需的信息。他 们需要找出影响单位成功的、以及如何最好地对之进 行调整的关键因素,这样来提高企业的成功。他们需 要找出企业的工作负荷如何受季节和年度趋势的影响, 以便可以预测完成将来的工作所需的职员和资源数量。 这样,就出现了0LAP系统,用于对企业业务数据进行 联机数据查询和数据分析。
联机分析处理(OLAP)系统的示意图
3、OLTP与OLAP的区别
OLAP是在OLTP的基础上发展起来的,OLTP是以 数据库为基础的,面对的是操作人员和低层管理人 员对基本数据进行查询和增、删、改等处理。而 OLAP是以数据仓库为基础的数据分析处理,其最终 数据来源与OLTP一样均来自地层的数据库系统,但 由于二者面对的用户不同,OLTP面对的是操作人员 和低层管理人员,OLAP面对的是决策人员和高层管 理人员,因而数据理(OLAP)的概念最早是由关系数据库之 父E.F.Codd于1993年提出的。Codd认为联机事务 处理(0LTP)已不能满足终端用户对数据库查询分析的 需要,SQL对大数据库进行的简单查询也不能满足用 户分析的需求。用户的决策分析需要对关系数据库进 行大量计算才能得到结果,而查询的结果并不能满足 决策者提出的需求。因此Codd提出了多维数据库和 多维分析的概念,即OLAP。
OLTP和OLAP是两类不同的应用,它们的各自特点如表 所示。
四、数据仓库与OLAP
数据仓库是一个包含企业历史数据的大规 模数据库,这些历史数据安用十对企业的经营 决策提供分析和支持。数据仓库中的数据是不 能用于OLTP的,而OLAP技术则利用数据仓库中 的数据进行联机分析,将复杂的分析查询结果 快速地返回用户。
一、OLAP的定义
定义1:OLAP(联机分析处理)是针对特定问题的联 机数据访问和分析。通过对信息(这些信息已经从原 始的数据进行了转换,以反映用户所能理解的企业的 真实的“维”)的很多种可能的观察形式进行快速、 稳定一致的交互性的存取,允许管理决策人员对数据 进行深入观察。
定义2(OLAP理事会的定义):OLAP(联机分析处 理)是一种软件技术,他使分析人员能够迅速、一致、 交互地从各个方面观察信息,以达到深入理解数据的 目的,这些信息是从原始数据直接转换过来的,他们 以用户容易理解的方式反映企业的真实情况。
多维数组:维和变量的组合表示。一个多维数组可以 表示为:(维1,维2,…,维n,变量)。如图所示的日 用品销售数据是按时间、地区和销售渠道组织起来的 三维立方体,加上变量“销售额”,就组成了一个多 维数组(地区,时间,销售渠道,销售额)。如果在 图的基础上扩展一个维,产品维,就得到一个四维的 结构。
一般来说,OLTP系统中的数据主要为组织支持如下 事务:
支持主动添加和修改数据的大量并发用户。 能反映某个组织机构随时变化的状态,但不保存其历史
记录。
包含大量的数据,其中包括用来验证事务的大量数据。 具有复杂的结构。 可以进行优化,以对事务活动做出响应。 提供支持组织机构日常使用的技术基础设施。
维的层次:人们观察数据的某个特定角度(即某个 维)还可以存在细节程度不同的各个描述方面,称 这多个描述方面为维的层次。一个维往往具有多 个层次,例如描述时间维时,可以从日期、月份、 季度、年等不同层次来描述,那么日期、月份、 季度、年等就是时间维的层次;同样,城市、地 区、国家等构成了地理维的多个层次。
工作站
5
31600 200
2
11600
100
二
PC机
20
12400 100
12
7390
200
季
软件
213 87000 100
54 21900 100
度
计算机配件 568
43600
540
260 24500
250
三、OLAP与OLTP的关系
随着数据库系统广泛应用,数据库系统记录和处理的 数据越来越多,及时地记录和处理企业的各种业务数 据,这些系统成为联机事务处理(OLTP)系统。数据库 技术的广泛应用和技术的发展,人们已经不再满足于 仅仅用数据库系统来记录企业的业务活动数据和对数 据的简单处理,人们需要对企业业务活动的数据进行 各种分析,以便发现企业业务趋势,这些系统称为联 机分析处理(OLAP)系统。
销售渠道
北京
地区
销售额(万元)
零售
批发
123 4
时间(月)
图 按销售渠道、时间和地区组织日用品销售数据
数据单元(单元格):多维数组的取值。当多维数 组的各个维都选中一个维成员,这些维成员的组 合就唯一确定了一个变量的值。那么数据单元就 可以表示为:(维1维成员,维2维成员,……, 维n维成员,变量的值)。例如,在地区、时间 和销售渠道上各取维成员“北京”、“2006年12 月”和“批发”,就唯一确定了变量“销售额” 的一个值(假设为10000),则该数据单元可表 示为:(北京,2006年12月,批发,10000)。
安全
家庭娱乐
电话
类型
在切片的概念中,有以下两个重要的概念必须掌握:
多维数据集的切片数量多少是由所选定的那个维的维 成员数量的多少所决定的。
进行切片操作的目的是使人们能够更好地了解多维数 据集,通过切片的操作可以降低多维数数据集的维度, 可使人们将注意力集中在较少的维度下进行观察。
二、数据切块
1、OLTP
OLTP(online transaction processing)联机事务处理是 为在企业的全部业务事务发生时进行记录而设计的数 据处理系统。OLTP系统的特征是许多并发用户动态 地添加和修改数据。
联机事务处理(OLTP)系统的示意图
0LTP系统可以进行各种事务的联机实时处理。 例如,在银行系统中,OLTP系统可以用于银行 储蓄的业务中存款和取款业务的实时处理。在 民航、铁路、酒店等行业中,OLTP系统可以用 于处理订票和订房等业务的实时处理。对于企 业来说,OLTP系统可以用于生产业务(如订单、 入库、出库)的实时处理。
维1→ 维2 维3
北京地区 销售量 纯利润
成本
上海地区 销售量 纯利润 成本
第
工作站
12
67000 520
8
41200
440
一
PC机
35
19400 350
23 12700 200
季
软件
136
56900
120
200 75300
100
度
计算机配件 455
23100
670
1270 69700 1200
第
多维性:提供对数据分析的多维视图和分析 信息性:能及时获得信息,并且管理大容量信息
二、OLAP的相关基本概念
变量:变量是数据的实际意义,即描述数据“是什 么”。例如:数据“10000”本身没有意义或者说意义 未定,它可能是一个学校的学生人数,也可能是某产 品的单价,还可能是某商品的销售量,等等。一般情 况下,变量总是一个数值度量指标,例如:“人数”、 “单价”、“销售量”等都是变量,而数据“10000” 则是变量的一个值。