第4章 联机分析处理概述及模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
19
1. 维(续)
维属性(attribute) 维属性说明维成员所具有的特征。
如:在地区维的商店这一层定义“负责人”、“商
店类型”等属性,在城市层上定义“人口”、“面 积”等属性。
2015-4-20
20
2. 度量
度量是要分析的目标或对象,是多维数据集的核心 值,是最终用户在数据仓库应用中需查看的数据。
第一季度 第二季度 第三季度 第四季度
500万 200万 240万 80万
2015-4-20
25
3. 数据立方体(续)
对应2009年商店销售额表的三维数据立方体
2015-4-20
26
3. 数据立方体(续)
假如需再增加供应商维度,则生成四维数据立方体, 称为超立方体。 如何表示?
2015-4-20
河北省所有商店销售额 产品类型
冰箱 200万 300万 500万 100万 洗衣 机 240万 420万 250万 320万 家用电 器 1500万 2100万 1000万 1700万
福建省所有商店销售额 产品类型
彩电 500万 200万 240万 80万 冰箱 200万 300万 500万 100万 洗衣 机 240万 420万 250万 320万 家用电 器 1500万 2100万 1000万 1700万
时间ID
销售商ID
地址ID
地 理 位 置维表
2015-4-20
星形模型的关系数据库表示
33
1. 星形模型(续)
对于维内层次比较复杂的维,为了避免冗余过多, 同时也为了支持针对不同层上的相同属性的查询, 可以用多张表来描述一个复杂维,则产生了星形模
型的变种--雪花模型。
2015-4-20
34
2. 雪花模型
求和 计数 求最大值 求最小值
求平均值
2015-4-20 43
4.3.1 多维分析基础:聚集(续)
举例:零售商对产品的销售尽心给分析时,设置了 时 间 维 ( T i m e ) 、 地 区 维 ( S t o re ) 和 商 品 维
( Product ),度量是销售额(Sales),其中该地
2015-4-20
13
1. 维(续)
维成员(member) 维由一些维成员构成。维的一个取值称为维的一个
成员。如果维已经分成了若干个维层次,那么维成
员就是不同维层次取值的组合。
城市
北京 长沙 武汉 广州 上海 果汁 可乐 毛巾 浴巾 牛奶 2015-4-20
商品、城市、日期维 工业 国家 年
维度表上用了多于一张的维表表示,称为详细类别 表。
2015-4-20
35
2. 雪花模型(续)
地域维上用了多于一张的维表表示。
2015-4-20
36
2. 雪花模型(续)
2015-4-20
37
2. 雪花模型(续)
产品ID 产品名称 公司ID 公司名称 产品颜色ID 产品颜色 产品维表 产品ID 公司ID 产品颜色ID 产品商标ID 产品类型ID 产品ID 产品ID 销售商ID 地址ID 时间ID 销售数量 销售成本 总收入 产品商标ID 商标名称 产品类型ID 产品类型名
求作出响应。
可分析性:用户无需编程就可以定义新的专门计算, 将其作为分析的一部分,并以用户所希望的方式给 出报告,处理与应用相关的各种逻辑分析和统计分 析。 多维性:提供对数据的多维视图和分析。
及时性:不论数据量有多大、数据存储在何处,应
能及时获得信息,并且管理海量信息。
2015-4-20 7
总部
总部
......
中国
美国
国家 地区
华北
华东
......
北京
保定
......
城市
商店
18
商店
2015-4-20
商店
......
1. 维(续)
维层次(hierarchy) 在一个维中可以有多种分类方法,把每种分类方法
叫做一个层次。
如:时间维的两个层次。 年 星期
季度
月 日
2015-4-20
时间 维表
时间ID
销售商ID
销售商 维度表
地址ID
地理位 置维表 2015-4-20
雪花模式的关系数据库表示
38
2. 雪花模型(续)
星形模型和雪花模型的主要区别是雪花模型中的维
表是规范化的。
维表不但易于维护,而且节省存储空间。 雪花模型在执行查询操作时需要进行较多的链接操 作,可能会影响系统的性能。
(“山东省”,“2009年第一季度”,“彩电”,“500万”)
2015-4-20
28
4.2.2 星形、雪花和事实群模型
常见的多维数据模型有: 星形模型
雪花模型
事实群模型
2015-4-20
29
1. 星形模型
星形模型是多维数据模型的基本结构,通常由一个 很大的中心表(事实表)和一组较小的表(维度表)
程度就称为不同的维层次。 如:销售地区维有分区、省、市,对于时间维有日、 月、季度。
2015-4-20
16
1. 维(续)
地区维的维成员之间的层次关系实例。
总部
中国
美国
......
华北
华东
......
北京
河北
......
商店
2015-4-20
商店
......
17
1. 维(续)
维层之间以及维层与成员的关系。
是以海量数据为基础的复杂分析技术。
支持各级管理决策人员从不同角度,快速灵活地对 数据仓库中的数据进行复杂查询和多维分析处理。
2015-4-20
3
4.1.1 OLAP的起源
最早由关系数据库之父E.F.Codd于1993年提出。 原因:E.F.Codd认为联机事务处理已经不能满足终
端用户对数据库数据进行查询、分析的需要。
常见的度量有:销售量、供应量、营业额等。
通常是具体数据值。
城市
北京 长沙 武汉 广州 上海 果汁 可乐 毛巾 浴巾 牛奶 2015-4-20
究竟想了解什么?
商品
1 2
3
4
21
日期
2. 度量(续)
2015-4-20
22
3. 数据立方体
多维数据模型构成的多维数据空间称作为数据立方 体(Data Cube,简记为cube)。
4.1.3 OLAP与OLTP的区别
OLAP与OLTP数据比较
OLTP数据 OLAP数据
原始数据
细节性数据 当前数据 可更新 一次处理的数据量小 面向应用,事务驱动 面向操作人员,支持日常操作
2015-4-20
导出数据
综合性或提炼性数据 历史数据 不可更新,但周期性追加和刷 新 一次处理的数据量大 面向分析,分析驱动 面向决策人员,支持管理需要
关系数据模型的核心概念是关系,基本操作是:选 择、投影、链接。
多维数据模型结构复杂,操作的种类也相对较多。
常用的多维分析操作有:切片、切块、旋转、下钻、 上卷等。
2015-4-20
42
4.3.1 多维分析基础:聚集
聚集是对细节数据进行综合的过程,是多维分析的 基础。
最常用的5种聚集函数:
2015-4-20
24
3. 数据立方体(续)
一个三维数据立方体(增加地区维)对应的2009年 商店销售额表
时间(季度) 山东省所有商店销售额 产品类型
彩电 冰箱 200万 300万 500万 100万 洗衣 机 240万 420万 250万 320万 家用电 器 1500万 2100万 1000万 1700万 彩电 500万 200万 240万 80万
OLAP是基于多维数据库和多维分析的。
2015-4-20
4
4.1.2 OLAP的定义
OLAP委员会给出的定义: 定义 1 : OLAP 是针对某个特定的主题进行联机数 据访问、处理和分析,通过直观的方式从多个维度、 多种数据综合程度将系统的运营情况展现给使用者。
定义 2 : OLAP 是使分析人员、管理人员和执行人
8
4.1.3 OLAP与OLTP的区别(续)
两者最终结果: OLAP通过逐层细化、切片、切块、数据旋转等操 作,采用非数据处理专业人员容易理解的形式(多 维报表、统计图形)展现结果。
OLTP 大多使用操作人员常用的固定表格方式显示
数据。
2015-4-20
9
4.1.4 OLAP核心技术
日期
4.2 多维数据模型
研究内容:主要研究多维数据的抽象表示问题。 采用方式:通常采用数据立方体的方式表示。
实现目标:允许管理决策人员对多维数据从不同的
角度进行快速、稳定和交互式的观察和存取。 存在三种模型:星形模型、雪花模型、事实群模型。
2015-4-20
11
4.2.1 基本概念
2015-4-20
39
3. 事实群模型
在某些复杂应用中,可能需要多个事实表来共享维
表,这种模型类似于星形模型的集合,被称之为星
系模型或事实群模型。 销售事实表和货运事实表共享时间维、产品维和地 区维举例。
2015-4-20
40
3. 事实群模型(续)
2015-4-20
41
4.3 多维分析操作
OLAP核心技术包括: 多维数据模型:是数据分析时用户的数据视图,是
面向分析的数据模型,用于给分析人员多种观察的
视角和面向分析的操作。 多维分析操作 多维查询及展示 数据立方体
商品 城市
北京 长沙 武汉 广州 上海 果汁 可乐 毛巾 浴巾 牛奶 1 2 3 4 10
...
2015-4-20
区维是指商店所在地区。假设数据仓库中有一张销 售表(如下图),只列出在时间T1、商品P1在济南
地区的商店( S 1 、 S 2 、 S 3 )的销售额,分别为:
(T1,S1,P1:100),(T1,S2,P1:78),(T1, S3,P1:97)
员能够从多角度对信息进行快速、一致、交互地存 取,从而获得对数据的更深入了解的一类软件技术。
2015-4-20 5
4.1.2 OLAP的定义(续)
OLAP基本功能: 能够对用户提出的各类复杂查询快速响应。
具备多维建模能力。
wenku.baidu.com
2015-4-20
6
4.1.2 OLAP的定义(续)
主要特点: 快速性:能在很短的时间内对用户的大部分分析要
组成。
产品 维表
时 间 维 表
事实 表
销售 商维 度表
......
2015-4-20
30
1. 星形模型(续)
2015-4-20
31
1. 星形模型(续)
2015-4-20
32
1. 星形模型(续)
产品维表
产品ID
产品ID 销售商ID 地址ID 时间ID 销售数量 销售成本 总收入
时间维 表
销 售 商 维度表
商品
类别
商品
1 2 3 4
省
市
月
日
14
日期
1. 维(续) 维成员
销售地区
华东
华中
西南
上海
江苏
湖北
河南
云南
四川
2015-4-20
一个具有2个层次的销售地区维上的取值
15
1. 维(续)
维层(level) 人们观察数据时,除了要从某一个角度去观察外,
还需要从不同的细节程度去观察,这些不同的细节
是从不同角度对同一数据进行观察得到的数据交点。
当观察的角度(参数)超过三个所构成的数据结果 集称为超立方体,也称为超维数据集。
2015-4-20
23
3. 数据立方体(续)
一个二维数据立方体对应的某地区商店销售额表
时间(季度) 彩电 第一季度 第二季度 第三季度 第四季度 500万 200万 240万 80万 冰箱 200万 300万 500万 100万 产品类型 洗衣机 240万 420万 250万 320万 家用电器 1500万 2100万 1000万 1700万
数据仓库与数据挖掘
Data Warehouse and Data Mining
五邑大学计算机学院
何国辉
2015-4-20
1
数据仓库与数据挖掘
Data Warehouse and Data Mining
第四章
2015-4-20
联机分析处理概述及模型
2
4.1 OLAP技术概述
OLAP技术是数据仓库中一项非常重要的分析技术, 是数据仓库技术的一个自然的延伸和继续。
多维数据模型是一个多维空间。 核心概念主要涉及:维、维成员、维层次、度量等。
2015-4-20
12
1. 维
维是人们观察数据的特定角度,是每个事物的属性。 如:在分析产品销售数据时,需要知道在什么时候?
什么地区?销售什么产品?就涉及到观察的时间、
地区、产品三个角度。 维是商业活动中的一个基本要素。 每个维都有一个唯一的名字,如:时间维、地区维、 产品维等。
27
4. 数据单元
在一个数据立方体中,当每个维上都确定了一个维 成员时,就会唯一地确定多维空间中的一个点,这 个点称之为数据单元(cell)。 表示为:
(维1 成员,维 2 成员, ... ,维n 成员,度量值 1 ,度量值2 ,... )
结合前面实例,如:“山东省”、“2009年第一季 度”、“彩电”时,销售额为500万,则表示为: