多维数据分析基础与方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
4. 维的级别(Dimension Level)
人们观察数据的某个特定角度(即某个维)还可 以存在不同的细节程度,我们称这些维度的不同 的细节程度为维的级别。 一个维往往具有多个级别. 例如描述时间维时,可以从月、季度、年等不同 级别来描述,那么月、季度、年等就是时间维的 级别。
7
5. 维度成员(Dimension Member)
28
SQL Server Analysis Services
Analysis Services提供了从数据仓库中 设计、构建及管理多维数据集的能力,同 时也可以让客户端取得OLAP数据。 我们从分析服务的特点、体系结构、存储 结构三个方面介绍分析服务。
29
1. 分析服务的特点
易用性; 灵活的数据存储模型; 伸缩性; 集成; 支持大量的API和函数; 分布式处理能力; 服务器端结构的高速缓存。
22
多维数据的存储方式
SQL Server 2005的Analysis 三种多维数据 存储方式: MOLAP(多维OLAP) ROLAP(关系OLAP) HOLAP(混合OLAP)
23
1.ROLAP
ROLAP的数据与计算结果直接由原来的关系数 据库取得,存储维度的数据以数据表形式存储在 OLAP服务器上。 ROLAP将支撑多维数据的原始数据、多维数据 集数据、汇总数据和维度数据都存储在现有的关 系数据库中,并用独立的关系表来存放聚集数据。 不存储源数据副本,占用的磁盘空间最少,但存 取速度也比较低。
3
1. 多维数据集(Cube)
多维数据集由于其多维的特性通常被形象 地称作立方体(Cube), 多维数据集是一个数据集合,通常从数据 仓库的子集构造,并组织和汇总成一个由 一组维度和度量值定义的多维结构。 SQL Server 2000中一个多维数据集最 多可包含128个维度和1024个度量值。
25
3.HOLAP
ROLAP与MOLAP存储方式的结合。 原始数据和ROLAP一样存储在原来的关系 数据库中,而聚合数据则以多维的形式存 储。 这样它既能与关系数据库建立连接,同时 又利用了多维数据库的性能优势。 缺点是在ROLAP和MOLAP系统之间的切 换会影响它的效率。
26
三种存储方式的比较
32
Analysis Services的服务器端体系结构
微软管理控制台(MMC)
管理器中的 分析部件 企业管理 器 Analysis Manager
用户部件
用户应用
对象模型(决策支持对 象,DSO)
元数据
Analysis 服务器
数据源
数据透视表服务
多维数据集 挖掘 模型
客户端应用
33
2.客户端体系结构
30
2.分析服务的体系结构
31
1.服务器端体系结构
Analysis Services 提供服务器功能以创建和管理 OLAP 多维数据集及数据挖掘模型,并通过透视表服务为 客户端提供数据。 服务器端操作通常包括: 从关系数据库,通常是数据仓库,创建并处理多维数据 集。 以多维结构、关系数据库或二者的结合形式存储多维数 据集数据。 从多维数据集或关系数据库创建数据挖掘模型,通常是 在数据仓库中创建。 以多维结构、关系数据库或标准化 XML 格式的预测模 型标记语言 (PMML) 的形式存储数据挖掘模型的数据。
沿着时间维上 卷,由“季度” 上升到半年
11
上卷(续)
上卷的另外一种情况是通过消除一个或多个维来 观察更加概况的数据。
消除“经济 性质”维度
12
2. 下钻(drill-down)
下钻是通过在维级别中下降或通过引入某个或某 些维来更细致的观察数据。
沿时间维 下钻
13
3. 切片(slice)
数据仓库与数据挖掘
信息管理教研室
多维数据分析基础与方法
多维数据分析基础 多维数据分析方法 维度表与事实表的连接 多维数据的存储方式 常用的服务器端分析工具 常用的客户端分析工具 各种工具的准备和安装 小结
2
多维数据分析基础
多维数据分析是以数据库或数据仓库为基础的, 其最终数据来源与OLTP一样均来自底层的数据 库系统,但两者面对的用户不同,数据的特点与 处理也不同。 多维数据分析与OLTP是两类不同的应用, OLTP面对的是操作人员和低层管理人员,多维 数据分析面对的是决策人员和高层管理人员。 OLTP是对基本数据的查询和增删改操作,它以 数据库为基础,而多维数据分析更适合以数据仓 库为基础的数据分析处理。
维的一个取值称为该维的一个维度成员(简称维 成员)。 如果一个维是多级别的,那么该维的维度成员是 在不同维级别的取值的组合。 例如,考虑时间维具有日、月、年这3个级别, 分别在日、月、年上各取一个值组合起来,就得 到了时间维的一个维成员,即“某年某月某日”。
8
多维数据集示例
9
多维数据分析方法
客户端体系结构的核心是数据透视表服务 (PivotTable Service)。 它与Analysis服务器交互,并为访问服务 器端的OLAP数据的客户端应用提供基于 COM的接口。
34
Analysis Services 客户端的体系结构
当不能连接到 OLAP服务器时可以使用
当不能连接到 OLAP服务器或者OLEDB 数据源时可以使用
在给定的数据立方体的一个维上进行的选择操作。 切片的结果是得到了一个二维的平面数据。
“时间=1 季度”
14
3. 切块(dice)
在给定的数据立方体的两个或多个维上进行的选 择操作。切块的结果是得到了一个子立方体。
(度量值=“正常” or “次级”) And (时间=“1 季度” or “2季 度”)
20
雪花型架构示意图
事实数据表
时间 书籍_id 出版社_id 书店_id
订购数量 书籍单价 书籍折扣 销售表
书籍 _id
书籍名 书籍类型 书籍出版日 作者_id 书籍维度表
作者 _id
作者名 性别 教育程度 作者维度表
21
3.星型雪花架构(Star-Snow Schema)
将星型架构和雪花式架构合并在一起使用,而成 为星型雪花架构。
36
IBM DB2 OLAP Server
是IBM公司提供的一个用于构建多维数据分析功 能的软件, 提供了丰富的财务、数学和统计功能以及计算功 能, 可以对数据进行快速、直接的分析, 支持Web平台。 支持访问企业范围内的信息,可实现快速应用程 序开发和数据建模, 支持多用户的并发操作,并支持第三方分析工具, 以实现集成的开放式商业智能解决方案。
多维分析可以对以多维形式组织起来的数 据进行上卷、下钻、切片、切块、旋转等 各种分析操作,以便剖析数据,使分析者、 决策者能从多个角度、多个侧面观察数据 库中的数据,从而深入了解包含在数据中 的信息和内涵。
10
1. 上卷(Roll-Up)
上卷是在数据立方体中执行聚集操作,通过在维 级别中上升或通过消除某个或某些维来观察更概 括的数据。
5
3. 维度(Dimension)
维度(也简称为维)是人们观察数据的角度。 例如,企业常常关心产品销售数据随时间的变化 情况,这是从时间的角度来观察产品的销售,因 此时间就是一个维(时间维)。 例如,银行会给不同经济性质的企业贷款,比如 国有、集体等,若通过企业性质的角度来分析贷 款数据,那么经济性质也就成为了一个维度。 包含维度信息的表是维度表,维度表包含描述事 实数据表中的事实记录的特性。
39
2.快速开发应用程序
DB2 OLAP Server只需要最基本的编程经验, 就可以方便、快捷地设计和管理应用程序。 Application Manager(应用程序管理器)是 一种直观的数据模型生成程序,使用它可以创建 驻留在OLAP服务器上的商业数据的准确模型。 利用Essbase应用程序编程接口(API),可以 为DB2 OLAP服务器开发定制应用程序,满足 复杂的分析需求。
4
2. 度量值(Measure)
度量值是决策者所关心的具有实际意义的数值。 例如,销售量、库存量、银行贷款金额等。 度量值所在的表称为事实数据表,事实数据表中 存放的事实数据通常包含大量的数据行。 事实数据表的主要特点是包含数值数据(事实), 而这些数值数据可以统计汇总以提供有关单位运 作历史的信息。 度量值是所分析的多维数据集的核心,它是最终 用户浏览多维数据集时重点查看的数值数据。
24
2.MOLAP
MOLAP使用多维数组存储数据,它是一种高性 能的多维数据存储格式。 多维数据在存储中将形成“立方体”的结构。 MOLAP存储模式将数据与计算结果都存储在立 方体结构中,并存储在分析服务器上。 该结构在处理维度时创建。 存取速度最快,查询性能最好,但占用磁盘空间 较多。
OLAP立方的 OLE DB 数据源
客户端应用
带OLAP和数据挖掘支持 的OLE DB 多维数据 文件
MOLAP
数据透视表服务 带OLAP扩展的ADO
多维数据
数据挖掘模 型的数据源
客户端应用
本地数据挖 掘模型
Analysis 服务器
35
数据透视表服务的功能
为所有客户端应用程序进行在线和离线分析提供统一的与 OLAP服务器的连接点。 作为服务提供支持使用关系型数据库创建的多维数据,实 现多维数据展示功能。 支持SQL子集,并能将查询结果以数据透视表的形式显 示出来。 支持MDX(多维表达式)。 支持在客户端直接从关系型数据源中创建本地多维数据。 支持客户端从存放在分析服务器上的数据挖掘模型建立本 地的数据挖掘模型。 支持用户从数据源下载数据,并以多维结构保存在本地, 以便进行离线分析。
15
5.转轴(pivot or rotate)
转轴就是改变维的方向。
交换“时 间”和 “经济性 质”轴
16
维度表与事实表的连接
维度表和事实表相互独立,又互相关联并 构成一个统一的架构。 构建多维数据集时常用的架构: 星型架构 雪花型架构 星型雪花架构 在SQL Server 2005中,这些架构的中 心都是一个事实数据表。
37
IBM DB2 OLAP Server的特点
综合分析功能 快速开发应用程序 灵活的数据存储 最快的响应速度 支பைடு நூலகம்Web 可管理的OLAP环境
38
1.综合分析功能
提供了100多种内置的财务、统计和数学 计算功能,可进行复杂的趋势分析,可创 建比率和分配情况。 支持多个用户同时存取和更新数据,提供 了安全控制措施以保证数据的安全性和完 整性。
事实数据表
时间 书籍_id 出版社_id 书店_id
订购数量 书籍单价 书籍折扣 销售表
书籍 _id
书籍名 书籍类型 书籍出版日 作者_id 书籍维度表
出版社_id
出版社名 国家
城市
书店 _id
书店名 书店地址 业绩维度表
出版社维度表
19
2.雪花型架构 (Snow Schema)
某个维度表不与事实表直接关联,而是与 另一个维表关联。 可以进一步细化查看数据的粒度。 维度表和与其相关联的其他维度表也是靠 外码关联的。 也以事实数据表为核心。
时间
年 季度 月 时间维度表
事实数据表
时间 书籍_id 出版社_id 书店_id
订购数量 书籍单价 书籍折扣 销售表
书籍 _id
书籍名 书籍类型 书籍出版日 作者_id 书籍维度表
作者 _id
作者名 性别 教育程度 作者维度表
出版社_id
出版社名 国家
城市
书店 _id
书店名 书店地址 业绩维度表
出版社维度表
内容
源数据的副本 占用分析服务器存 储空间 使用多维数据集 数据查询 聚合数据的查询
MOLAP ROLAP HOLAP
有 大 无 小 无 小
小
快 快
较大
慢 慢
大
慢 快
使用查询频度
经常
27
不经常
经常
常用的服务器端分析工具
可以用作多维数据分析的服务器端工具很 多,其中常用的、功能比较强大的有: Microsoft公司的SQL Server Analysis Services(SQL Server分 析服务); IBM公司的DB2 OLAP Server (OLAP服务器)。
17
1. 星型架构
维度表只与事实表关联,维度表彼此之间 没有任何联系, 每个维度表中的主码都只能是单列的,同 时该主码被放置在事实数据表中,作为事 实数据表与维表连接的外码。 星型架构是以事实表为核心,其他的维度 表围绕这个核心表呈星型状分布。
18
星型架构示意图
时间
年 季度 月 时间维度表