olap(在线分析处理)
数据挖掘 填空题
1.知识发现是一个完整的数据分析过程,主要包括以下几个步骤:确定知识发现的目标、数据采集、数据探索、数据预处理、__数据挖掘_、模式评估。
2._特征性描述_是指从某类对象关联的数据中提取这类对象的共同特征(属性)。
3.回归与分类的区别在于:___回归__可用于预测连续的目标变量,___分类__可用于预测离散的目标变量。
4.__数据仓库_是面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,与传统数据库面向应用相对应。
5.Pandas的两种核心数据结构是:__Series__和__DataFrame__。
6.我们可以将机器学习处理的问题分为两大类:监督学习和_无监督学习__。
7.通常,在训练有监督的学习的机器学习模型的时候,会将数据划分为__训练集__和__测试集__,划分比例一般为0.75:0.25。
1.分类问题的基本流程可以分为__训练__和__预测_两个阶段。
2.构建一个机器学习框架的基本步骤:数据的加载、选择模型、模型的训练、__模型的预测_、模型的评测、模型的保存。
3.__回归分析_是确定两种或两种以上变量间相互依赖关系的一种统计分析方法,是应用及其广泛的数据分析方法之一。
4.在机器学习的过程中,我们将原始数据划分为训练集、验证集、测试集之后,可用的数据将会大大地减少。
为了解决这个问题,我们提出了__交叉验证_这样的解决办法。
5.当机器学习把训练样本学得“太好”的时候,可能已经把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质,这样会导致泛化性能下降。
这种现象在机器学习中称为__过拟合__。
6.常用的降维算法有__主成分分析__、___因子分析__和独立成分分析。
7.关联规则的挖掘过程主要包含两个阶段__发现频繁项集_和__产生关联规则__。
1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])3、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法6、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种7、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)8、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等9、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数) 10、OLAP的中文意思是指( 在线分析处理)1、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种2、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)5、OLAP的中文意思是指( 在线分析处理)6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)9、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)1、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等2、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)3、OLAP的中文意思是指( 在线分析处理)4、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])5、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)6、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)7、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])3、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)9、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类3、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法4、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)5、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数) 6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]]) 2、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'], 'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)3、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种4、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等5、OLAP的中文意思是指( 在线分析处理)6、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)7、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类2、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法3、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种4、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等5、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])6、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)7、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'], 'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)5、OLAP的中文意思是指( 在线分析处理)6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)9、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)10、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤。
在线分析处理_1
数据切片
如果存在一个(时间,城市,产品,价格)的数据立方体,其中时 间、城市、产品是3个维度,价格是度量变量。在城市维上取定“上 海”、“广州”, 则分别形成两个在城市维上的数据切片,分别显示 的是上海和广州各年各种产品的价格情况。 再如,在产品维中取定“电视机”、“电冰箱”,则分别生成两个 在产品维上的数据切片,显示的是各个城市各年份电视机和电冰箱的 价格情况。
© Copyright CDC Software 7
OLAP的12准则 OLAP的12准则
5. 客户/服务器体系结构 OLAP建立在客户/服务器的结构下,服务器端负责数据抽 取、数据存取、数据管理等复杂的功能,客户侧实现较为简单的 应用逻辑和用户界面。这种客户/服务器的结构有利于功能的合 理分担。服务器计算能力强,用于处理复杂的功能;客户端计算 能力相对较差,用于实现简单的功能。 近年来,两层客户/服务器结构发展成了客户/中间层/服 务器的三层结构。在中间层实现应用逻辑,而在客户端只实现界 面功能,三层结构使得功能得到更进一步的划分。由于应用逻辑 变化比较频繁,将应用逻辑单独分离出来,在应用逻辑发生变化 的时候,只需修改中间层软件而服务器和客户侧的软件几乎不需 要修改。
维:是人们观察数据的特定角 度,是考虑问题时的一类属性 (时间维、地理维等)。 维的层次:人们观察数据的某 个特定角度(即某个维)还可以 存在细节程度不同的各个描述 方面(时间维:日期、月份、季 度、年)。 维的成员:维的一个取值。是 数据项在某维中位置的描述。 (“某年某月某日”是在时间维 上位置的描述) 多维数组:维和变量的组合表 示。一个多维数组可以表示为: (维1,维2,…,维n,变量)。 (时间,地区,产品,销售额) 数据单元(单元格):多维数组 的取值。(2000年1月,上海, 笔记本电脑,$100000)
商务智能(第5版)课件第4章 在线分析处理
web文档的 OLAP 分析 读者一般从多个方面查询 web文档:文档的作者、主题、标题、日期、大小、作者单位和出版社等,对应 web文档立方的维。可以对文档立方进行各种多维分析,如切片、切块、旋转以及钻取等操作,从多个角度分析文档。例如,从中可以得到中国哪所大学在过去几年的视频会议领域发表了最多的论文。
OLAP 简介 基本概念(2)
维的层次:一个维往往可以具有多个层次,例如时间维分为年、季度、月和日等层次,地区维可以分为国家、地区、省、市等层次。这里的层次表示数据细化程度,对应概念分层。后面提到的上钻操作就是由低层概念映射到较高层概念。概念分层除了根据概念的全序和偏序关系确定外,还可以通过对数据进行离散化或分组来实现。维的成员:维是多层次的,不同层次的取值构成一个维成员,例如,"某年某季度"、"某季度某月"等都可以是时间维的成员。
OLAP操作 钻取
上钻:上钻又称上卷 roll-up,上钻操作是指通过一个维的概念分层向上攀升或者通过维归约在数据立方体上进行数据汇总。例如,在服装购买顾客调查中,可以按月收人分段汇总数据,把较低、中档与较高归约为"有收人",便可以得到沿月收人维上钻的数据汇总;也可以按年龄分段汇总数据,把16岁以下与16~20岁归约为"青少年",21~25岁、26~30岁与 31~35岁归约为"青年",36~40岁与40岁以上归约为"中老年",从而得到沿年龄段维上钻的数据汇总视图。
OLAP 简介 基本概念
多维数组:多维数组用维和度量的组合表示一个多维数组,可以表示为(维1 ,维2,…,维n ,度量),例如(月份,地区,产品,销售额)组成一个多维数组。数据单元(单元格):多维数组的取值。当多维数组中每个维都有确定的取值时,就唯一确定一个变量的值。数据单元可以表示为(维1成员,维2成员,……,维n 成员,度量值),例如(2007年第一季度,大中华区,LCD,560万台)表示一个数据单元:2007 年第一季度大中华区 LCD产品销售560万台。
四大OLAP工具选型浅析
OLAP(在线分析处理)这个名词是在1993年由E.F.Codd提出来的,不过,目前市场上的主流产品几乎都是在1993年之前就已出来,有的甚至已有三十多年的历史了.OLAP产品不少,本文将主要涉及Cognos(Powerplay)、Hyperion (Essbase)、微软(Analysis Service)以及MicroStrategy几大厂商的产品.快枪手VS 多面手单纯从成本角度考虑,微软的产品算是最能节省成本的,Cognos和MicroStrategy则在同一水平线,都比微软贵一些.而Hyperion (Essbase)产品比较独立,也曾占有美国OLAP市场最大的份额,其产品价格又要更高一些.从市场份额来看,就国外的市场报告分析,微软、Cognos、Hyerion三家占据主流.在国内,目前还没有权威的市场报告,如果仅从所接触到的项目来看的话,用Cognos的很多,买Essbase的也不少.这些年都是一些大企业建设BI项目,有足够的预算,多选用Cognos、Essbase;而Microstrategy,进入中国不算早,这几年在政府、金融行业也颇有建树.若论开发应用,微软的产品向来以友好的用户界面著称,上手迅速.在OLAP产品上,微软依然发扬了这一优良传统,并有进一步标准化的趋势,开发了OLE DB for OLAP以及MDX(Multi-Dimensional Express多维表达式);参与XMLA(XML for Analysis)规范制定,也是想作为OLAP服务器和前端分析应用的数据传输标准.而Cognos以桌面OLAP开始,一直以轻便、快捷的操作闻名.所谓桌面OLAP,是可以用客户端将cube下载到本地进行访问.虽然Poweplay早已演变成C/S结构的OLAP服务器,但其轻便的特点还是延续下来,而且提供可以简洁部署且具有交互性的PowerPlay Web Explorer界面.从互联网上,我们可以很快搜索出许多基于PowerPlay Web的分析应用.Essbase作为老牌的OLAP服务器,是一个比较复杂的产品.所谓复杂,有两层意思,一是提供了丰富的API,让你可以充分定制开发;二是开发的难度较大,部署起来不容易.这也是国内很多用户难以将这个产品用好的一大原因.比较Essbase和Powerplay,会发现截然相反的两个特点:Essbase的复杂和Powerplay的简洁.对于这两者,单独说哪一种更好都不够客观,因为当你抱怨Essbase繁杂的接口时,也有人在抱怨Powerplay的定制功能怎么如此之少.这种情形其实跟这两种产品的定位有关,Essbase比较专注于高性能的多维存储服务,而Powerplay则更专注于快捷的多维访问.换句话讲,Essbase之于Powerplay正像专业相机之于傻瓜相机,在选哪一个更好的问题上,不同的人肯定有不一样的答案.当然,如果你想在找复杂和简洁之间找一个中间者,我想微软的Analysis Service就是这样的产品.不过要注意的是,这个产品和SQL Server绑定得比较紧,这是微软的一贯策略.百花争艳VS 一支独秀根据多维数据存储的位置,OLAP一般分为MOLAP(Multi-Dimensional OLAP)和ROLAP(Relational OLAP)两种,此外,还有混合的HOLAP(Hybrid OLAP).其中,Cognos的Powerplay、Hyperion 的Essbase和微软的Analysis Service这些产品都是MOLAP产品..这类产品将数据从关系数据库(甚至是文本文件、Excel文件)中抽取出来,存储在自己的数据库中.这种数据库跟平常我们所见的Oracle、DB2这类关系数据库不同之处在于,它是专有格式的,且没有标准的访问接口.因此,这些产品如何实现多维存储也都不尽相同,大致的原理是以编程语言中多维数组的方式存放数据.度量值存放在数组的单元格中,而数组每个维就对应一个维度,其中,维元素就维的坐标.可以想象,多维数据库的单元格跟维度、维元素的多少有莫大关系,而随着维度增加,数据库也迅速膨胀.因此,对于MLOAP产品,多维存储的存储空间、性能自然是比较关键的.Essbase在这方面提供很多优化工作,但有时候也会显得过于复杂.Powerplay也提供某些选项,诸如cube分区等,这是比较简单的优化方法.OLAP产品的核心功能是提供多维存储,另外就是能够将OLAP访问操作转换为对数据的请求并返回,这些OLAP访问操作大多是用户通过前端发出的,因此要考虑OLAP产品能够和哪些前端工具对接.Cognos Powerplay是个相对封闭的产品,它有自己的客户端和Web Explorer,你也甭想着用其他前端来访问它.Hyperion和微软都采用开放式接口,提供丰富的访问API,第三方可以用这些API访问其数据库.上文曾提到微软开发的MDX和参与的XMLA(XML for Analysis)规范,事实上,一些第三方的前端工具正是基于这样的标准和OLAP产品对接,比如可以用BO WebI连接Essbase.更有甚者,微软的服务器还提供用MDX来查询多维数据,就像用SQL来访问关系数据库一样.诚然,这看起来的确比较酷,但有一点也要明确:目前虽然有XMLA、MDX这样的标准,但还不是非常成熟,且并非唯一标准.所以即使有第三方前端工具访问这些OLAP服务器,但只能说是多了一些选择,真正在前端功能上,并不能保证比封闭结构更丰富.如果说OLAP产品市场几乎都被MOLAP占领,那么,有一家公司肯定不同意,那就是MicroStrategy,它几乎是目前唯一一家还占据一定市场份额的ROLAP产品.这是一件非常奇怪的事情,从第一个ROLAP产品Metaphor到Metacube、WhiteLight、MicroStrategy,这些独立的ROLAP厂商似乎都是难以生存下去,只有MicroStrategy坚挺到现在.究竟是它的产品厉害,还是市场做得到位?目前还不得而知.从原理上讲,ROLAP将数据存放在关系数据库中,当然要求关系模型要非常严格,比如要遵循星型模式或雪花模式,才能定义出维度、度量、事实表、聚集表等元数据.但这样就增加了部署的难度,并且如果聚集表构建得不好,最后的访问性能就难以保证.恐怕这也是ROLAP难以生存下去的原因吧.目前,很多OLAP产品都会混合MOLAP和ROLAP,特别是那些本身就做关系数据库的厂商,在现有数据库上面增加一些ROLAP 的特性并不困难.IBM在与Essbase终止OEM合同之后,推出一个名为CubeViews的产品,就可以说是一个ROLAP产品.虽然国内市场上已经涌现出这么多产品,但实际上,OLAP并没有被广泛接受,即使在已经建设BI系统好几年的电信行业也是如此.OLAP提供了一套系统的方法,将维度、度量、层次、切片、钻取概念化,但在前几年,原始的cube被直接推送给市场人员、领导,复杂的界面(对于领导来说,那已经够复杂了)让这种应用难以得到推广.为此,OLAP产品的定位无疑还需要进一步明确.。
OLAP分析
14
多维数据分析视图
对于更多维度的数据显示,需要选择维度及其成员分布在行或者列中。 在页面上可选定多个维度,但每个维度只能显示一个成员。在行或者列 中一般只选择二个维,每个维可以多个成员。例如对6维度数据,其 MTS如下图所示。 六维MTS例
鞋
鞋 鞋 鞋 …
上海
广州 广州 广州 …
3月
1月 2月 3月 …
400
150 250 300 …
11
多维类型结构(MTS)
表示方法是:每一个维度用一条线段来表示。维度中的每 一个成员都用线段上的一个单位区间来表示。
例如,用三个线段分别表示时间、产品和指标三个维的多维类型结构 如图所示。
三维MTS例
06 年 60 230 210
05 年 80 110 210
06 年 50 250 280
05 年 100 270 310
06 年 50 330 270
05 年 50 200 320
06 年 40 220
维的层次关系图
全国
江苏
北京
上海
苏州市
扬州市
宝应县
6
OLAP 概念
维的层次与类组合图
产品维
产品产地类
产品销地类
产品用途类
产品大类
产品小类
7
OLAP 数据显示与分析
8
多维数据显示
多维数据显示方法 多维类型结构(MTS) 多维数据分析视图
OLAP和DM的区别和联系
OLAP和DM的区别和联系1.基本概念OLAP(Online Analysis Processing):在线分析处理。
侧重于对信息的分析,通常涉及对信息的切分、多维化、前推和回溯,以及回答what-if问题。
更与中高管理层的业务范围相关,并更集中于对企业管理决策的支持。
常见的分析处理应用如多维视图、预测、敏感性分析、成本控制等。
同时,在线处理往往需要较强大的软、硬件及复杂的分析方法与工具的支持。
DM:2.区别和联系所谓OLAP(Online Analytical Process)意指由数据库所连结出来的在线分析处理程序。
有些人会说:我已经有OLAP的工具了,所以我不需要Data Mining。
事实上两者间是截然不同的,主要差异在于Data Mining用在产生假设,OLAP 则用于查证假设。
简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而Data Mining则是用来帮助使用者产生假设。
所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但Data Mining是用工具在帮助做探索。
举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但Data Mining则不然,执行Data Mining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。
Data Mining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以Data Mining此种自动找出甚至不会被怀疑过的数据模型与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP可以和Data Mining互补,但这项特性是Data Mining无法被OLAP取代的。
OLAP讲义
大量时间整理数据, 而没有时间利用数据
数据源多,一致性差
平时数据缺失, 开会时数据海洋
部门间信息“壁减或失真 如何从数据到信息?
传递渠道长,时效性差
企业要实现的目标
系统结构
OLAP发展背景
60年代,关系数据库之父E.F.Codd提出了关系模型,促进 了联机事务处理(OLTP)的发展(数据以表格的形式而非文 件方式存储)。 1993年,E.F.Codd提出了OLAP概念,认为:
OLAP准则
1993年,E.F.Codd在《Providing OLAP to User Analysis》 中提出OLAP的12条准则来描述OLAP系统:
准则1 OLAP模型必须提供多维概念视图 准则2 透明性准则 准则3 存取能力准则 准则4 稳定的报表能力 准则5 客户/服务器体系结构 准则6 维的等同性准则 准则7 动态的稀疏矩阵处理准则 准则8 多用户支持能力准则 准则9 非受限的跨维操作 准则10 直观的数据操纵 准则11 灵活的报表生成 准则12 不受限的维与聚集层次
OLAP决策分析
OLAP分析属于验证驱动型发现:用户首先提出自己的假设 ,然后利用OLAP工具检索查询以验证或否定假设。 OLAP技术主要有两个特点: 在线(On-Line):表现为对用户请求的快速响应和交互操 作,它的实现是由客户机/服务器体系结构完成的; 多维分析(Multi-Analysis):这也是OLAP技术的核心所 在。
例:电信公司中典型的分析型处理: 1.客户分类及通话特点分析 2.营销策略效果分析。
联机分析处理
分析型处理的特点
与事务型处理相比,分析型处理的特点:
a) b) 范围广,涉及的问题多。 不确定性大。
什么是联机分析处理(OLAP)
OS Java CORBA COM+ Middleware XML&WebService Patterns ONE&NET P2P Development Database Download Doc什么是联机分析处理(OLAP )(转载自北大高科网站,/)联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd 于1993年提出的,他同时提出了关于OLAP 的12条准则。
OLAP 的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP (on-line transaction processing )、联机分析处理OLAP (On-Line Analytical Processing )。
OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP 与OLAP 之间的比较。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through 等。
OLAP与OLTP系统的特点与区别
OLAP与OLTP系统的特点与区别在当今互联网时代,数据处理成为各种企业以及组织中不可或缺的重要部分。
随着数据的不断积累和增长,面临着对数据进行分析和处理的需求日益迫切。
OLAP(联机分析处理)和OLTP(联机事务处理)系统是常用的数据处理系统,它们在数据处理的不同阶段起着重要的作用。
本文将重点讨论OLAP和OLTP系统的特点和区别。
OLAP系统是一种用于进行多维分析的数据处理系统。
它主要用于对大规模数据集进行查询和分析,以便从多个维度来研究数据。
OLAP系统适用于环境中需要进行复杂多维度分析的场景,例如市场营销、销售预测、业绩评估等。
OLAP系统具有以下几个特点:1. 多维数据分析:OLAP系统可以通过各种维度对数据进行切片和切块,从而进行多维度的数据分析。
用户可以对数据进行透视、钻取和分组操作,以获取细致的数据视图。
2. 超大规模数据处理:OLAP系统能够处理海量的数据,支持从亿级到万亿级的数据规模。
这使得它成为对大数据进行高效处理和分析的理想选择。
3. 快速查询和响应:OLAP系统具有高速查询和响应能力。
它使用了预计算和预聚合技术,将数据预先计算并存储到多维数据库中,从而加快了查询速度和响应时间。
相比之下,OLTP系统主要用于处理和管理日常事务性操作数据,如订单处理、库存管理等。
它具有以下特点:1. 精确和实时的数据处理:OLTP系统对数据的准确性和实时性要求较高,因此它通常处理实时产生的数据。
它需要快速地执行大量的事务,并确保数据的一致性和可靠性。
2. 事务处理:OLTP系统采用了并发控制和锁机制,以确保多个事务的一致性和隔离性。
它支持事务的原子性、一致性、隔离性和持久性特性。
3. 高并发处理能力:OLTP系统通常需要处理大量同时发生的事务。
它使用精细的并发控制和事务管理技术,以支持多用户同时对数据库进行访问和操作。
OLAP和OLTP系统之间的区别主要体现在以下几个方面:1. 数据库设计架构:OLAP系统使用多维数据结构,通常采用星型或雪花型的数据模型,而OLTP系统通常使用关系数据库模型。
OLAP分析及应用案例分析
云端OLAP服务将采用按需付费的计费模式 ,用户只需为自己的实际使用量付费,降低 数据分析成本。
感谢您的观看
THANKS
03
选和查看所需的数据。
旋转与转置
旋转是指改变数据立方体的维度顺序,以便从不同的角度查看数据。 转置是指将数据立方体中的行和列进行交换,以便更好地适应不同的分析需求。
旋转和转置可以帮助用户更好地理解和组织数据,使其更符合特定的分析需求。
钻取
1
钻取是指深入探索数据立方体中的细节信息,从 宏观到微观逐步查看数据的层次结构。
SAP BO
简介
SAP BO(BusinessObjects)是SAP公司开发的一款商业智能工具, 提供数据查询、报表制作和数据分析功能。
特点
集成性、可靠性、安全性。
应用场景
适用于使用SAP系统的企业,帮助用户进行数据分析和可视化呈现, 支持多平台和移动设备访问。
04
OLAP应用案例分析
电商销售数据分析
广泛应用于各行业,如金融、市场营销、销售等,用于数据分析 和可视化呈现。
QlikView
01
02
03
简介
QlikView 是一款内存内 分析工具,支持实时数据 分析和快速查询。
特点
高性能、灵活性、可扩展 性。
应用场景
适用于需要处理大量数据 的企业,如零售、物流和 制造业,用于数据挖掘和 商业智能应用。
通过多维数据分析,可以更全面地了 解数据的各个方面,从而更好地支持 决策制定和业务分析。
切片与切块
01
切片是指从数据立方体中选择某一维度的数据,以查看该维度 下的数据分布情况。
02
切块是指同时选择多个维度的数据,以查看这些维度之间的数
第四章联机分析处理精选全文完整版
4.1 从OLTP到OLAP
4.1.1 OLAP的出现 4.1.2 什么是OLAP 4.1.3 OLTP和OLAP的关系及比较
4.1.1 OLAP的出现
1970年,E.F.Codd博士提出了关系数据模型,1979年Oracle发布了关系数据库管理系统 OLTP推动了业务处理自动化,积累了大量的数据
基本概念(续)
数据单元(单元格) 多维数组的取值称为数据单元 (维1维成员,维2维成员 ,···,维n维成员,变量的值) 数据单元:(北京,1997年1月,批发,10000)
基本概念(续)
多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵
: :
多维分析的基本分析动作
图6-3: 旋转
地区维
时间维
产品维
产品维
时间维
地区维
旋转以改变 页面显示
(c)
OLAP的多维数据的位置: 1. 作为数据仓库的一部分 2. 作为数据仓库工具层的一部分
第四章 在线分析处理OLAP
联机分析处理(OLAP)
4.1 从OLTP到OLAP 4.2 OLAP的特征及衡量标准 4.3 OLAP实施 4.4 基于多维数据库的OLAP实现 4.5 基于关系数据库的OLAP实现 4.6 两种技术间的比较
联机分析处理(OLAP)
决策支持中的典型问题: 东部地区和西部地区今年6月份和去年6月份在销售总额上的对比情况,并且销售额按10万-20万、20万-30万、30万-40万,以及40万以上分组 特点: 多角度 多层次 访问大量数据 快速回答
什么是OLAP
什么是OLAP联机分析(OLAP)是由关系数据库之父E.F.Codd于1993年提出的一种数据动态分析模型,它允许以一种称为多维数据集的多维结构访问来自商业数据源的经过聚合和组织整理的数据。
以此为标准,OLAP作为单独的一类产品同联机事务处理(OLTP)得以明显区分。
有点深奥是不是?其实并不复杂,OLAP最基本的概念其实只有三个:多维观察、数据钻取、CUBE运算。
从动态的多维角度分析数据我们在平时工作中,会遇到各种问题,在分析问题的时候,同样的现象,我们会从多个角度去分析考虑,并且有时候我们还会从几个角度综合起来进行分析。
这就是OLAP分析最基本的概念:从多个观察角度的灵活组合来观察数据,从而发现数据内在规律。
OLAP将数据分为两种特征,一种为表现特征,比如一个销售分析模型中的销售额、毛利等;还有一种为角度特征,比如销售分析中的时间周期、产品类型、销售模式、销售区域等。
前者是被观察的对象,OLAP术语称之为“度量数据”,后者为观察视角,OLAP术语称之为“维数据”。
如果建立这样一个模型,我们就可以根据业务需求,从产品类型角度去观察各个销售地区的销售额数据(以产品类型和销售地区为维、以销售额为度量);或者我们还可以从销售模式的角度去观察各个销售地区的销售额数据(以销售模式和销售地区为维、以销售额为度量)。
对数据进行钻取,以获得更为精确的信息在分析过程中,我们可能需要在现有数据基础上,将数据进一步细化,以获得更为精确的认识。
这就是OLAP中数据钻取的概念。
比如,在销售分析中,当我们以产品类型和销售地区为维、以销售额为度量进行分析的时候,可能希望进一步观察某类产品的不同销售模式在各个销售地区的表现,这时我们就可以在产品大类这个数据维下面,再加上一个销售模式维,从而获得相应的信息。
创建数据CUBE那么,要满足上述运算,需要什么样的前提呢?我们可以想像,和报表不同,OLAP分析所需的原始数据量是非常庞大的。
OLAP
问、处理和分析,通过直观的方式从多个维度、 多种数据综合程度将系统的运营情况展现给使 用者。
OLTP与OLAP
随着数据库系统广泛应用,数据库系统记录和
处理的数据越来越多,及时地记录和处理企业 的各种业务数据,这些系统成为联机事务处理 (OLTP)系统。数据库技术的广泛应用和技术的 发展,人们已经不再满足于仅仅用数据库系统 来记录企业的业务活动数据和对数据的简单处 理,人们需要对企业业务活动的数据进行各种 分析,以便发现企业业务趋势,这些系统称为 联机分析处理(OLAP)系统。
维度
维的层次
人们观察数据的某个特定角度(即某个维)
还可以存在细节程度不同的多个描述方面, 我们称这个描述方面为维的层次。 一个维往往具有多个层次,例如:
描述时间维时,可以从日期、月份、季度、年等 不同层次来描述,那么日期、月份、季度、年等 就是时间维的层次; 同样,城市、地区、国家就构成了一个地理维的 多个层次。
ROLAP与MOLAP比较(续)
MOLAP的查询速度比较快,但有下面限制: 用多维数组实现多维实视图,需要很大的存储空间。在实际的数
据仓库中,每维的属性值个数可能数万。例如几万种产品、几万 个连锁店等。而实际的维数可能多达几十乃至几百。耗费的存储 空间相当可观,由此带来加载、维护等问题。 在多维数组中,很可能有些单元是空白的,如节假日商店不营业; 某些产品在某些地区不销售等。 MOLAP与关系数据库系统从存储结构到查询语言都有相当大的差别, 不可能在RDBMS的基础上实现。
MOLAP
4 4.3
OLAP分类 MOLAP
ROLAP与MOLAP比较
在MOLAP中,不但把多维实视图在概念上看成一个超立方
体,而且在物理上把多维实视图组成一个多维数组,而不 象ROLAP以表的形式存储实视图。 在MOLAP中,维的属性值被映射成多维数组的下标值或下 标的范围,而总数据作为多维数组的值存储在数据的单元 中。 ROLAP在节省存储空间、灵活性、与关系数据库保持一致 性等方面有明显的优势; MOLAP则在性能和管理的简便 性方面有其优点。
微软 OLAP的定义与配置
Deploy an AS Project
expand the SQL queries
Browse the cube
Browse Dimension
Browse Cube
OLAP Cube Design
Modify Measures
FormatString Rename measure names
广义的定义与一些早期术语基本相同,例 如:决策支持、商业智能、执行信息系统
OLAP = 多维数据库
OLAP的基本概念--维度和度量
二维到多维
度量
维度
层次
•Analysis Server Cube存储
MOLAP Storage Mode
Details and Aggregations Stored in Multidimensional Format Fastest Storage Option for Queries Often the Most Efficient in Terms of Disk Storage, Due to Compression
关系模型与OLAP的集成 主动缓冲技术
将 MOLAP 的最好方面引入 ROLAP KPIs, MDX 脚本, 转换, 通货…
高级商业智能
Web服务
本地化的XML/A,
关系与 OLAP之间的桥梁
分析服务 –
可扩展的,高性能的UDM服务器
数据源 工具
OLAP Browser (1) OLAP Browser (2) Reporting Tool (1) Reporting Tool (1) BI Applications
OLAP数据库
OLAP数据库OLAP百家争鸣OLAP简介OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策⽀持系统,就是我们说的数据仓库。
与此相对的是OLTP(on-line transactionprocessing)联机事务处理系统。
联机分析处理 (OLAP) 的概念最早是由关系数据库之⽗E.F.Codd于1993年提出的。
OLAP的提出引起了很⼤的反响,OLAP作为⼀类产品同联机事务处理 (OLTP) 明显区分开来。
Codd认为联机事务处理(OLTP)已不能满⾜终端⽤户对数据库查询分析的要求,SQL对⼤数据库的简单查询也不能满⾜⽤户分析的需求。
⽤户的决策分析需要对关系数据库进⾏⼤量计算才能得到结果,⽽查询的结果并不能满⾜决策者提出的需求。
因此,Codd提出了多维数据库和多维分析的概念,即OLAP。
OLAP委员会对联机分析处理的定义为:从原始数据中转化出来的、能够真正为⽤户所理解的、并真实反映企业多维特性的数据称为信息数据,使分析⼈员、管理⼈员或执⾏⼈员能够从多种⾓度对信息数据进⾏快速、⼀致、交互地存取,从⽽获得对数据的更深⼊了解的⼀类软件技术。
OLAP的⽬标是满⾜决策⽀持或多维环境特定的查询和报表需求,它的技术核⼼是"维"这个概念,因此OLAP也可以说是多维数据分析⼯具的集合。
OLAP的准则和特性E.F.Codd提出了关于OLAP的12条准则:准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能⼒准则准则4 稳定的报表能⼒准则5 客户/服务器体系结构准则6 维的等同性准则准则7 动态的稀疏矩阵处理准则准则8 多⽤户⽀持能⼒准则准则9 ⾮受限的跨维操作准则10 直观的数据操纵准则11 灵活的报表⽣成准则12 不受限的维与聚集层次⼀⾔以蔽之:OLTP系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作,强调事务性;OLAP系统则强调数据分析,强调SQL执⾏时长,强调磁盘I/O,强调分区。
BI基础资料-OLAP
联机分析处理 (OLAP)百科名片联机分析处理简写为OLAP,随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
目录[隐藏]作用起源分类[编辑本段]作用联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。
它并不将异常信息标记出来,是一种知识证实的方法。
[编辑本段]起源联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。
OLAP的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
Codd提出OLAP的12条准则来描述OLAP系统:准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力推测准则4 稳定的报表能力准则5客户/服务器体系结构准则6维的等同性准则准则7 动态的稀疏矩阵处理准则准则8 多用户支持能力准则准则9 非受限的跨维操作准则10 直观的数据操纵准则11灵活的报表生成准则12 不受限的维与聚集层次[编辑本段]分类当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-linetransaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
第五章联机分析处理(OLAP)-Read
第五章联机分析处理(OLAP)DW是管理决策分析的基础,若要有效地利用DW中的信息资源,必须有强大的工具对信息进行分析、决策,OLAP就是一个得到广泛用的DW技术。
OLAP专门用于支持复杂的决策分析,是支持信息管理和业务管理人员决策活动的一种决策分析工具。
它可以根据分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,并且以直观的、容易理解的形式将查询结果提供给各种决策人员,使他们迅速、准确地掌握企业的运营情况,了解市场的需求。
OLAP技术主要有两个特点:一是在线(On-Line),表现为对用户请求的快速响应和交互操作,它的实现是由客户机/服务器体系结构完成的;二是多维分析(Multi-Analysis),这也是OLAP技术的核心所在。
§ 5.1 OLAP技术基本概念一、OLAP的定义OLAP是E.F.Codd于1993年提出的。
OLAP理事会的定义:OLAP是一种软件技术,他使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,这些信息是从原始数据直接转换过来的,他们以用户容易理解的方式反映企业的真实情况。
OLAP大部分策略都是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到联机分析处理的目的。
这种多维DB也被看作一个超立方体,沿着各个维方向存贮数据,它允许用户沿事物的轴线方便地分析数据,与主流业务型用户相关的分析形式一般有切片和切块以及下钻、挖掘等操作。
共享多维信息的快速分析。
二、OLAP的功能特征:OLAP是一种数据分析技术,其功能特征是:1、快速性用户对OLAP的快速反映有很高的要求,一般要求能在5秒内对分析要求有反映。
设计时应考虑:专门的数据存贮格式,大量的事先运算,特别的硬件设计。
2、可分析性OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
因为事先编程并不能定义所有的应用,所以,在OLAP分析的过程中,用户无需编程就可以定义新的计算,将成为分析的一部分,且以用户希望的方式给出报告。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在某维中位置的描述。(“某年某月 某
日多”维是数在组时:间维维和上变位量置的的组描合述表示) 。一 个多维数组可以表示为:(维1,维 2,…,维n,变量)。(时间,地区, 产品,销售额)
数据单元(单元格):多维数组的取 值 。 (2000 年 1 月 , 上 海 , 笔 记 本 电 脑,$100000)
通过旋转可以得到不同视角的数据。
辅之于各种图形展示分析结果
8
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
辅之于各种图形展示分析结果
9
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
辅之于各种图形展示分析结果
10
切片、切块
11
Dicing Example
Dicing: Filtering by AUS1+AUS2 and Wholesale
12
Slicing Example
Slicing: Filtering by AUS2
13
Web数据的多维分析
卷烟销售分析
产品
时间
财务指标
国产烟 进口烟 Q1 Q2 Q3 Q4 收入 开销
5
OLAP特性
快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部分分析要求做出反应。客户/服务器体系结构 -两层或三层C/S结构。 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计 分析。 多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维 视图和分析,包括对层次维和多重层次维的完全支持。 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统 应能及时获得信息,并且管理大容量信息。
28
辅之于各种图形展示分析结果
23
OLAP分类
OLAP
按照存储方式
按照处理地点
ROLAP MOLAP HOLAP
Server OLAP Client OLAP
Relational database
Cube
ROLAP
Microsoft
SQL Server HOLAP OLAP Service
MOLAP
24
Product Table Product_id Product_Desc Brand Size "Dimension Table"
Sales Table
Time_id Product_id Market_id Scenario
Dollars Units Discount% "Fact Table"
基于关系数据库的OLAP-ROLAP
用关系表达式描述多维概念-大量的关系表。 用星型模型、雪花模型构造维模型。
DB
基础数据 元数据 计算结果
SQL 多维综合引
存取
擎
多维 存取
多维 视图
DW
RDBMS服务器
关系型OLAP 服务器
客户
25
ROLAP的星型模式(Star Schema)
Period Table Time_id Period_Desc Quarter Year "Dimension Table"
按城市的销售数据
按产品的销售数据
IBM Visual Warehouse V3.1 Lotus Approach或Microsoft Access Intelligent Miner for data/text
20
国际体育用品公司的数据分析(2)
按地区划分的头盔销售数据
按地区和国家划分的头盔销售数据
在线分析处理
Online Analytical Processing
1
OLAP发展背景
60年代,关系数据库之父E.F.Codd提出了关系模型,促进了 联机事务处理(OLTP)的发展(数据以表格的形式而非文件方 式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP 已不能满足终端用户对数据库查询分析的需要,SQL对大型 数据库进行的简单查询也不能满足终端用户分析的要求。用 户的决策分析需要对关系数据库进行大量计算才能得到结 果,而查询的结果并不能满足决策者提出的需求。因此, E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。 OLAP是目前RDBMS不可缺少的功能,可以作为一个独立的 OLAP服务器实现,也可以集成在RDBMS中。
21
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
辅之于各种图形展示分析结果
22
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
3
OLAP决策分析
OLAP分析属于验证驱动型发现:用户首先提出 自己的假设,然后利用OLAP工具检索查询以验 证或否定假设。
4
OLAP基本概念
维:是人们观察数据的特定角度,是 考虑问题时的一类属性 (时间维、地 理维等)。 维的层次:人们观察数据的某个特定 角度(即某个维)还可以存在细节程度 不同的各个描述方面(时间维:日期、 月份、季度、年)。
•桌面型OLAP工具是指在微机环境下开发的支持简单多维分 析的用户工具,这些工具没有自己的数据存储,而把用户 提交的查询翻译成对数据源的查询,然后从数据源中提取 结果数据,并将这些结果数据合成最终的结果返回给客 户。
7
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
14
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
辅之于各种图形展示分析结果
15
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
Market Table Market_id
Market_Desc District Region
"Dimension Байду номын сангаасable"
Scenario Table Scenario
Actual
Profit Budget
"Dimension Table"
26
MOLAP的多维立方体(Multicube)
辅之于各种图形展示分析结果
16
钻取
按
时
间
维
向
60
上
钻
取
按 时 间 维 向 下 钻 取
数据聚集
17
旋转
标 务指 财 产 品
时
时间
间
产 品
财务指标
18
pivot
Drill-across: Distribution first, Sales Org. second
19
国际体育用品公司的数据分析(1)
2
什么是OLAP?
定义1 :OLAP(联机分析处理)是针对特定问题的联机数据访 问和分析。通过对信息(维数据)的多种可能的观察形式进行快 速、稳定一致和交互性的存取,允许管理决策人员对数据进行 深入观察。 定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或执 行人员能够从多种角度对从原始数据中转化出来的、能够真正 为用户所理解的、并真实反映企业维特性的信息进行快速、一 致、交互地存取,从而获得对数据的更深入了解的一类软件技 术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需 求,它的技术核心是“维”这个概念,因此OLAP也可以说是多 维数据分析工具的集合。
6
OLAP工具的分类标准
多维数据库工具(MOLAP)、关系型数据库工具(ROLAP)和 桌面型数据库工具。 •支持多维数据库工具的是多维数据库,而不是传统上的关系型数 据库,数据存储不采用传统关系模型所使用的记录及表等方式, 而采用矩阵(多维矩阵)方式来存储数据。 •与多维数据库工具相比,关系型OLAP工具在数据库层次上有标准 的关系模型和标准的数据访问方式及其编程接口,工具与数据库 的互联性较好。
基于多维数据库(MDDB)的OLAP-MOLAP
•OLAP服务器:存储OLAP服务软件和多维数据库 •MDDB存储:采用“超立方体”形式 •MDDB存取:多维操作
DB 基础数据
计算结果 DW
多维数据 库引擎
多维 存取
多维视图 客户
27
HOLAP的特点
以HOLAP格式存储的立方体,要比以OLAP格式存 储的立方体小,在查询总结数据时,又比ROLAP 快。 HOLAP存储格式一般比较适合于需要总结数据的查 询有较快的响应时间,同时基数据的量又比较大的 场合。