数据仓库5联机分析处理技术2.pptx
数据库系统概论新技术篇 数据仓库与联机分析处理技术(5)
数据库系统概论新技术篇数据仓库与联机分析处理技术(5)陈红中国人民大学信息学院新的研究方向传统问题⏹实体化视图的增量维护⏹数据集成⏹……新的多维数据分析方法⏹SKYLINE⏹TOP-K⏹KNN 新的硬件环境⏹内存OLAP⏹多核OLAP⏹基于协处理器的OLAP⏹实时数据仓库新的应用场景⏹大数据OLAP⏹流数据的联机分析⏹物联网中的联机分析121内存OLAP和多核OLAP的困境OLAP不仅是数据密集型应用,更是计算密集型应用,即使数据全部放在内存中,数据的计算量也不是短时间内完成的;多核OLAP虽然在一定程度上缓解了计算瓶颈,但由于CPU缓存大小有限以及CPU缓存与内存之间的带宽较低,随着内存容量的增大,会进一步增加缓存缺页的次数,从而无法保证好的效率。
122基于协处理器的OLAP内存OLAP的性能瓶颈本质上由两个原因造成:第一,CPU计算速度慢;第二,存储器与处理器之间带宽低。
协处理器的高带宽及其先天具备的大数据量并行计算能力,为解决内存OLAP的性能问题提供了良好的硬件基础123协处理器产品体系Different families of technologies⏹GPGPU (Nvidia Tesla, AMD)⏹Manycores (Intel MIC, Adapteva)⏹FPGA (Convey etc.)124•与较大的CPU 内存(512G)相比,协处理设备缓存较小(4~8G); 与CPU 内存访问带宽(50GB/s)相比,协处理设备内存访问带宽更佳(100~200GB/s); •加速设备通过PCIe 通道与CPU 相连.•多个协处理设备之间的通信速度较慢(8GB/s).•整体架构中,PCIe 数据传输(16~32GB/s)通常被认为是性能制约最重要因素.PCIe busMemory (DDR3)32-512GBFast (GDDR5) memory 4-8GB100-200GB/s~8GB/s~8GB/s50GB/sAccelerator Interconnect~8GB/sCPU(s) 协处理器一般架构Accelerators and Coprocessor model today16-32GB/s125协处理器特性类型Xeon E7-4890 v2 Xeon Phi 7120X NVIDIA Tesla K40核心数量/线程数量15 /30 61/244 2880 CUDA cores主频 2.80 GHz 1.24 GHz 732MHz内存容量1536 GB 16GB 12GB缓存容量37.5MB 30.5MB 1.5MB内存类型DDR-3 GDDR5 ECC GDDR5内存带宽85GB/s 352 GB/s 288 GB/s价格$6619.00 $4129.00 $5500.00126the University of North Carolina⏹研究了包括比较运算,布尔运算以及范围查询等基本操作符在GPGPU上实现•Fast Computation of Database Operations usingGraphics Processors. SIGMOD, 2004:215--226.•Fast and Approximate Stream Mining of Quantiles andFrequencies Using Graphics Processors. SIGMOD,2005:611--622.•GPUTeraSort: High Performance Graphics Co-processorSorting for Large Database Management. SIGMOD 2006:325—336 127University of Virginia⏹基于CUDA的数据库操作•Accelerating SQL database operations on a GPU withCUDA. GPGPU 2010: 94-103• A Performance Study for Iterative Stencil Loops onGPUs with Ghost Zone Optimizations. InternationalJournal of Parallel Programming 39(1): 115-142 (2011)•Pannotia: Understanding irregular GPGPU graphapplications. IISWC 2013: 185-195•BenchFriend: Correlating the performance of GPUbenchmarks. IJHPCA 28(2): 238-250 (2014) 128University of Magdeburg⏹研究了混和平台上的查询计划自调优模型,及相应原型系统HyPE•Efficient co-processor utilization in database query processing.Inf. Syst. 38(8): 1084-1096 (2013)•Why it is time for a HyPE: A Hybrid Query Processing Enginefor Efficient GPU Coprocessing in DBMS. PVLDB 6(12): 1398-1403 (2013)•Towards Optimization of Hybrid CPU/GPU Query Plans inDatabase Systems. ADBIS Workshops 2012: 27-35•Self-Tuning Distribution of DB-Operations on Hybrid CPU/GPUPlatforms. Grundlagen von Datenbanken 2012: 89-94 129Hong Kong University of Science and Technology ⏹gather, scatter, join 等在GPU 上的实现 ⏹原型系统研发(GDB 系统)•Efficient gather and scatter operations on graphics processors. Nov. 2007 Proceedings of the 2007 ACM/IEEE conference on Supercomputing.•Bingsheng He, Wenbin Fang, Qiong Luo, Naga K. Govindaraju, Tuyong Wang: Mars: a MapReduceframework on graphics processors. PACT 2008: 260-269 •Relational query coprocessing on graphics processors. ACM Trans. Database Syst. 34(4) (2009) ---GDBGPU OLAP 的研究130GDB系统中, 将数据库操作细化并定义为一系列的原语, 原语是原子级操作, 通过原语构成关系操作符。
联机分析处理OLAP精品PPT课件
多用户支持
当多个用户要在同一分析模式上并行工作, OLAP工具应能够提供并发访问等功能。
16
一致的报表性能
报表必须充分反映数据分析模型的多维特征, 并可按用户需要的方式来显示它
报表操作不应随维数增加而削弱,即 当数据维数和数据的综合层次增加时, 提供的报表能力和响应速度不应该有 明显的降低。
4
北方工业大学信息工程学院
OLTP VS. OLAP
OLTP数据 原始数据 细节性数据 当前值数据 可更新 一次处理的数据量小 面向应用,事务驱动 面向操作人员,支持日常操作
OLAP数据 导出数据 综合性和提炼性数据 历史数据 不可更新,但周期性刷新 一次处理的数据量大 面向分析,分析驱动 面向决策人员,支持管理需要
多维分析:这也是OLAP的核心所在。
9
3.2 OLAቤተ መጻሕፍቲ ባይዱ定义
联机分析处理(OLAP)是一种软件技术, 它使分析人员能够迅速、一致、交互地从各 个方面观察信息,以达到深入理解数据的目 的。这些信息是从原始数据转换过来的,按 照用户的理解,它反映了企业真实的方方面 面。( OLAP理事会)
10
OLAP的简单定义
评价。
1
第2章 联机分析处理--OLAP
2.1 概述 2.2 OLAP定义和基本概念 2.3 OLAP的数据模型 2.4 多维数据分析 2.5 OLAP的结构与分析工具
2
2.1 概述
60年代,关系数据库之父E.F.Codd提出 了关系模型,促进了联机事务处理(OLTP) 的发展(数据以表格的形式而非文件方式存 储)。
17
OLAP基本概念
变量:从现实系统抽象出来的,用于描述数 据的实际含义,即描述数据“是什么”
数据仓库和联机分析处理
第一章数据仓库和联机分析处理(OLAP)概述1.1 数据仓库的概念及其特点“什么是数据仓库?”这恐怕是每一个刚刚开始接触数据仓库的技术人员都会提出的一个问题。
有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析的技术。
这些定义都从一定的侧面反映了数据仓库的概念,但并不全面。
目前,业界公认的数据仓库定义是由数据仓库之父W.H.Inmon在《Building the Data Warehouse》[7]一书中给出:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。
”正如Inmon所描述的,数据仓库具有如下特点[6,7]:(1) 数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。
所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
(2) 数据仓库的数据是集成的建立数据仓库的主要目的就是为用户提供易于访问的商业信息。
为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。
在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。
(3) 数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。
数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。
(4) 数据仓库的数据是随时间不断变化的数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。
但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。
数据仓库技术PPT培训资料
—信管0701 HT
1
数据仓库技术
✓什么是数据仓库 ✓数据仓库的产生 ✓新一代数据仓库的发展趋势 ✓总结
2
什么是数据仓库
概念
数据仓库概念创始人W.H.Inmon在《建立数据 仓库》一书中对数据仓库的定义是:数据仓库就是 面向主题的、集成的、不可更新的(稳定性)、随时 间不断变化(不同时间)的数据集合,用以支持经 营管理中的决策制定过程、数据仓库中的数据面向 主题,与传统数据库面向应用相对应。
6
• 近几十年来,大量新技术、新思路的涌现出来并 被用于关系型数据库系统的开发和实现:客户/服 务器系统结构、存储过程、多线索并发内核、异 步I/O、代价优化,等等,这一切足以使得关系数 据库系统的处理能力毫不逊色于传统封闭的数据 库系统。而关系数据库在访问逻辑和应用上所带 来的好处则远远不止这些,SQL的使用已成为一 个不可阻挡的潮流,加上近些年来计算机硬件的 处理能力呈数量级的递增,关系数据库最终成为 联机事务处理系统的主宰。
9
新一代数据仓库的发展趋势
• 严格的投资回报率评估 • 整合数据集市 • 增加更多的分析 • CRM与数据仓库后期Internet 的兴起与飞速发展,我 们进入了一个新的时代,大量的信息和数据,迎 面而来,用科学的方法去整理数据,从而从不同 视角对企业经营各方面信息的精确分析、准确判 断,比以往更为迫切,实施商业行为的有效性也比 以往更受关注。
企业数据仓库为通用数据仓库,它既含有大量详细的数据, 也含有大量累赘的或聚集的数据,这些数据具有不易改变 性和面向历史性。
二、操作型数据库(ODS)
操作型数据库既可以被用来针对工作数据做决策支持,又 可用做将数据加载到数据仓库时的过渡区域。
三、数据市集(DataMart)
数据仓库的概念与体系结构PPT课件
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
数据仓库,联机分析处理,数据挖掘Data WarehousingPPT演示文稿
每个事务只访问少量记 有的事务可能要访问大
录
量记录
以秒为单位计量
以秒、分钟、甚至小时 为计量单位
12
• 尽管OLTP系统和数据仓库有着许多不同的特性且 基本构建思想不同,但是他们却是紧密联系的,因 为OLTP系统是数据仓库的数据来源。
• OLTP系统并不是为了快速回答查询,也不是为了 存储分析趋势的历史数据而创建的。一般的, OLTP提供了大量的原始数据,这些数据不易被分 析。
9
d) non-volatile 数据的非易失性
• 数据仓库的非易失性是指数据仓库的数据不进行更 新处理,而是一旦数据进入数据仓库以后,就会保 持一个相当长的时间。因为数据仓库中数据大多表 示过去某一时刻的数据,主要用于查询、分析,不 像业务系统中的数据库那样,要经常进行修改、添 加,除非数据仓库中的数据是错误的。
10
e) in support of management dec的组织的根本目的在于对决策的支持。 高层的企业决策者、中层的管理者和基层的业务 处理者等不同层次的管理人员均可以利用数据仓 库进行决策分析,提高管理决策的质量。
• 企业管理人员可以利用数据仓库进行各种管理决 策的分析,利用自己所特有的、敏锐的商业洞察 力和业务知识从貌似平淡的数据发现众多的商机。 数据仓库为管理者利用数据进行管理决策分析提 供了极大的便利。
2
数据仓库的引出 1.传统数据库以及OLTP(On-Line Transaction Processing 联机事务处理)在日常的管理事务处理中 获得了巨大的成功,但是对管理人员的决策分析要 求却无法满足。 2.因为,管理人员常常希望能够通过对组织中的大 量数据进行分析,了解业务的的发展趋势。而传统 数据库只保留了当前的业务处理信息,缺乏决策分 析所需要的大量的历史信息。 3.为满足管理人员的决策分析需要,就需要在数据 库的基础上产生适应决策分析的数据环境——数据 仓库(Data Warehose)。
数据仓库专题讲义PPT公开课(43页)
OLAP的多维数据概念
数据单元。多维数据集的取值称为数据单元。 当在多维数据集的每个维都选中一个维成员以
后,这些维成员的组合就惟一确定了观察变量 的值。
OLAP多维数据分析
1.切片和切块(Slice and Dice)
在多维数据结构中,按二维进行切片,按三维进行切块,可 得到所需要的数据。如在“城市、产品、时间”三维立 方体中进行切块和切片,可得到各城市、各产品的销售情 况。
数据的存储与管理
数据的存储与管理是整个数据仓库系统的核心。 针对现有各业务系统的数据,进行抽取、清理, 并有效集成,按照主题进行组织。数据仓库按照 数据的覆盖范围可以分为企业级数据仓库和部门 级数据仓库(通常称为数据集市)。
OLAP服务器
OLAP服务器对分析需要的数据进行有效集成, 按多维模型予以组织,以便进行多角度、多层 次的分析,并发现趋势。
数据仓库四个特点-相对稳定
操作型数据库中的数据通常实时更新,数据 根据需要及时发生变化。数据仓库的数据主 要供企业决策分析之用,所涉及的数据操作 主要是数据查询,一旦某个数据进入数据仓 库以后,一般情况下将被长期保留,也就是 数据仓库中一般有大量的查询操作,但修改 和删除操作很少,通常只需要定期的加载、 刷新。
2.钻取(Drill)
钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/ 上卷(Roll-up)操作, 钻取的深度与维所划分的层次相 对应。
数据仓库四个特点-反映历史变化
数据仓库本质
如果说传统数据库系统的要求是快速、准确、安全、 可靠地将数据存进数据库中的话,那么数据仓库的 要求就是能够准确、安全、可靠地从数据库中取出 数据,经过加工转换成有规律信息之后,再供管理 人员进行分析使用。
数据仓库5联机分析处理技术2
4.3.1 多维分析基础:聚集
❖ 如何获得济南地区在时间T1对商品P1的销售额?即 如何获得数据单元(T1,“济南”,P1:X)
❖ 即:X=sum(100,78,97)
数据仓库5联机分析处理技术2
4.3.1 多维分析基础:聚集函数分类
❖ 分布型聚集函数 ❖ 将数据分成n份,对其中的每一份应用该函数,可
日 数据仓库5联机分析处理技术2
2)属性操作
❖ 目的:按照成员的属性进行特征分析。 ❖ 成员属性:用于进一步说明成员的特征。 ❖ 属性操作:丰富了多维数据分析,使得不仅可以根
据层次进行操作,而且还可以按成员的属性进行特 征分析。 ❖ 举 例 : 商 品 维 的 层 次 为 商 品 代 码 ( ArticalID ) → Family→Group→Area→Top (如表4.5 ), 商店 维 的 层 次 为 ( ShopID ) →City→Region→Country→Top(如表4.6)
数据仓库5联机分析处理技术2
3. 旋转(rotate)
❖ 定义:改变数据立方体维的次序的动作。
数据仓库5联机分析处理技术2
3. 旋转(rotate)
数据仓库5联机分析处理技术2
3. 旋转(rotate)
❖ 举例:旋转前的维方向
数据仓库5联机分析处理技术2
3. 旋转(rotate)
❖ 旋转后的维方向(不同维度间的旋转操作)
❖ 核心思想: ❖ 切片 ❖ 嵌套:按照层的抽象程度,依次在水平和垂直方向
排列。
数据仓库5联机分析处理技术2
4.5.1 三维数据展示
❖ 举例:假设一个数据立方体有时间维、地区维、商 品维。商品维有两个层,具体商品层和商品大类层。 时间维有年、季度、月和日4个层。地区维有商店、 城市、地区和国家4个层。
数据仓库、联机分析处理与数据挖掘
数据仓库、联机分析处理与数据挖掘08广义概念上的数据仓库是一种帮助企业做决策的体系化解决方案,它包括了三个方面的内容:⏹数据仓库技术(Data Warehouse,DW)⏹联机分析处理技术(On-line Analytical Processing,OLAP)⏹数据挖掘技术(Data Mining,DM)数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。
数据仓库用于数据的存储和组织;联机分析处理则侧重于数据的分析;数据挖掘则致力于知识的自动发现。
因此这三种技术之间并没有内在的依赖关系,可以独立地应用到企业信息系统的建设之中,以提高信息系统相应的能力。
但是,这三种技术之间确实存在着一定的联系性和互补性,把它们结合起来,就可以使它们的能力更充分地发挥出来。
这样就形成了一种决策支持系统的架构,即DW+OLAP+DM。
1、数据仓库技术⑴概述数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。
它从大量的事务性数据库中抽取数据、并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。
数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。
其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。
“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。
“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统的加工整理,是相互一致的、具有代表性的数据。
“随时间变化”是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时间的数据,所以主要用于进行时间趋势分析。
一般数据仓库内的数据时限为5到10年,数据量也比较大。
“信息本身相对稳定”是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。
⑵数据仓库组织和管理数据的方法与普通数据库的不同点主要表现在三个方面:①它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。
数据仓库5-联机分析处理技术2
1)维-维层次
❖ 维层次(hierarchy)
❖ 在一个维中可以有多种分类方法,把每种分类方法 叫做一个层次。
❖ 如:时间维的两个层次。
年
季度
星期
月 日
1)维-维属性
❖ 维属性(attribute) ❖ 维属性说明维成员所具有的特征。 ❖ 如:在地区维的商店这一层定义“负责人”、“商
店类型”等属性,在城市层上定义“人口”、“面 积”等属性。
❖ 假设数据仓库中有一张销售表(如下图),只列出 在时间T1、商品P1在济南地区的商店(S1、S2、S3) 的销售额,分别为:(T1,S1,P1:100),(T1, S2,P1:78),(T1,S3,P1:97)
4.3.1 多维分析基础:聚集
4.3.1 多维分析基础:聚集
❖ 如何获得济南地区在时间T1对商品P1的销售额?即 如何获得数据单元(T1,“济南”,P1:X)
❖ 聚集是对细节数据进行综合的过程,是多维分析的 基础。
❖ 最常用的5种聚集函数: ❖ 求和 ❖ 计数 ❖ 求最大值 ❖ 求最小值 ❖ 求平均值
4.3.1 多维分析基础:聚集
❖ 举例:零售商对产品的销售分析时,设置了时间维 (Time)、地区维(Store)和商品维(Product) ,度量是销售额(Sales),其中该地区维是指商 店所在地区。
多的资源,有较大的计算代价。
4.3.2 常用多维分析操作
❖ 多维分析操作是指对数据立方体执行切片、切块、 旋转、下钻、上卷等各种分析操作,剖析数据,使 用户能从多角度、多侧面观察数据库中的数据,从 而深入了解包含在数据中的信息和内涵。
1. 切片(Slice)
❖ 定义:在数据立方体的某一维上选定一个维成员的 动作。
数据挖掘章数据仓库和数据挖掘的OLAP技术PPT课件
第17页/共52页
O LT P 和 O L A P 的 区 别
• 用户和系统的面向性: O LT P 是 面 向 顾 客 的 , 用 于 事 务 和 查 询 处 理 OLAP是面向市场的,用于数据分析 • 数据内容: O LT P 系 统 管 理 当 前 数 据 . OLAP系统管理大量历史数据,提供汇总和 聚集机制.
• 定义维 Define dimension time as (time_key,day,day_of_week ,month,quar ter,year)
第25页/共52页
度量的分类和计算
• 分布的: 设数据被划分为n个集合,函数在每一部分上的计算得到一个聚集值.如果将函数用于n个聚集值得到的结果, 与将函数用于所有数据得到的结果一样则该度量是分布的,如count(),sum()等
• 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、 面向主题及不可更新的数据集合。
• W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、 随时间变化的数据集合,用以支持管理决策的过程。
第5页/共52页
数据仓库的适用范围
• 信息源中的数据变化稳定
• Oracle公司: 则推出从数据仓库构建、OLAP到数据 集市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。
第2页/共52页
数据仓库的我国的发展
• 前景:随着计算机技术的发展,尤其是分布式技 术的发展, 数据仓库在我国有着广阔的发展空间 和良好的发展前景。例如:
• 由于银行商业化的步伐正在加大,各大中型银行在入世 的机遇和挑战下,开始重新考虑自身的业务,特别是信 贷风险管理方面特别注意,因而有关信贷风险管理和风 险规章的基于数据仓库的决策支持系统的需求逐渐增多;
数据库和数据仓库技术概述(ppt 61页)
学生数据库 学生情况文件 学生成绩文件
记录
学生1
学号 姓名 性别
9608101 张勇
男
数据项
┅┅
学生n
┅┅ 学号 姓名 性别
┅┅ 9608138 王英
女
图6-4 逻辑数据元素之间的关系
1顺序文件组织
记录1 记录2 记录3 记录4 记录2
图6-5 磁盘顺序文件
2 索引文件
(a)
索引顺序文件
记录地址 A B C D E F G
图6-1 联机事务处理与联机分析处理
6.2 文件组织
6.2.1 文件组织术语和概念
数据项, 记录, 文件, 数据库
数据库
文件 1
文件 2
文件3
记录 1
记录2
记录3
数据项 1
数据项 2
数据项 3
字段
记 录
某个数据库中的一份表文件,该文件存储了选修《管理信息系统》课程的 10级物流专业的同学名单。每列是一个字段,每行为一个记录。 从数据库原理的角度来看,表中反映了“学生”这一类实体集(Entity Set),表中的每一行是该类型中的一个具体的实体,每个实体都具有学号、 姓名、专业名称等属性
6.2.2 数据的物理组织和逻辑组织
存储介质 光盘
硬盘
软盘
物理组织 存储单位 比特(0,1) ↓ 字节 → ↓ 字
技术界面
逻辑组织
数据库 数据库管理系统 → 数据仓库 数据仓库管理系统
字符 ↓ 字段 ↓ 文件 ↓ 数据库 ↓ 数据仓库
信息 使用者
图6-2 信息的物理组织与逻辑组织
6.2.3 文件的组织方式
1. 设计“系和教师关系”的分E-R图 2. 设计“学生和课程关系”的分E-R图 3. 设计“教师与课程关系”的分E-R图 4. 将上述三个分综合,建立学院教学管理总E-R
数据仓库和联机分析处理30页word文档
第一章数据仓库和联机分析处理(OLAP)概述1.1 数据仓库的概念及其特点“什么是数据仓库?”这恐怕是每一个刚刚开始接触数据仓库的技术人员都会提出的一个问题。
有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析的技术。
这些定义都从一定的侧面反映了数据仓库的概念,但并不全面。
目前,业界公认的数据仓库定义是由数据仓库之父W.H.Inmon在《Building the Data Warehouse》[7]一书中给出:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。
”正如Inmon所描述的,数据仓库具有如下特点[6,7]:(1) 数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。
所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
(2) 数据仓库的数据是集成的建立数据仓库的主要目的就是为用户提供易于访问的商业信息。
为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。
在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。
(3) 数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。
数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。
(4) 数据仓库的数据是随时间不断变化的数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。
但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。
第十七 数据仓库与联机分析处理技术PPT课件
联机分析处理技术(续)
星形模式(Star Schema)通常由一个中心表(事实表)和一 组维表组成 如下图所示的是销售事实表 ➢维表有时间维表、顾客维表、销售员维表、制造商维表和产品维表
第15页/共25页
联机分析处理技术(续)
雪片模式就是对维表按层次进一步细化后形成的
• 目的:帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素 • 数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种
技术
• 决策支持系统(DSS)跨入了一个新阶段
第18页/共25页
数据挖掘技术(续)
• 二、数据挖掘和传统分析方法的区别 • 本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识 • 数据挖掘所得到的信息应具有事先未知、有效和可实用3个特征
第19页/共25页
数据挖掘技术(续)
• 三、数据挖掘的数据源 • 从数据仓库中来 • 优点:许多数据不一致的问题都较好地解决了,在数据挖掘时大大减少 了清理数据的工作量 • 缺点:建立数据仓库是一项巨大的工程,耗时耗力 • 从数据库中来 • 如果只是为了数据挖掘,可以把一个或几个OLTP数据库导入一个只读 的数据库中,然后在上面进行数据挖掘
第13页/共25页
联机分析处理技术(续)
• ROLAP结构 • 用RDBMS或扩展的RDBMS来管理多维数据,用关系的表来组织和存储多 维数据 • 两类表:一类是事实(fact)表,另一类是维表
• 事实表用来描述和存储多维立方体的度量值及各 个维的码值;
• 维表用来描述维信息。
• ROLAP用“星形模式”和“雪片模式”来表示多维数据模型
第十七章 数据仓库与联机分析处理技术
17.1 数据仓库技术 17.2 联机分析处理技术 17.3 数据挖掘技术 17.4 小结
数据仓库_5_联机分析处理
在前面的‘星型模式’中,我们只考虑产品的分类,在 这里我们还可以从产品的‘供应商’或‘购买顾客’角 度来考虑对产品进行分析。 也可以以其中的‘供应商’为中心再构成一个‘星型模 式’。
Data Warehouse 22
2015/6/3
5.2 OLAP的基本数据模型
雪花模式(例)
2015/6/3
Data Warehouse
29
ROLAP与MOLAP的比较
ROLAP
沿用现有的关系数据库的技术
MOLAP
专为OLAP所设计
响应速度比MOLAP慢;现有关系型数 据库已经对OLAP做了很多优化,包括 并行存储、并行查询、并行数据管理、 性能好、响应速度快 基于成本的查询优化、位图索引、SQL 的OLAP扩展(cube, rollup)等,性 能有所提高 数据装载速度快 存储空间耗费小,维数没有限制 数据装载速度慢
需要进行预计算,可能导致数据爆炸; 维数有限;无法支持维的动态变化
Data Warehouse 30
2015/6/3
ROLAP与MOLAP的比较
ROLAP
借用RDBMS存储数据,没有文件大 小限制
MOLAP
受操作系统平台中文件大小的限制, 难以达到TB级
可以通过SQL实现详细数据与概要数 据的存储
store storeId s5 s7 s9
cityId sfo sfo la
tId t1 t2 t1
mgr joe fred nancy
cityId pop sfo 1M la 5M
region regId name north cold region south warm region
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4. 下钻(drill down)
❖ 定义:是指在某一个分析过程中,用户可能需要从 更多的维或者某个维的更细层次上来观察数据的操 作。
33
5. 上卷(roll up)
7
1)维-维层次
❖ 维层次(hierarchy)
❖ 在一个维中可以有多种分类方法,把每种分类方法 叫做一个层次。
❖ 如:时间维的两个层次。
年
季度
星期
月 日
8
1)维-维属性
❖ 维属性(attribute) ❖ 维属性说明维成员所具有的特征。 ❖ 如:在地区维的商店这一层定义“负责人”、“商
店类型”等属性,在城市层上定义“人口”、“面 积”等属性。
25
1. 切片(Slice)
26
2. 切块(dice)
❖ 定义:如果在一个多维数据集上对两个及其以上的 维选定维成员的操作称为切块。
❖ 如有多维数据集(维1,维2,……,维i,……, 维k,……,维n,观察变量),对维i,……,维k ,选定了维成员,那么(维1,维2,……,维i成 员,……,维k成员,……,维n,观察变量)就是 多维数据集(维1,维2,……,维i,……,维k, ……,维n,观察变量)在维i,……,维k上的一 个切块。
❖ 维是观察数据的特定角度,是每个事物的属性。 ❖ 每个维都有一个唯一的名字,如:时间维、地区维
、产品维等。
5
1)维-维成员
❖ 维成员(member)
❖ 维由一些维成员构成。维的一个取值称为维的一个 成员。如果维已经分成了若干个维层次,那么维成 员就是不同维层次取值的组合。
城市
北京 长沙 武汉
广州 上海
❖ 假设数据仓库中有一张销售表(如下图),只列出 在时间T1、商品P1在济南地区的商店(S1、S2、S3) 的销售额,分别为:(T1,S1,P1:100),(T1, S2,P1:78),(T1,S3,P1:97)
18
4.3.1 多维分析基础:聚集
19
4.3.1 多维分析基础:聚集
❖ 如何获得济南地区在时间T1对商品P1的销售额?即 如何获得数据单元(T1,“济南”,P1:X)
多的资源,有较大的计算代价。
23
4.3.2 常用多维分析操作
❖ 多维分析操作是指对数据立方体执行切片、切块、 旋转、下钻、上卷等各种分析操作,剖析数据,使 用户能从多角度、多侧面观察数据库中的数据,从 而深入了解包含在数据中的信息和内涵。
24
1. 切片(Slice)
❖ 定义:在数据立方体的某一维上选定一个维成员的 动作。
27
3. 旋转(rotate)
❖ 定义:改变数据立方体维的次序的动作。
28
3. 旋转(rotate)
29
3. 旋转(rotate)
❖ 举例:旋转前的维方向
30
3. 旋转(rotate)
❖ 旋转后的维方向(不同维度间的旋转操作)
31
3. 旋转(rotate)
❖ 旋转后的维方向(维度层次上的旋转操作)
12
1.星形模型
13
2.雪花模型
14
联机分析处理技术2 4.3 多维分析操作 4.4 多维查询语言
15
4.3 多维分析操作
❖ 关系数据模型的核心概念是关系,基本操作是:选 择、投影、链接。
❖ 多维数据模型结构复杂,操作的种类也相对较多。 ❖ 常用的多维分析操作有:切片、切块、旋转、下钻
、上卷
❖ 即:X=sum(100,78,97)
20
4.3.1 多维分析基础:聚函数,可
以得到n个聚集值,对这n个聚集值进行计算得到的 结果如果和整个数据(不划分)应用该函数得出的 结果一致,则称该函数是分布型的。 ❖ count、sum、min、max
第5讲 联机分析处理技术2
1
数据立方体
❖ 多维数据模型构成的多维数据空间称作为数据立方 体(Data Cube,简记为cube)。
❖ 是从不同角度对同一数据进行观察得到的数据交点 。
2
数据立方体
❖ 一个二维数据立方体对应的某地区商店销售额表
3
数据立方体
❖ 商店销售额表的三维数据立方体
4
1)维
16
4.3.1 多维分析基础:聚集
❖ 聚集是对细节数据进行综合的过程,是多维分析的 基础。
❖ 最常用的5种聚集函数: ❖ 求和 ❖ 计数 ❖ 求最大值 ❖ 求最小值 ❖ 求平均值
17
4.3.1 多维分析基础:聚集
❖ 举例:零售商对产品的销售分析时,设置了时间维 (Time)、地区维(Store)和商品维(Product) ,度量是销售额(Sales),其中该地区维是指商 店所在地区。
21
4.3.1 多维分析基础:聚集函数分类
❖ 代数型聚集函数 ❖ 如果一个函数可以由若干个分布型函数进行代数运
算得出,则说该函数是代数型。 ❖ Avg=sum/count
22
4.3.1 多维分析基础:聚集函数分类
❖ 整体型聚集函数 ❖ 如果一个函数不能由其它函数进行代数运算得出,
则称其为整体。 ❖ Median、rank ❖ 在计算时,需要同时得到所有的数据,需要消耗较
果汁
可乐
商品 毛巾
浴巾
牛奶
12 3 4
日期
商品、城市、日期维 工业 国家 年
类别 省 月 商品 市 日
6
1)维-维层
❖ 维层(level) ❖ 人们观察数据时,除了要从某一个角度去观察外,
还需要从不同的细节程度去观察,这些不同的细节 程度就称为不同的维层次。 ❖ 如:销售地区维有分区、省、市,对于时间维有日 、月、季度。
9
2)度量
❖ 度量是要分析的目标或对象,是多维数据集的核心 值,是最终用户在数据仓库应用中需查看的数据。
❖ 常见的度量有:销售量、供应量、营业额等。
❖ 通常是具体数据值。
城市
北京 长沙 武汉
广州
上海
果汁
可乐
商品 毛巾
浴巾
牛奶
12 3 4
日期
究竟想了解什么?
10
11
1.星形模型
❖ 星形模型是多维数据模型的基本结构,通常由一个很大 的中心表(事实表)和一组较小的表(维度表)组成。
❖ 有多维数据集(维1,维2,……,维i,……,维n ,观察变量),如果确定了某个维成员维i 的值, 则称:在维i上的一个切片为(维 1,维2,……, 维i成员,……,维n,观察变量)。
❖ 一个多维数组的切片最终是由该数组中除切片所在 平面之外的其他成员值确定的。
❖ 维是观察数据的角度,切片的作用或结果是舍弃一 些观察角度,以便集中观察该维的数据。