数据仓库培训

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
OLTP : On-Line Transaction Processing 特点 1、通常仅仅是对一个或一组记录的查询或修改
2、执行频率高 3、关心处理的响应时间、数据安全性和完整性等指标
数据仓库培训
OLTP与OLAP • 分析型处理
也叫做信息型处理,主要用于企业管理人员的决策分析,为制订 企业的未来经营管理计划提供辅助决策信息。也叫做联机分析处 理(OLAP)。
数据仓库培训
• 原因四、历史数据问题
OLTP与OLAP
OLTP 一般只需要当前数据,在数据库中一般也只存储短期数据 (3-6个月),且不同数据的保存期限也不一样
OLAP更看重历史数据 (5-10年),可以通过对大量历史数据的详细 分析来把握企业的发展趋势
历史数据对于事务处理作用不大,但对于决策分析而言,如果没 有历史数据的支撑,就变成了“无源之水”、“无本之木”。
数据仓库培训
OLTP与OLAP
• 原因二、数据集成问题 OLTP 一般只需要与本部门业务有关的当前细节数据,而对整个 企业范围内的集成应用考虑很少,这就造成大部分企业内部的数 据是分散而非集成的。
造成上述状况的原因 1、事务处理应用的分散性 2、数据不一致问题 3、缺少分析所需的外部及非结构化数据
数据仓库培训
2020/11/21
数据仓库培训
数据仓库与数据中心概述 OLTP 与 OLAP 多维数据分析模型 数据整合 应用介绍
数据仓库培训
• 数据仓库的起因
数据仓库与数据中心概述
数据仓库方式
20世 纪90 年代之 后
以支持经营管理过程中 的决策制定为目的(DSS,
OLAP, DM)
数据库方式
20世纪 90年代 之前
数据仓库与数据中心概述
数据仓库就是一个面向主题的、集成的、不 可更新的、随时间不断变化的数据集合,用 于支持经营管理过程中的决策制定。
—— W.H.Inmon
数据仓库培训
数据仓库与数据中心概述
• 特征一 面向主题
主题是用户使用数据仓库进行决策时所关心的重点方面,每一个主题基 本对应一个宏观的分析领域。
度量值的选择取决于最终用户所请求的信息类型。一些常见
的度量值有
>>销售电量 >>库存量
>>发生金额
>>职工人数 >>线损率
>>发现缺陷数量
数据仓库培训
• 基本概念 维度(Dimension)
多维数据分析模型
维度是我们观察分析对象的角度 例如:我们可以从三个“维度” 来观察“发现缺陷”这个对象 >时间维度 >缺陷类型 >缺陷等级
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的 事务处理,例如电费交易
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧 重决策支持,并且提供直观易懂的查询结果
数据仓库培训
OLTP与OLAP
• OLTP 环境不适宜 OLAP 应用的原因 在OLTP中直接构建OLAP应用是不合适的,要提高分析处理和决策 支持的效率和有效性,必须将OLAP及其所需的综合性数据从传统 的OLTP和细节性数据中分离出来,按照DSS的需要重新进行组织, 建立单独的分析处理环境。
通过删除丢弃一些过时的数据
数据仓库培训
数据仓库与数据中心概述
• 特征四 随时间不断变化 数据仓库中的信息并不只是关于企业当时或某一时点的信息,而是 系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这 些信息可以对企业的发展历程和未来趋势作出定量分析和预测。
时间属性 数据仓库中的数据通常都带有时间属性 数据统一更新以时间段为单位
数据仓库培训
多维数据分析模型 • 基本概念 维度成员(Dimension Member)
维度的一个取值称为该维度的一个“维度成员” 如果一个维度是多层次的,则该维度的“维度成员”可 以是 1、在不同维度层次上的取值的组合 2、在某个维度层次上的取值
对一个数据项来说,维度成员是该数据项在某维度中位置的描述。
这就是常说的数据库中“数据丰富、信息贫困”现象。因此,在分析前往往需要对细 节数据进行不同程度的综合,传统的事务处理系统不具备这种综合能力,而且在数据 库系统中,这种综合还往往因为是一种数据冗余而被限制。
数据仓库培训
OLTP与OLAP • 原因六、数据的访问问题
OLTP 需要提供多种不同类型的数据访问操作,且对于需要修改的 数据必须实时‘更新’数据库 OLAP数据的访问操作以‘读’操作为主,且不需要实时的‘更新’ 操作,只需要定时‘刷新’
数据仓库培训
• 什么是数据中心
数据仓库与数据中心概述
数据中心是公司一体化信息平台的重要 组成部分。
广义 企业业务应用与数据资源进行集中、集成、共享、分析的场所、 工具、流程等的有机组合
狭义 应用层面的数据中心,具体包括数据仓库和建立在数据仓库之上 的决策分析应用、数据ETL、ODS数据库、数据仓库、商务智能应用和 元数据管理等
数据仓库培训
多维数据分析模型 • 多维数据分析模型
事实表:
销售表(产品标识符,商店标识符,日期标识符,销售额)
维表1:
产品表(产品标识符,类别,大类别)
维表2:
商店表(商店标识符,市名,省名,国名,洲名)
维表3:
时间表(时间标识符,日期,月份,季度,年份)
数据仓库培训
多维数据分析模型 • 数据立方体(Data Cube)
数据仓库培训
数据仓库与数据中心概述
• 特征二 集成 数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据 源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中 获取,这些数据源包括多种类型数据库、文件系统以及Internet网上 数据等,它们通过数据集成而形成数据仓库中的数据。
统一 消除不同数据源之间的数据不一致的现象 综合 对原有数据进行综合和计算
存放数据视图的多维数据模型称为数据立方体 数据立方体可以是物理存在的,也可以是一个逻辑定义 三个维度以上的数据立方体也称为数据超立方体
超过三个维度的信息难以实现 全维度的同时展现
数据仓库培训
多维数据分析模型
• 多维数据分析
多维数据分析是指对以多维形式组织起来的数据采取切片、切块、 旋转、钻取等各种分析动作,以求剖析数据,使最终用户能从多个 角度、多个侧面地观察数据,从而深入地了解被包含在数据中的信 息、内涵。
切片(Slice)根据某一维上的某个维成员值选择统计数据进行 分析 切块(Dice)根据某一维上的某个维成员取值的区间选择统计 数据进行分析
旋转 调整维的排列次序的动作称为旋转 钻取 > 上钻:也称 ‘数据概括’(roll up)
• 数据中心的逻辑架构(广义)
数据仓库与数据中心概述
数据仓库培训
• 数据中心的功能单元
数据仓库与数据中心概述
数据仓库培训
数据仓库与数据中心概述 OLTP 与 OLAP 多维数据分析模型 数据整合 应用介绍
数据仓库培训
OLTP与OLAP • 操作型处理
也叫事务处理,是指对数据库的日常联机访问操作,通常是对一 个或一组记录的查询和修改,主要是为企业特定的应用服务的。 也叫联机事务处理(OLTP)。
数据仓库培训
• 特征三 不可更新
数据仓库与数据中心概述
数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性, 主要供企业决策分析之用,执行的主要是‘查询’操作,一般情况 下不执行‘更新’操作。同时,一个稳定的数据环境也有利于数据 分析操作和决策的制订。
需要更新的情况 进行新的决策时需要抽取和更新新的数据
数据仓库培训
• 数据中心的定位
数据仓库与数据中心概述
数据中心是企业一体化信息平台的基础,它可以为应用系统的整 合与数据共享提供有效的解决方案,保障企业数据的一致性、及 时性、完整性、安全性、有效性和准确性,提高企业信息系统的 统一性,消除企业普遍存在的信息孤岛,解决信息系统沟通不畅 的问题。
数据仓库培训
数据仓库技术正成为企业信息集成和辅助决策应用的关键技术之一
数据仓库培训
数据仓库与数据中心概述 OLTP 与 OLAP 多维数据分析模型 数据整合 应用介绍
数据仓库培训
多维数据分析模型 • 基本概念 对象(Object)和度量值(Measure)
对象是我们所关心和分析的内容
观察对象又称为度量值
度量值是一组值,而且通常为数字值
OLAP : On-Line Analytical Processing 特点 1、需要对大量的事务型数据进行统计、归纳和分析
2、需要访问大量的历史数据 3、执行频率和对响应时间的要求都不高
典型的OLAP 决策支持系统 (DSS--Decision Support System)
数据仓库培训
OLTP与OLAP • OLTP与OLAP在应用上的差异
百度文库
数据与应用分离,以实现数据高 度共享、支持日常业务处理过程
为目的(OLTP)
数据仓库培训
• 什么是数据仓库
数据仓库与数据中心概述
数据仓库就是一个面向主题的、集成的、不 可更新的、随时间不断变化的数据集合,用 于支持经营管理过程中的决策制定。
—— W.H.Inmon
数据仓库培训
• 数据仓库的四个特征
数据仓库培训
• OLAP 与 OLTP 分离的好处
OLTP与OLAP
1、提高两个系统的性能 2、提高操作型数据库的事务吞吐量 3、避免两个系统中数据的结构、内容和用法的不同带来的困扰
建立数据仓库的目的并不是要代替传统的事务处理系统(数据库),而是为了适 应因市场商业经营行为的改变和精细化管理而进行的DSS的需要。
数据仓库培训
OLTP与OLAP • 原因五、数据的综合问题
OLTP 需要的是当前的细节性操作数据, OLAP 需要的往往是大量 的总结性分析型数据,而非数据库中的细节性操作型数据
OLTP 系统中积累的是大量的细节数据,而 OLAP 并不对这些 细节数据进行分析,其原因是
1、细节数据量太大,影响处理效率 2、不利于分析人员将注意力集中于有用的信息上
原因有六条: 1、事务处理和分析处理的性能特性不同 2、数据集成问题 3、数据的动态集成问题 4、历史数据问题 5、数据的综合问题 6、数据的访问问题
数据仓库培训
OLTP与OLAP • 原因一、事务处理和分析处理的性能特性不同
OLTP 每次操作处理的时间短,存取数据量小,但操作频率高, 并发程度大。 OLAP 每次分析可能需要连续运行很长的时间,存取数据量大, 但很少做这样的分析处理,也没有并发执行的要求。
如:> CRM >>优质客户的挖掘 >>潜在大客户的发现
>>……
> ERP >>合同管理 >>物资库存的管理
>>……
面向主题是指数据仓库内的信息是按主题进行组织的,为按主题进行决 策的过程提供信息。
传统数据库中的数据是原始、基础数据,而特定分析领域数据则是需要对它们作必要的 抽取、加工与总结而形成
数据仓库中的主题有时会因用户主观要求的变化而变化
数据仓库培训
多维数据分析模型 • 基本概念 多维数据集(Multi-Dimensional Dataset)
一个多维数据集可以表示为(维1, 维2, ……, 维n,变量) 变量表示我们观察的数据对象 维1, 维2, ……, 维n分别表示我们观察的各个角度 如(时间,单位, 缺陷类别,缺陷等级,发现缺陷数量)是一 个有关“发现缺陷”的四维数据集,其数据成员可表示为: >(2008年,江苏,线路缺陷,Ⅰ类缺陷,300) > (2008年1月,南京,设备缺陷, Ⅱ类缺陷,35)
数据仓库培训
多维数据分析模型 • 基本概念 层(Layer)
对分析对象可以在不同的深度层面上进行分析与观察,并可能得 到不同的分析结果。因此,‘层’ 反映了对分析对象的观察深度
一般而言,‘层’是与‘维’相关联的。在一个‘维’中可允许 存在若干个‘层’,并且可以采用多种不同的‘层’次划分方法
>日期维 1、日期——月份——季度——年 2、日期——周——年
OLAP 需要集成的数据,包括整个企业内部各部门的相关数据,以 及企业外部、竞争对手等处的相关数据。因此用于分析处理的数据 可能来自多种不同的数据源
数据仓库培训
OLTP与OLAP • 原因三、数据动态集成问题
对所需数据进行一次集成,以后就不再发生变化,称为静态集成 对集成后的数据进行周期性刷新,称为动态集成 在采用静态集成策略时,如果数据源中的数据发生了变化,那么这 些变化就不能反映给决策者,导致决策使用的是过时的数据。因此 集成数据必须以一定的周期进行刷新(即采用动态集成策略),但 传统的 OLTP 环境并不具备动态集成的能力。
相关文档
最新文档