45商务智能原理与应用第二章——数据仓库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


• 数据仓库由企业中的多个异构数据源进行集成
• 数据库是数据仓库的基础
比尔·恩门(Bill Inmon)
数据仓库的特点


• 操作型数据库的数据组织面向事务处理任务,各个联机事物处理系统之间各自分

离,而数据仓库中的数据是按照一定的主题域进行组织。

养老 保险
医疗 保险
财产 保险
汽车 保险
操作型应用程序
对比内容
数据库
数据内容 数据目标 数据特性 数据结构 使用频率
当前值
面向业务操作程序,重复 处理
动态变化、按字段更新
高度结构化、复杂、适合 操作计算

数据访问量
每个事务只访问少量记录
对响应时间的要求 以秒为单位计量
数据仓库 历史的、存档的、归纳的、计算的数据 面向主题域、管理决策分析应用 静态、不能直接更新、只定时添加 简单、适合分析 中到低 有的事务可能要访问大量记录 以秒、分钟,甚至小时为计量单位
处理性能
• 联机事务处理系统涉及频繁、简单的数据存取,因此对数据库的性能要求 较高,需要数据库在短时间内做出响应,而分析型系统对响应的时间要求不 是那么苛刻,有的分析甚至可能需要几个小时。
数据仓库与商务智能的关系
➢数据仓库是一种技术,也是一种解决方案。对于企业来说,商务智 能系统一般构建在数据仓库上。数据仓库是构建商务智能系统的基 础。 ➢商务智能是数据仓库、联机分析处理和数据挖掘等相关技术走向商 业应用后形成的一种应用技术,二者是一种包含关系。
数据库与数据仓库的区别
数据内容
• 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据目标
• 数据库是为捕获数据而设计,面向业务操作程序,重复处理;数据仓库是 为分析数据而设计,面向主题域、管理决策分析应用。
数据特性
• 数据库主要由原子事物组成,数据更新频繁,需要并行控制和恢复机制。 而数据仓库往往处理的是复杂的数据查询,大部分是只读操作,不能直接更 新、只定时添加。
表现在
1. 数据仓库随时间变化不断增加新的数据内容。 2.操作型系统存储的是当前数据,而数据仓库存储的数据是历史数据。 3.数据仓库的数据时限一般要远远长于操作型数据的数据时限。
数据仓库的功能
数据仓库的主要功能是对现有的数据进行分析整理, 以利于各种分析方法如联机分析处理(OLAP)、数据挖 掘(Data Mining)的进行,为决策的拟定提供数据支持, 帮助构建商务智能。
数据仓库的结构
➢ 数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、 数据存储、数据应用。
数据 应用
数据 存储
源数 据
报表展示
即席查询
数据分析
数据挖掘
聚合数据
E T L
点击流日志
多维数据模型 细节数据
业务模型
数据库数据
文档数据
其它
数据库与数据仓库的区别
➢数据库是数据仓库的基础,数据库是为了捕获数据而设计的,而数 据仓库是为了分析数据而设计的,除此之外,数据库与数据仓库在其 他方面也存在着一些差别。
顾客
账户
保险 金
索赔
数据仓库主题
数据仓库的特点

• 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、

汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整

个企业的一致的全局信息。
不同的操作型系统之间的数据一般是相互独立、 异构的,而数据仓库中的数据是对分散的数据 进行抽取、清理、转换和汇总后得到的,这个 过程我称之为ETL处理过程,我们在下一章将 会深入研究ETL过程。
决策支持
数据分析与挖掘
数据仓库 数据源
02
ETL处理过程
什么是ETL
➢ETL(Extract-Transform-Load)是将联机事务处理系 统的数据经过抽取、清洗转换之后加载到数据仓库的过 程,目的是将企业中的分散、零乱、标准不统一的数据 整合到一起,为企业的决策提供分析依据。ETL是构建 数据仓库的重要过程。
商务智能原理与应用 -第二章
数据仓库
前请回顾
1
商务智能产生的背景 2
商务智能的定义
3
商务智能的基本架构 4
商务智能相关的技术
5
商务智能在一些行业中的实际应用
目录
01
数据仓库概念
ETL处理过程
02
数据仓库工具Hive
03
04
数据仓库模型
01
数据仓库概念
什么是数据仓库?
数据仓库是一个面向主题的(Subject Oriented)、
数据仓库
实时更新,增删改操作多 技术难点多
只需定期加载、刷新, 删除和修改操作少
查询要求高
数据仓库的特点
反映历 史变化
• 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常 包含历史信息,系统记录了企业从过去某一时间点(如开始应用数据仓库的时间) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做 出定量分析和预测。
数据库与数据仓库的区别
数据结构
• 数据库中的建模一般遵循三范式,是高度结构化、复杂、适合操作计算的 数据,而数据仓库的建模有特定的方式,一般采用维度建模,数据结构比较 简单,可以提高查询效率,适合统计分析。
数据规模
• 数据仓库中的数据通常来源于多个不同的联机事物处理系统数据库(存储 多年的数据),数据量远远大于操作型数据库,一般作为企业数据中心用。
集成的(Integrated)、相对稳定的(Non-

Volatile)、反映历史变化(Time Variant)的数据

wk.baidu.com
集合,用于支持管理决策(Decision Making
Support)。
——数据仓库之父 比尔·恩门 (Bill Inmon)
• 数据仓库是一种存储方案,不是具体的某个产品

• 数据仓库用于支持决策,面向分析型数据处理
使用频率
• 数据库存储的是联机事务处理的操作数据,通常联机事务处理每时每刻都 在进行着对数据的读写,对数据的使用频率较高。而数据仓库是为分析型系 统提供数据支持,一般是企业管理层或者决策者需要,使用频率较低。
数据库与数据仓库的区别
设计方式
• 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库 在设计是有意引入冗余,采用反范式的方式来设计。
数据库1 数据库2 数据库3
ETL处理
数据仓库
数据仓库的特点
数据相 对稳定
• 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询, 一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中 一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据库
相关文档
最新文档