45商务智能原理与应用第二章——数据仓库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解
• 数据仓库由企业中的多个异构数据源进行集成
• 数据库是数据仓库的基础
比尔·恩门(Bill Inmon)
数据仓库的特点
面
向
• 操作型数据库的数据组织面向事务处理任务,各个联机事物处理系统之间各自分
主
离,而数据仓库中的数据是按照一定的主题域进行组织。
题
养老 保险
医疗 保险
财产 保险
汽车 保险
操作型应用程序
对比内容
数据库
数据内容 数据目标 数据特性 数据结构 使用频率
当前值
面向业务操作程序,重复 处理
动态变化、按字段更新
高度结构化、复杂、适合 操作计算
高
数据访问量
每个事务只访问少量记录
对响应时间的要求 以秒为单位计量
数据仓库 历史的、存档的、归纳的、计算的数据 面向主题域、管理决策分析应用 静态、不能直接更新、只定时添加 简单、适合分析 中到低 有的事务可能要访问大量记录 以秒、分钟,甚至小时为计量单位
处理性能
• 联机事务处理系统涉及频繁、简单的数据存取,因此对数据库的性能要求 较高,需要数据库在短时间内做出响应,而分析型系统对响应的时间要求不 是那么苛刻,有的分析甚至可能需要几个小时。
数据仓库与商务智能的关系
➢数据仓库是一种技术,也是一种解决方案。对于企业来说,商务智 能系统一般构建在数据仓库上。数据仓库是构建商务智能系统的基 础。 ➢商务智能是数据仓库、联机分析处理和数据挖掘等相关技术走向商 业应用后形成的一种应用技术,二者是一种包含关系。
数据库与数据仓库的区别
数据内容
• 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据目标
• 数据库是为捕获数据而设计,面向业务操作程序,重复处理;数据仓库是 为分析数据而设计,面向主题域、管理决策分析应用。
数据特性
• 数据库主要由原子事物组成,数据更新频繁,需要并行控制和恢复机制。 而数据仓库往往处理的是复杂的数据查询,大部分是只读操作,不能直接更 新、只定时添加。
表现在
1. 数据仓库随时间变化不断增加新的数据内容。 2.操作型系统存储的是当前数据,而数据仓库存储的数据是历史数据。 3.数据仓库的数据时限一般要远远长于操作型数据的数据时限。
数据仓库的功能
数据仓库的主要功能是对现有的数据进行分析整理, 以利于各种分析方法如联机分析处理(OLAP)、数据挖 掘(Data Mining)的进行,为决策的拟定提供数据支持, 帮助构建商务智能。
数据仓库的结构
➢ 数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、 数据存储、数据应用。
数据 应用
数据 存储
源数 据
报表展示
即席查询
数据分析
数据挖掘
聚合数据
E T L
点击流日志
多维数据模型 细节数据
业务模型
数据库数据
文档数据
其它
数据库与数据仓库的区别
➢数据库是数据仓库的基础,数据库是为了捕获数据而设计的,而数 据仓库是为了分析数据而设计的,除此之外,数据库与数据仓库在其 他方面也存在着一些差别。
顾客
账户
保险 金
索赔
数据仓库主题
数据仓库的特点
集
• 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、
成
汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整
性
个企业的一致的全局信息。
不同的操作型系统之间的数据一般是相互独立、 异构的,而数据仓库中的数据是对分散的数据 进行抽取、清理、转换和汇总后得到的,这个 过程我称之为ETL处理过程,我们在下一章将 会深入研究ETL过程。
决策支持
数据分析与挖掘
数据仓库 数据源
02
ETL处理过程
什么是ETL
➢ETL(Extract-Transform-Load)是将联机事务处理系 统的数据经过抽取、清洗转换之后加载到数据仓库的过 程,目的是将企业中的分散、零乱、标准不统一的数据 整合到一起,为企业的决策提供分析依据。ETL是构建 数据仓库的重要过程。
商务智能原理与应用 -第二章
数据仓库
前请回顾
1
商务智能产生的背景 2
商务智能的定义
3
商务智能的基本架构 4
商务智能相关的技术
5
商务智能在一些行业中的实际应用
目录
01
数据仓库概念
ETL处理过程
02
数据仓库工具Hive
03
04
数据仓库模型
01
数据仓库概念
什么是数据仓库?
数据仓库是一个面向主题的(Subject Oriented)、
数据仓库
实时更新,增删改操作多 技术难点多
只需定期加载、刷新, 删除和修改操作少
查询要求高
数据仓库的特点
反映历 史变化
• 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常 包含历史信息,系统记录了企业从过去某一时间点(如开始应用数据仓库的时间) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做 出定量分析和预测。
数据库与数据仓库的区别
数据结构
• 数据库中的建模一般遵循三范式,是高度结构化、复杂、适合操作计算的 数据,而数据仓库的建模有特定的方式,一般采用维度建模,数据结构比较 简单,可以提高查询效率,适合统计分析。
数据规模
• 数据仓库中的数据通常来源于多个不同的联机事物处理系统数据库(存储 多年的数据),数据量远远大于操作型数据库,一般作为企业数据中心用。
集成的(Integrated)、相对稳定的(Non-
定
Volatile)、反映历史变化(Time Variant)的数据
义
wk.baidu.com
集合,用于支持管理决策(Decision Making
Support)。
——数据仓库之父 比尔·恩门 (Bill Inmon)
• 数据仓库是一种存储方案,不是具体的某个产品
理
• 数据仓库用于支持决策,面向分析型数据处理
使用频率
• 数据库存储的是联机事务处理的操作数据,通常联机事务处理每时每刻都 在进行着对数据的读写,对数据的使用频率较高。而数据仓库是为分析型系 统提供数据支持,一般是企业管理层或者决策者需要,使用频率较低。
数据库与数据仓库的区别
设计方式
• 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库 在设计是有意引入冗余,采用反范式的方式来设计。
数据库1 数据库2 数据库3
ETL处理
数据仓库
数据仓库的特点
数据相 对稳定
• 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询, 一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中 一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据库