BI概念以及数据仓库讲解
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
integration intelligence insight
1
数据仓库概念
integration intelligence insight
2
知识模块分解
此次课程涵盖下面的模块:
▪ 模块1:
数据仓库 - 概述 以及 数据仓库和 OLTP(联机事务处理)的对比
▪ 模块2:
数据仓库架构
▪ 模块3:
抽取/转换服务器
integration intelligence insight
• 元数据设计/管理 • 清洗工具 • 映射工具 • 抽取管理工具 • 转换工具 • 移植管理工具
32
数据仓库架构
• 通用的两类架构 ▪ 独立的数据集市 ▪ 数据集市和操作型数据存储
这两个层次的架构都会涉及到数据的抽取,转换及加载( ETL)
14
数据仓库
数据仓库是
▪ 面向主题的 ▪ 集成的 ▪ 时变的(随时间变化的) ▪ 非易失的 ▪ 易得到的
数据集合,主要用于组织里的决策制定.
-- Bill Inmons, Building the Data Warehouse 1996
integration intelligence insight
什么产品促销方式最能 影响收入?
哪些客户最有可能流失 到竞争对手那里?
新产品/服务会对收入 和利润有什么影响?
integration intelligence insight
8
数据, 数据无处不在.然而 …
• 我找不到我所需要的数据 ▪ 数据分散在网络上的各个地方 ▪ 数据存在多个版本, 其中有细小的差别
Barry Devlin
integration intelligence insight
10
什么是数据仓库
▪ 数据仓库的目标,是利用组织里的数据,更加有效地辅助决策过程.
▪ 数据仓库是收集组织后的数据集合.它容易通过分析、抽取、合并,进而被用 来进一步理解数据.它可以与收集数据来进行即时处理的业务系统进行对比, 如订单和付款事务处理,尽管其数据也可能成为数据仓库的一部分.
▪ 数据整合 :决策支持需要整合 (聚合,汇总)来自多个异构数据源(操作型数 据库,外部数据源)的数据
▪ 数据质量:不同数据源经常使用不一致的数据表现形式、代码、格式,需要统 一它们
integration intelligence insight
19
数据仓库的好处
• 可靠的报表 • 快速得到数据 • 集成的数据 • 灵活的数据展示方式 • 更好的决策制定
• 商务智能 (BI)包含的应用系统和技术较宽泛,通过收集、存储、 分析和提供对数据的访问,来帮助企业用户做出更好的商务决 策.
• BI 应用包括决策支持、查询和报表、联机分析处理OLAP、统 计分析、预测和数据挖掘等活动.
例如 : Business Objects : .businessobjects
L
T E
每个独立的数据集市必须单独进 数据获取复杂是由于存
行ETL
在多个数据集市造成的
integration intelligence insight
35
非独立数据集市和操作型数据存储
ODS提供获取当前最新 数据的渠道
L
T E
数据访问将变得简单
对于企业数据仓库的单一ETL过 非独立数据集市可以通
程
4. 数据仓库的并发用户数量不是很多 False/True
5. 数据抽取是_____________过程 A. 从数据源获取信息/数据,并将其变成可用于数据仓库 B. 将抽取的数据加载到数据仓库 C. Both
integration intelligence insight
Data Mart Forecasting
integration intelligence insight
12
什么是数据仓库
Information
是一个将数据转换成信息、 使其能及时供最终用户使用 的过程.
Data
integration intelligence insight
13
演变过程
• 60年代: 批处理报表
▪ 难于查找和分析信息 ▪ 缺乏灵活性,成本昂贵,对于每个新需求都要重新编程
本模块提供
▪ 需要数据仓库的原因 ▪ 什么是数据仓库 ▪ 数据仓库的发展过程 ▪ 数据仓库架构 ▪ 数据挖掘如何和数据仓库共同工作的 ▪ 使用数据仓库的好处 ▪ 为什么需要一个分离的数据仓库 ▪ OLTP和数据仓库之间的区别
5
integration intelligence insight
5
什么是 BI
过企业数据仓库加载数
(EDW)
据
integration intellig构 独立数据集市 非独立数据集市
各个数据集市 之间数据存储 相互独立
数据和维度可在 多个数据集市之 间共享
integration intelligence insight
37
测验
ETL 过程
▪ 模块4:
数据仓库和数据集市的对比,以及数据仓库概念模型
▪ 模块5:
OLAP(联机分析处理)概述
▪ 模块6:
数据仓库成功的诀窍
3
integration intelligence insight
3
数据仓库概念
模块1
integration intelligence insight
4
包含的主题
26
测验
1. _____是数据仓库的面向一个主题的视图 OLTP 系统/ Data Staging Area/ Data Mart/ None
2. 数据挖掘意味着_____ Modeling/Forecasting/Explanatory Analysis
3. 订单输入系统是一个OLTP 系统的例子 True/False
integration intelligence insight
23
OLTP Vs 数据仓库
• OLTP
• 数据仓库
▪ 对性能敏感 ▪ 同时访问少量的记录(数十条) ▪ 可以读和更新 ▪ 没有数据冗余 ▪ DB大小:100MB -100 GB ▪ 用户:数百个- 数千个
▪ 对性能不敏感 ▪ 同时访问大量的数据 (数百万条) ▪ 主要是读(批量更新) ▪ 存在数据冗余 ▪ DB大小:100 GB - TB ▪ 用户:数个- 数百个
▪ 数据仓库是一个集成的中央数据库,包含来自于组织内的所有操作型数据源 和归档系统.它包含了事务处理系统数据的拷贝、特别是用于查询分析的结 构化数据.
11
integration intelligence insight
11
用户要说的是... • 应该整合整个企业内的数据 • 汇总数据对整个组织具有价值 • 历史数据有重要作用 • 灵活的决策支持能力
30
数据仓库架构
业务系统
外部系统
信息转换/集成架构
备份服务
财务数据集市 销售数据集市
独立的
非独立的
市场数据集市 非独立的
企业数据仓库 外部客户
局域网客户
网络服务器
integration intelligence insight
31
数据仓库架构
元数据存储
临时存储区
往数据仓库/数据集市
遗留系统 数据存储介质
integration intelligence insight
18
为什么要分离出数据仓库
• 性能
▪ 操作型数据库设计,应用于已知事务和工作量的场合 ▪ 对于操作型系统来说,进行复杂的OLAP查询会使其性能下降. ▪ 对多维视图和查询,需要特殊的数据组织方式,读取方法,实施方案.
• 功能
▪ 遗失数据:决策支持需要历史数据,而操作型数据库并不保存它
• 我不能获取我所需要的数据 ▪ 需要一个专家来获取数据
• 我无法理解所找到的数据 ▪ 可得到的数据,但对应的文档说明很糟糕
• 我无法使用所找到的数据 ▪ 结果不是期望的 ▪ 数据需要从一种形式转换到另外一种形式
integration intelligence insight
9
什么是数据仓库
单一的、完整的和一致的数 据存储,这些数据从多个数据 源获取,经过加工成在一定程 度上为最终用户可理解的形 式,以用于业务管理.
integration intelligence insight
20
那么, 二者的区别是什么
integration intelligence insight
21
面向应用的 vs 面向主题的
面向应用的
操作型数据 库
面向主题的
数据仓库
贷款 存款
信用卡 信托
客户 产品
integration intelligence insight
integration intelligence insight
24
总的来说...
• OLTP 系统用来运行事 务处理
• 数据仓库用来帮助优化 业务
integration intelligence insight
25
要点概述
什么是BI 什么是数据仓库
BI集成了挖掘数据,分析,报
表的功能. 来自多个数据源的单
29
涵盖的主题
这个部分包括下列内容:
▪ 数据仓库架构 ▪ 基本的两个层次架构
独立的数据集市 数据集市及数据存储 ▪ ETL过程 ▪ 数据质量保证 ▪ 数据质量保证工具 ▪ ETL 工具 ▪ 元数据及其重要性
integration intelligence insight
30
integration intelligence insight
6
integration intelligence insight
6
BI- 简而言之
Raw Data
integration intelligence insight
7
integration intelligence insight
7
一个厂商想知道….
什么是最有效的 分销渠道?
哪些人是带给我们最低/ 最高利润的客户? 哪些人是我们的客户以及 他们买什么产品?
1. 对于自顶向下的方法,下面那个表述是错的
a. 数据仓库中保存着从源系统抽取出来的原子数据,在那里,数据被分派到单个或者多个不同的数据
供应商 活动
22
对比OLTP 和 数据仓库
• OLTP
▪ 面向应用的 ▪ 用来运行事务处理 ▪ 详细的数据 ▪ 当前最新数据 ▪ 孤立的数据 ▪ 重复访问 ▪ 操作人员
• 数据仓库 (DSS)
▪ 面向主题的 ▪ 用来分析业务 ▪ 汇总和精炼的数据 ▪ 快照数据 ▪ 集成的数据 ▪ 即席查询 ▪ 知识用户 (管理者)
True True Both
27
数据仓库架构
模块2
integration intelligence insight
28
架构, 设计 & 构造 • 数据仓库架构 • 加载及更新 • 结构/模型
integration intelligence insight
integration intelligence insight
一的,完整的一致的数
据存储.
数据挖掘提供从企业数
据仓库中挖掘的知识.
数据仓库架构 数据挖掘如何同数据仓库共同工作
可靠的报表 用来运行业务
数据仓库的好处
快速读取数据
数据仓库和OLTP的区别
集成数据
需要分离出数据仓库的原因
更好的进行决策
用来分析业务
integration intelligence insight
integration intelligence insight
17
什么使数据挖掘成为可能
如下领域的发展,使得数据挖掘的运用成为可能:
▪ 数据仓库 ▪ 更好和更多的数据 (如, 操作型数据, 行为数据, 以及人
口统计学数据) ▪ 易于部署的数据挖掘工具的出现 ▪ 新的数据挖掘技术的出现.
-- Gartner Group
integration intelligence insight
33
通用的两类架构
L
One,
company-
wide
T
warehous
e
E
周期性抽取——数据仓库的数据并不全都是最新的数据
integration intelligence insight
34
独立数据集市
数据集市:
小型数据仓库, 范围有所限制
15
数据仓库架构
Relational Databases
ERP Systems
抽取 清洗
Purchased Data
优化加载
数据仓库引擎
分析 查询
Legacy Data
integration intelligence insight
16
数据挖掘和数据仓库 • 数据仓库是企业的数据存储
• 数据挖掘是挖掘出企业数据 中的知识
• 70年代: 基于终端的DSS 和and EIS (主管信息系统)
▪ 仍然缺乏灵活性,没有和桌面工具集成起来
• 80年代:桌面级数据访问和分析工具
▪ 查询工具,电子表格,图形界面 ▪ 易于使用,但是只能访问操作型数据库
• 90年代至今: 带有集成OLAP引擎和工具的数据仓库,实时 数据仓库
integration intelligence insight
1
数据仓库概念
integration intelligence insight
2
知识模块分解
此次课程涵盖下面的模块:
▪ 模块1:
数据仓库 - 概述 以及 数据仓库和 OLTP(联机事务处理)的对比
▪ 模块2:
数据仓库架构
▪ 模块3:
抽取/转换服务器
integration intelligence insight
• 元数据设计/管理 • 清洗工具 • 映射工具 • 抽取管理工具 • 转换工具 • 移植管理工具
32
数据仓库架构
• 通用的两类架构 ▪ 独立的数据集市 ▪ 数据集市和操作型数据存储
这两个层次的架构都会涉及到数据的抽取,转换及加载( ETL)
14
数据仓库
数据仓库是
▪ 面向主题的 ▪ 集成的 ▪ 时变的(随时间变化的) ▪ 非易失的 ▪ 易得到的
数据集合,主要用于组织里的决策制定.
-- Bill Inmons, Building the Data Warehouse 1996
integration intelligence insight
什么产品促销方式最能 影响收入?
哪些客户最有可能流失 到竞争对手那里?
新产品/服务会对收入 和利润有什么影响?
integration intelligence insight
8
数据, 数据无处不在.然而 …
• 我找不到我所需要的数据 ▪ 数据分散在网络上的各个地方 ▪ 数据存在多个版本, 其中有细小的差别
Barry Devlin
integration intelligence insight
10
什么是数据仓库
▪ 数据仓库的目标,是利用组织里的数据,更加有效地辅助决策过程.
▪ 数据仓库是收集组织后的数据集合.它容易通过分析、抽取、合并,进而被用 来进一步理解数据.它可以与收集数据来进行即时处理的业务系统进行对比, 如订单和付款事务处理,尽管其数据也可能成为数据仓库的一部分.
▪ 数据整合 :决策支持需要整合 (聚合,汇总)来自多个异构数据源(操作型数 据库,外部数据源)的数据
▪ 数据质量:不同数据源经常使用不一致的数据表现形式、代码、格式,需要统 一它们
integration intelligence insight
19
数据仓库的好处
• 可靠的报表 • 快速得到数据 • 集成的数据 • 灵活的数据展示方式 • 更好的决策制定
• 商务智能 (BI)包含的应用系统和技术较宽泛,通过收集、存储、 分析和提供对数据的访问,来帮助企业用户做出更好的商务决 策.
• BI 应用包括决策支持、查询和报表、联机分析处理OLAP、统 计分析、预测和数据挖掘等活动.
例如 : Business Objects : .businessobjects
L
T E
每个独立的数据集市必须单独进 数据获取复杂是由于存
行ETL
在多个数据集市造成的
integration intelligence insight
35
非独立数据集市和操作型数据存储
ODS提供获取当前最新 数据的渠道
L
T E
数据访问将变得简单
对于企业数据仓库的单一ETL过 非独立数据集市可以通
程
4. 数据仓库的并发用户数量不是很多 False/True
5. 数据抽取是_____________过程 A. 从数据源获取信息/数据,并将其变成可用于数据仓库 B. 将抽取的数据加载到数据仓库 C. Both
integration intelligence insight
Data Mart Forecasting
integration intelligence insight
12
什么是数据仓库
Information
是一个将数据转换成信息、 使其能及时供最终用户使用 的过程.
Data
integration intelligence insight
13
演变过程
• 60年代: 批处理报表
▪ 难于查找和分析信息 ▪ 缺乏灵活性,成本昂贵,对于每个新需求都要重新编程
本模块提供
▪ 需要数据仓库的原因 ▪ 什么是数据仓库 ▪ 数据仓库的发展过程 ▪ 数据仓库架构 ▪ 数据挖掘如何和数据仓库共同工作的 ▪ 使用数据仓库的好处 ▪ 为什么需要一个分离的数据仓库 ▪ OLTP和数据仓库之间的区别
5
integration intelligence insight
5
什么是 BI
过企业数据仓库加载数
(EDW)
据
integration intellig构 独立数据集市 非独立数据集市
各个数据集市 之间数据存储 相互独立
数据和维度可在 多个数据集市之 间共享
integration intelligence insight
37
测验
ETL 过程
▪ 模块4:
数据仓库和数据集市的对比,以及数据仓库概念模型
▪ 模块5:
OLAP(联机分析处理)概述
▪ 模块6:
数据仓库成功的诀窍
3
integration intelligence insight
3
数据仓库概念
模块1
integration intelligence insight
4
包含的主题
26
测验
1. _____是数据仓库的面向一个主题的视图 OLTP 系统/ Data Staging Area/ Data Mart/ None
2. 数据挖掘意味着_____ Modeling/Forecasting/Explanatory Analysis
3. 订单输入系统是一个OLTP 系统的例子 True/False
integration intelligence insight
23
OLTP Vs 数据仓库
• OLTP
• 数据仓库
▪ 对性能敏感 ▪ 同时访问少量的记录(数十条) ▪ 可以读和更新 ▪ 没有数据冗余 ▪ DB大小:100MB -100 GB ▪ 用户:数百个- 数千个
▪ 对性能不敏感 ▪ 同时访问大量的数据 (数百万条) ▪ 主要是读(批量更新) ▪ 存在数据冗余 ▪ DB大小:100 GB - TB ▪ 用户:数个- 数百个
▪ 数据仓库是一个集成的中央数据库,包含来自于组织内的所有操作型数据源 和归档系统.它包含了事务处理系统数据的拷贝、特别是用于查询分析的结 构化数据.
11
integration intelligence insight
11
用户要说的是... • 应该整合整个企业内的数据 • 汇总数据对整个组织具有价值 • 历史数据有重要作用 • 灵活的决策支持能力
30
数据仓库架构
业务系统
外部系统
信息转换/集成架构
备份服务
财务数据集市 销售数据集市
独立的
非独立的
市场数据集市 非独立的
企业数据仓库 外部客户
局域网客户
网络服务器
integration intelligence insight
31
数据仓库架构
元数据存储
临时存储区
往数据仓库/数据集市
遗留系统 数据存储介质
integration intelligence insight
18
为什么要分离出数据仓库
• 性能
▪ 操作型数据库设计,应用于已知事务和工作量的场合 ▪ 对于操作型系统来说,进行复杂的OLAP查询会使其性能下降. ▪ 对多维视图和查询,需要特殊的数据组织方式,读取方法,实施方案.
• 功能
▪ 遗失数据:决策支持需要历史数据,而操作型数据库并不保存它
• 我不能获取我所需要的数据 ▪ 需要一个专家来获取数据
• 我无法理解所找到的数据 ▪ 可得到的数据,但对应的文档说明很糟糕
• 我无法使用所找到的数据 ▪ 结果不是期望的 ▪ 数据需要从一种形式转换到另外一种形式
integration intelligence insight
9
什么是数据仓库
单一的、完整的和一致的数 据存储,这些数据从多个数据 源获取,经过加工成在一定程 度上为最终用户可理解的形 式,以用于业务管理.
integration intelligence insight
20
那么, 二者的区别是什么
integration intelligence insight
21
面向应用的 vs 面向主题的
面向应用的
操作型数据 库
面向主题的
数据仓库
贷款 存款
信用卡 信托
客户 产品
integration intelligence insight
integration intelligence insight
24
总的来说...
• OLTP 系统用来运行事 务处理
• 数据仓库用来帮助优化 业务
integration intelligence insight
25
要点概述
什么是BI 什么是数据仓库
BI集成了挖掘数据,分析,报
表的功能. 来自多个数据源的单
29
涵盖的主题
这个部分包括下列内容:
▪ 数据仓库架构 ▪ 基本的两个层次架构
独立的数据集市 数据集市及数据存储 ▪ ETL过程 ▪ 数据质量保证 ▪ 数据质量保证工具 ▪ ETL 工具 ▪ 元数据及其重要性
integration intelligence insight
30
integration intelligence insight
6
integration intelligence insight
6
BI- 简而言之
Raw Data
integration intelligence insight
7
integration intelligence insight
7
一个厂商想知道….
什么是最有效的 分销渠道?
哪些人是带给我们最低/ 最高利润的客户? 哪些人是我们的客户以及 他们买什么产品?
1. 对于自顶向下的方法,下面那个表述是错的
a. 数据仓库中保存着从源系统抽取出来的原子数据,在那里,数据被分派到单个或者多个不同的数据
供应商 活动
22
对比OLTP 和 数据仓库
• OLTP
▪ 面向应用的 ▪ 用来运行事务处理 ▪ 详细的数据 ▪ 当前最新数据 ▪ 孤立的数据 ▪ 重复访问 ▪ 操作人员
• 数据仓库 (DSS)
▪ 面向主题的 ▪ 用来分析业务 ▪ 汇总和精炼的数据 ▪ 快照数据 ▪ 集成的数据 ▪ 即席查询 ▪ 知识用户 (管理者)
True True Both
27
数据仓库架构
模块2
integration intelligence insight
28
架构, 设计 & 构造 • 数据仓库架构 • 加载及更新 • 结构/模型
integration intelligence insight
integration intelligence insight
一的,完整的一致的数
据存储.
数据挖掘提供从企业数
据仓库中挖掘的知识.
数据仓库架构 数据挖掘如何同数据仓库共同工作
可靠的报表 用来运行业务
数据仓库的好处
快速读取数据
数据仓库和OLTP的区别
集成数据
需要分离出数据仓库的原因
更好的进行决策
用来分析业务
integration intelligence insight
integration intelligence insight
17
什么使数据挖掘成为可能
如下领域的发展,使得数据挖掘的运用成为可能:
▪ 数据仓库 ▪ 更好和更多的数据 (如, 操作型数据, 行为数据, 以及人
口统计学数据) ▪ 易于部署的数据挖掘工具的出现 ▪ 新的数据挖掘技术的出现.
-- Gartner Group
integration intelligence insight
33
通用的两类架构
L
One,
company-
wide
T
warehous
e
E
周期性抽取——数据仓库的数据并不全都是最新的数据
integration intelligence insight
34
独立数据集市
数据集市:
小型数据仓库, 范围有所限制
15
数据仓库架构
Relational Databases
ERP Systems
抽取 清洗
Purchased Data
优化加载
数据仓库引擎
分析 查询
Legacy Data
integration intelligence insight
16
数据挖掘和数据仓库 • 数据仓库是企业的数据存储
• 数据挖掘是挖掘出企业数据 中的知识
• 70年代: 基于终端的DSS 和and EIS (主管信息系统)
▪ 仍然缺乏灵活性,没有和桌面工具集成起来
• 80年代:桌面级数据访问和分析工具
▪ 查询工具,电子表格,图形界面 ▪ 易于使用,但是只能访问操作型数据库
• 90年代至今: 带有集成OLAP引擎和工具的数据仓库,实时 数据仓库
integration intelligence insight