《数据仓库结构体系》PPT课件
合集下载
《数据仓库》PPT课件 (2)
数据仓库体系结构
数据库系统模式(操作型数据)
采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日
期, … ) 供应商(供应商号,供应商名,地址,电话,…)
销售子系统: 客户(客户号,姓名,地址,电话, … ) 销售(客户号,商品号,数量,单价,日期, … )
库存子系统: 进库单(编号,商品号,数量,单价,日期, … ) 出库单(编号,商品号,数量,单价,日期, … ) 库存(商品号, 库房号,类别,单价,库存数量,
21
第2章 数据仓库
数据仓库体系结构
数据源
数据仓库
RDBMS 数据文件
其他
综合数据 当前数据 历史数据 元数据
分析工具 查询工具 OLAP工具 DM工具
抽取、转换、装载
精选ppt
22
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构实例-税务数据仓库
数据源
ETL
数据存储
数据访问 数据展示
生产 数据库
数据集市
EXCEL
数据仓库
5-10 年
当前 详细数据
过去 详细数据
精选ppt
25
第2章 数据仓库
数据仓库体系结构
数据仓库数据的组织
• 数据由操作型环境(综合)导入数据仓库 • 数据具有不同的细节
早期细节级(过期数据) 当前细节级 轻度综合数据级(数据集市) 高度综合数据级
精选ppt
26
第2章 数据仓库
多渠道
社保库
遗留系统 数据库
E
外部 数据源
数据复制 平台
转换 T 中转区
L 加载 中转区
文档 数据
地市库
个税库
数据库系统模式(操作型数据)
采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日
期, … ) 供应商(供应商号,供应商名,地址,电话,…)
销售子系统: 客户(客户号,姓名,地址,电话, … ) 销售(客户号,商品号,数量,单价,日期, … )
库存子系统: 进库单(编号,商品号,数量,单价,日期, … ) 出库单(编号,商品号,数量,单价,日期, … ) 库存(商品号, 库房号,类别,单价,库存数量,
21
第2章 数据仓库
数据仓库体系结构
数据源
数据仓库
RDBMS 数据文件
其他
综合数据 当前数据 历史数据 元数据
分析工具 查询工具 OLAP工具 DM工具
抽取、转换、装载
精选ppt
22
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构实例-税务数据仓库
数据源
ETL
数据存储
数据访问 数据展示
生产 数据库
数据集市
EXCEL
数据仓库
5-10 年
当前 详细数据
过去 详细数据
精选ppt
25
第2章 数据仓库
数据仓库体系结构
数据仓库数据的组织
• 数据由操作型环境(综合)导入数据仓库 • 数据具有不同的细节
早期细节级(过期数据) 当前细节级 轻度综合数据级(数据集市) 高度综合数据级
精选ppt
26
第2章 数据仓库
多渠道
社保库
遗留系统 数据库
E
外部 数据源
数据复制 平台
转换 T 中转区
L 加载 中转区
文档 数据
地市库
个税库
数据仓库技术PPT课件( 25页)
像外行一样思考,像专家一样实践
2019/5/31
杭州斯凯网络科技有限公司
かなで たけお
金出 武雄
24
•
5、世上最美好的事是:我已经长大,父母还未老;我有能力报答,父母仍然健康。
•
6、没什么可怕的,大家都一样,在试探中不断前行。
•
7、时间就像一张网,你撒在哪里,你的收获就在哪里。纽扣第一颗就扣错了,可你扣到最后一颗才发现。有些事一开始就是错的,可只有到最后才不得不承认。
8
数据仓库的架构类型
2019/5/31
杭州斯凯网络科技有限公司
9
Oracle数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
10
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
11
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
12
2019/5/31
杭州斯凯网络科技有限公司
20
软件物理架构比较
软件物理架构主要特征区别就是行存储和列存 储。这个也是曾经很多厂商津津乐道的地方,根 据需求的不同,2种方式可以灵活采用。
大部分DB软件都是采用行存储,而列存储 的特征在于高效的单列值压缩,在选择列比较少 的时候需要io要求很低,速度很快,不过行存储 的DB目前在压缩效率上也在迅速提升,大部分需 求还是选择行数据进行观察,行存储也更加便于 表的按记录拆分进行并行化。
MapReduce 概念
MapReduce是一种编程模型(并不是google自己开发的 编程工具),用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(化简)",和他们的主要 思想,都是从函数式编程语言里借来的,还有从矢量编程 语言里借来的特性。他极大地方便了编程人员在不会分布 式并行编程的情况下,将自己的程序运行在分布式系统上。
《数据仓库》课件 (2)
数据仓库PPT课件 (2)
本课程将介绍数据仓库的定义、架构和应用,以及未来发展趋势和实现要点。
什么是数据仓库
定义
数据仓库是为了支持企业决策而设计的一种面向主题的、集成的、随时间变化而存储的数据 集合。
特点
数据仓库通过ETL过程,将分散的、异构的数据整合在一起,便于数据分析和决策支持。
区别
相比传统的OLTP系统,数据仓库更侧重于历史数据的存储和分析,而不是实时的事务处理。
数据仓库的架构
三层架构
数据仓库通常采用三层架构:数据 源层、数据存储层和数据展示层。
星型模式
维度建模是一种常见的数据仓库设 计方法,其中以某个业务过程为中 心的表称为事实表,以事实表中记 录所描述的业务过程为主题的表称 为维度表。
存储技术
数据仓库的存储技术包括关系型数 据库、列式存储和NoSQL数据库等 多种形式。
数据仓库的案例
银行信用卡分析数据仓库
银行为了管理信用卡业务和客 户信息,建立了基于数据仓库 的信用卡分析系统。
零售企业销售数据仓库
零售企业通过数据仓库实现对 商品销售、客户关系和供应链 的管理和分析。
航空公司航班数据仓库
航空公司通过数据仓库对航班、 机票销售、客户关系等数据进 行分析,提高运营效率和服务 水平。
数据仓库的应用
数据分析与决策支持
数据仓库为企业提供决策支持所需 的数据平台,包括数据分析、数据 挖掘、业务智能等多个方面。
大数据、云计算与数据仓库
数据仓库在大数据和云计算时代呈 现全新发展趋势,例如基于云计算 的数据仓库服务、数据湖等。
数据仓库的发展趋势
数据仓库的发展趋势包括数据仓库 自动化、流数据仓库、企业级数据 智能等多个方面。
本课程将介绍数据仓库的定义、架构和应用,以及未来发展趋势和实现要点。
什么是数据仓库
定义
数据仓库是为了支持企业决策而设计的一种面向主题的、集成的、随时间变化而存储的数据 集合。
特点
数据仓库通过ETL过程,将分散的、异构的数据整合在一起,便于数据分析和决策支持。
区别
相比传统的OLTP系统,数据仓库更侧重于历史数据的存储和分析,而不是实时的事务处理。
数据仓库的架构
三层架构
数据仓库通常采用三层架构:数据 源层、数据存储层和数据展示层。
星型模式
维度建模是一种常见的数据仓库设 计方法,其中以某个业务过程为中 心的表称为事实表,以事实表中记 录所描述的业务过程为主题的表称 为维度表。
存储技术
数据仓库的存储技术包括关系型数 据库、列式存储和NoSQL数据库等 多种形式。
数据仓库的案例
银行信用卡分析数据仓库
银行为了管理信用卡业务和客 户信息,建立了基于数据仓库 的信用卡分析系统。
零售企业销售数据仓库
零售企业通过数据仓库实现对 商品销售、客户关系和供应链 的管理和分析。
航空公司航班数据仓库
航空公司通过数据仓库对航班、 机票销售、客户关系等数据进 行分析,提高运营效率和服务 水平。
数据仓库的应用
数据分析与决策支持
数据仓库为企业提供决策支持所需 的数据平台,包括数据分析、数据 挖掘、业务智能等多个方面。
大数据、云计算与数据仓库
数据仓库在大数据和云计算时代呈 现全新发展趋势,例如基于云计算 的数据仓库服务、数据湖等。
数据仓库的发展趋势
数据仓库的发展趋势包括数据仓库 自动化、流数据仓库、企业级数据 智能等多个方面。
数据仓库概述PPT(共 57张)
决策支持系统:需要花数小时甚至更长时 间的处理、需要遍历数据库中的大部分数据, 进行复杂的计算,需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
数据仓库的概念与体系结构PPT课件
– 围绕一些主题,如顾客、供应商、产品等 – 关注决策者的数据建模与分析,而不是集中于
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
数据仓库专题讲义PPT公开课(43页)
OLAP的多维数据概念
数据单元。多维数据集的取值称为数据单元。 当在多维数据集的每个维都选中一个维成员以
后,这些维成员的组合就惟一确定了观察变量 的值。
OLAP多维数据分析
1.切片和切块(Slice and Dice)
在多维数据结构中,按二维进行切片,按三维进行切块,可 得到所需要的数据。如在“城市、产品、时间”三维立 方体中进行切块和切片,可得到各城市、各产品的销售情 况。
数据的存储与管理
数据的存储与管理是整个数据仓库系统的核心。 针对现有各业务系统的数据,进行抽取、清理, 并有效集成,按照主题进行组织。数据仓库按照 数据的覆盖范围可以分为企业级数据仓库和部门 级数据仓库(通常称为数据集市)。
OLAP服务器
OLAP服务器对分析需要的数据进行有效集成, 按多维模型予以组织,以便进行多角度、多层 次的分析,并发现趋势。
数据仓库四个特点-相对稳定
操作型数据库中的数据通常实时更新,数据 根据需要及时发生变化。数据仓库的数据主 要供企业决策分析之用,所涉及的数据操作 主要是数据查询,一旦某个数据进入数据仓 库以后,一般情况下将被长期保留,也就是 数据仓库中一般有大量的查询操作,但修改 和删除操作很少,通常只需要定期的加载、 刷新。
2.钻取(Drill)
钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/ 上卷(Roll-up)操作, 钻取的深度与维所划分的层次相 对应。
数据仓库四个特点-反映历史变化
数据仓库本质
如果说传统数据库系统的要求是快速、准确、安全、 可靠地将数据存进数据库中的话,那么数据仓库的 要求就是能够准确、安全、可靠地从数据库中取出 数据,经过加工转换成有规律信息之后,再供管理 人员进行分析使用。
数据仓库知识分享ppt课件
关系数据库将多维数据库中的多维结构 分为两类:一类是事实表,用来存储事 实的度量值以及各个维的码值;另一类 是维表。
16
星形模型
连锁店销售主题
17
雪花模型 星形的扩展
18
19
10
ETL
11ቤተ መጻሕፍቲ ባይዱ
元数据(metedata)
元数据是“关于数据的数据” (RDBMS中的数据字典就是一种元数 据)。
数据仓库中的元数据描述了数据的结 构、内容、索引、码、数据转换规则、 粒度定义等。
12
维
数据仓库和OLAP工具基于多维数据模型(在数据仓库中, 通常以多维方式来存储数据。 )。
9
操作数据存储(ODS )
在许多情况下,DB-DW的两层体系结构并不 适合企业的数据处理要求。因为,虽然可以粗略 地把数据处理分成操作型和分析型,但这两种处 理处理并不是泾渭分明的。
ODS(Operational Data Store)作为一个中间 层次,一方面,它包含企业全局一致的、细节的、 当前的或接近当前的数据,另一方面,它又是一 个面向主题、集成的数据环境,适合完成日常决 策的分析处理。
基本概念 维:人们观察数据的特定角度,属性集合构成一个维
(时间维 地理维)。 维的层次:人们观察数据的特定角度可能存在细节程
度不同的多个描述方面,我们称其为维的层次。 多维分析的基本动作 上卷:汇总数据 下钻:明细数据 切片,旋转,。
13
维
14
多维数据模型
15
多维设计模型
数据仓库的设计模型有:星型模式,雪 花模式,混合模式
数据仓库相关基础知识
1
简介
介绍数据仓库的一些基础知识概念。 对大家的帮助,大气共享项目数据结构
16
星形模型
连锁店销售主题
17
雪花模型 星形的扩展
18
19
10
ETL
11ቤተ መጻሕፍቲ ባይዱ
元数据(metedata)
元数据是“关于数据的数据” (RDBMS中的数据字典就是一种元数 据)。
数据仓库中的元数据描述了数据的结 构、内容、索引、码、数据转换规则、 粒度定义等。
12
维
数据仓库和OLAP工具基于多维数据模型(在数据仓库中, 通常以多维方式来存储数据。 )。
9
操作数据存储(ODS )
在许多情况下,DB-DW的两层体系结构并不 适合企业的数据处理要求。因为,虽然可以粗略 地把数据处理分成操作型和分析型,但这两种处 理处理并不是泾渭分明的。
ODS(Operational Data Store)作为一个中间 层次,一方面,它包含企业全局一致的、细节的、 当前的或接近当前的数据,另一方面,它又是一 个面向主题、集成的数据环境,适合完成日常决 策的分析处理。
基本概念 维:人们观察数据的特定角度,属性集合构成一个维
(时间维 地理维)。 维的层次:人们观察数据的特定角度可能存在细节程
度不同的多个描述方面,我们称其为维的层次。 多维分析的基本动作 上卷:汇总数据 下钻:明细数据 切片,旋转,。
13
维
14
多维数据模型
15
多维设计模型
数据仓库的设计模型有:星型模式,雪 花模式,混合模式
数据仓库相关基础知识
1
简介
介绍数据仓库的一些基础知识概念。 对大家的帮助,大气共享项目数据结构
数据仓库概述(PPT 90页)
6 数据管理员 是负责数据导入时管理数据质量的专业人员,还检阅提取日志,发现其中数据
提取的错误和源于业务系统的错误。
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据
DW&DM
2000-2-3 2000-2-4 2000-2-5
…..
2/3/2000 2/4/2000 2/5/2000
…..
2000/2/3 2000/2/4 2000/2/5
…..
图1-9 数据格式的不一致
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据
2.数据处理的效率很低
• 在错综复杂的体系中,不同级别的数据库可能使用不同类型的数 据库系统,对于有巨型数据量的企业级数据库可能使用IBM DB2, 对于中小型数据库可能使用SQL Server。各种数据库的开发工具 和开发环境不同,抽取程序应用的技术不同,因而难以集成。
•
如果一个大型企业的决策者需要一份关于公司整体运营情况
可能和今天是不同的。可见,动用大量的人力,物力和时间才能
完成的报表不仅实效性很差,数据处理的效率也很低。
DW&DM
以数据库为中心 以数据仓库为中心
应用A 应用B 应用C
操作应用A 操作应用B 操作应用C
数据库
生产环境 数据库
以数据库为中心
生产环境
数据库
以数据仓库为中心
分析应用A 分析应用B 分析应用C
型系统的划分如图1-4所示。
数据仓库PPT
结论: 结论:
空间数据仓库是一个多种异构数据源在单个 站点以统一的模式组织的存储, 站点以统一的模式组织的存储,它的根本目 的是服务于决策支持, 的是服务于决策支持,是空间决策支持系统 SDSS)的核心。 (SDSS)的核心。
1.5 1.5 数据仓库与数据库的比较
数据仓库(DW) 数据仓库(DW) 分析型数据环境 面向空间分析(主题), 面向空间分析(主题), 支持SDSS 支持SDSS 集成的综合数据 历史数据(5-10年) 历史数据( 10年 定期加载,加载后极少更新 定期加载, 数据驱动的开发周期 CLDS) (CLDS) 数据库(DB) 数据库(DB) 操作型数据环境 面向业务, 面向业务,日常事务处理
高级数据库系统
基于WEB的空间数据库系统 的空间数据库系统 基于
90年代 90年代 到现在
空间数据分库和数据挖掘 空间属性一体化数据库系统) (空间属性一体化数据库系统)
基于XML的数据系统 的数据系统 基于
2000年 2000年 之后
第一代综合信息系统
空间数据库和联机处理 OLAP 空间数据挖掘SDM和知 空间数据挖掘 和知 识发现 KDD
集成的
具有关联机制, 具有关联机制,可为辅助决策集成多个不 同部门不同系统的大量数据异构空间。 同部门不同系统的大量数据异构空间。
稳定性
进入空间数据仓库的数据是不能或极少更 新的。 新的。
不同时间的
空间数据仓库内包含了大量历史数据, 空间数据仓库内包含了大量历史数据,时 限为5 10年 主要用于进行时间趋势分析。 限为5—10年,主要用于进行时间趋势分析。
1.2 空间数据仓库的概念
• 数据仓库的创始人 数据仓库的创始人W·H·Inmon曾经给数据 曾经给数据 仓库( 仓库(DW)下过一个定义:数据仓库是数 )下过一个定义: 据仓库向空间维的扩展, 据仓库向空间维的扩展,它是一个支持决 策过程的、面向主题的、集成的、稳定的、 策过程的、面向主题的、集成的、稳定的、 不同时间的空间数据的集合。 不同时间的空间数据的集合。
第1章数据仓库的概念与体系结构(2)精品PPT课件
数据仓库的特点:
相对稳定
数据操作主要是数据查询和定期更新 数据加载后,将作为数据档案长期保存
反映历史变化
数据仓库中的数据通常包含较久远的历史 数据
2020/10/24
数据仓库与数据挖掘
5
1.1 数据仓库的概念、特点与组成
数据仓库的组成:
数据仓库数据库; 数据抽取工具; 元数据:技术元数据与业务元数据; 访问工具; 数据集市(Data Marts); 数据仓库管理; 信息发布系统。
2020/10/24
数据仓库与数据挖掘
3
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题
数据仓库中的数据是按照一定的主题域进 行组织的
集成
数据仓库中的数据是在对原有分散的数据 库数据作抽取、清理的基础上经过系统加 工、汇总和整理得到的
2020/10/24
数据仓库与数据挖掘
4
1.1 数据仓库的概念、特点与组成
2020/10/24
数据仓库与数据挖掘
15
1.3 数据仓库的技术、方法与产品
OLAP根据其存储数据的方式可分为三类:
ROLAP, relational OLAP
事实表、维表
MOLAP, multidimensional OLAP HOLAP, hybrid OLAP
OLAP工具
针对特定问题的联机数据访问与分析,通过 多维的方式对数据进行分析、查询和报表
12
1.2 数据挖掘的概念与方法
数据仓库与数据挖掘的关系
若将数据仓库(Data Warehouse)比 作矿井,那么数据挖掘(Data Mining) 就是深入矿井采矿的工作
数据挖掘是从数据仓库中找出有用信息 的一种过程与技术
数据仓库ppt课件
精选编辑ppt
3
数据仓库——发展
数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提 出,主要功能是将组织透过资讯系统和联机事务处理(OLTP)经年累月 所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一 有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数 据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主 管资讯系统(EIS)之创建,帮助决策者能快速有效的从大量资料中,分 析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建 构商业智能(BI)。
精选编辑ppt
4
数据仓库——特征
1.数据仓库是面向主题的; 操作型数据库的数据组织面向事务处理任务,而数据仓库中的数
据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决 策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2.数据仓库是集成的;
数据仓库的数据有来自于分散的操作型数据,将所需数据从原来 的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据 仓库。 3.数据仓库是不可更新的;
元数据:是描述数据仓库内数据的结构和建立方法的数据。它为访问 数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有 什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户 通过他来了解和访问数据。
数据集市:是从数据仓库中独立出来的一部分数据,也可称为部门数 据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数据 集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注 意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容, 这样在以后实施数据仓库时才不会造成大麻烦。
数据仓库体系培训课件.pptx
数据存储·数据质量·元数据·安全
7
文思信息 版权所有,内部保密材料
BI环境内的数据架构
IT人员
高级分析人员 业务分析人员 决策用户
集市层
应用集市层 •面向应用的个性化定制。
指标库:规模指标、客户指标、盈利指标、风险指标等
汇总层
机构汇总 账户汇总
预连接/预处理 产品汇总
交易统计汇总
渠道汇总 客户汇总
管控平台
前端软件
前端软件
前端软件
前端软件
DM
信用卡 集市
DM
信贷集 市
DM
风险管 理集市
DM 。。。
ETL软件
ETL软件
ETL软件
ETL软件
SASB
YHT
CMS
PMS
。。。
4
文思信息 版权所有,内部保密材料
数据仓库典型体系架构(集中型-EDW)
前端软件(BIEE、Congnus、BO、Microstrategy)
4
应用用户、决策用户会访问特定应 用
……
业务人员通过设定业务检查规则来 3 明确模型可用性
业务部门人员多数需要常规报表供 日常呈报
…… 业务人员参考整合规则来验证业务 2 正确性
POWER USER通常需要访问第二层对 数据进行深入分析
……
1 审计/风险管理等需要未经加工的 业务原始数据
源数据质量检查规则、常规报告
EDW: •全部源系统的原始细节数据,不接 入派生和汇总数据。
ODS: •状态类数据保存当前最新数据 •日志类数据保存3个月 • 针对及其特殊的需要可以考虑 对数据保留一定时间段的历史
EDW: •一般最长在线保存7年。 •事件类数据在线保留时间会短 一些,13个月左右。
7
文思信息 版权所有,内部保密材料
BI环境内的数据架构
IT人员
高级分析人员 业务分析人员 决策用户
集市层
应用集市层 •面向应用的个性化定制。
指标库:规模指标、客户指标、盈利指标、风险指标等
汇总层
机构汇总 账户汇总
预连接/预处理 产品汇总
交易统计汇总
渠道汇总 客户汇总
管控平台
前端软件
前端软件
前端软件
前端软件
DM
信用卡 集市
DM
信贷集 市
DM
风险管 理集市
DM 。。。
ETL软件
ETL软件
ETL软件
ETL软件
SASB
YHT
CMS
PMS
。。。
4
文思信息 版权所有,内部保密材料
数据仓库典型体系架构(集中型-EDW)
前端软件(BIEE、Congnus、BO、Microstrategy)
4
应用用户、决策用户会访问特定应 用
……
业务人员通过设定业务检查规则来 3 明确模型可用性
业务部门人员多数需要常规报表供 日常呈报
…… 业务人员参考整合规则来验证业务 2 正确性
POWER USER通常需要访问第二层对 数据进行深入分析
……
1 审计/风险管理等需要未经加工的 业务原始数据
源数据质量检查规则、常规报告
EDW: •全部源系统的原始细节数据,不接 入派生和汇总数据。
ODS: •状态类数据保存当前最新数据 •日志类数据保存3个月 • 针对及其特殊的需要可以考虑 对数据保留一定时间段的历史
EDW: •一般最长在线保存7年。 •事件类数据在线保留时间会短 一些,13个月左右。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据源 数据后端处理 数据仓库及其管理 数据集市 数据仓库应用 数据展示
结构层次
3.1 数据源层
数据源为数据仓库提供数据来源。 它是多种联机事务处理系统及外部文件。 一个数据仓库可以有多个数据源。 数据源一般是分布在网络中的各个结点,通过网络中的数据接口与数据仓库
连接。
3.2 数据后端处理层
DWMS是一种专门用于管理数据仓库的软件。
具体功能:1)DW数据模式定义; 2)DW数据操纵; 3)DW数据控制; 2)DW数据服务。
3.3.3 元数据管理
元数据是数据之数据。 元数据相当于数据库中数据字典。 元数据管理负责对元数据进行管理。 元数据内容、元数据管理、元数据使用。
3.4 数据集市层
3.3 数据仓库及其管理层
数据仓库 数据仓库管理 元数据管理
3.3.1 数据仓库
数据仓库负责存储分析、决策数据。 它一般以关系结构形式存储,能支持数据共享。 从外部表现上看,它类似于传统关系数据库。 在使用中数据仓库一般有两种方式:通用方式&专用方式。
3.3.2 数据仓库管理
数据仓库管理则负责管理数据仓库。
应用工具层
2.2 示例(2)
数据源 监视器 包装器 集成器 数据仓库 客户应用
数据仓库体系结构图2.3源自示例(3)数据获取 数据组织 数据应用 数据展示
数据仓库体系结构图
2.4 示例(4)
数据建模层 数据获取层 数据存储层 数据访问层 数据与源数据管理层
3 数据仓库体系结构
大学学报,2003,8(26):678-682. 宋旭东,银晓明,宋亮,刘晓冰.基于同意师徒的数据仓库体系结构及其构建方法
[J].计算机应用该研究,2009,4(26):1384-1385.
参考文献
徐海琛,张献华.数据仓库及其体系结构建设[J].国土资源信息化,2006(6):34-38. 徐洁馨.2005.数据仓库与决策支持系统.北京:科学出版社. 池太崴.2009.数据仓库结构设计与实施.北京:电子工业出版社(第二版). 敖富江(译).2004.数据仓库、挖掘和可视化——核心概念.北京:清华大学出版
典型的蜘蛛网结构示意图
3.6 数据展示层
负责应用结果显示,也可称为数据前端处理。 数据仓库的数据展示有多种固定的图板。 数据展示可以通过联机方式表示,也可以通过Web方式表示。
参考文献
耿麒麟,赵太祥.多层次的数据仓库系统框架[J].中国科技信息,2010(2):89-89. 张洪.基于数据仓库的决策支持系统[J].企业导报,2010(7):280-281. 李兴国,金芳芳,于海峰.基于数据仓库的决策支持系统的体系结构[J].合肥工业
主讲人:Echo
引言 示例 数据仓库体系结构
主要内容
1 引言
数据仓库是一种体系结构。 数据仓库是建立在事务处理数据源系统之上的。 数据仓库是管理信息系统的“上层建筑”。 数据仓库体系结构是一种方法。
2.1 示例(1)
源数据层
数据预处理层
数据仓库数据 存储与管理层
数据仓库体系结构图
此层为局部数据仓库或部门数据仓库,为指定的应用提供数据支撑。 数据集市是一种特殊形式的DW。 独立型数据集市&依赖型数据集市。
3.5 数据仓库应用层
是以数据仓库为基础的应用。 为应用服务的,此层包括分析、决策应用,如OLAP、DM等。 该层主要包括两种应用:分析、决策应用&统一平台的建立与应用。
具有语法/语义正确的数据。 数据转换:将数据源中数据根据转换规则转换成DW中的数据。 数据加载:将数据源的数据经过清洗、转换后所形成的数据装入到数据仓库
内。 数据刷新:是数据加载的特殊形式。
数据提取
数据后端处理流程图
数据源
数据清洗
数据转换
数据加载
数据仓库
数据刷新
数据提取、数据清洗、数据转换和数据加载构成 了后端处理4个连续环节,数据源中的数据经过4 个不同处理环节最终进入数据仓库中,构成了如 图所示的后端处理数据流程图。而数据刷新则是 另一个数据仓库入口点,它与数据提取并行作为 另一种入口点进入数据仓库。
社. 王丽珍,周丽华,陈红梅,肖清.2009,数据仓库与数据挖掘原理及应用.北京:科学
出版社.
数据源中的数据经提取、清洗、转换最终成为数据仓库所需的数据。 后端处理是数据源与数据仓库间的数据接口层,也叫抽取层。 功能是构建数据统一体——数据仓库。 完整的后端处理:对数据源中的数据进行提取、清洗、转换、加载、刷新,
最终构建成数据仓库所需的数据。
数据提取:收集外部数据源中的数据。 数据清洗:将数据源中数据经过提取后清除噪音或脏数据,进行修补而形成