数据仓库架构培训ppt课件
合集下载
《数据仓库》PPT课件 (2)
数据仓库体系结构
数据库系统模式(操作型数据)
采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日
期, … ) 供应商(供应商号,供应商名,地址,电话,…)
销售子系统: 客户(客户号,姓名,地址,电话, … ) 销售(客户号,商品号,数量,单价,日期, … )
库存子系统: 进库单(编号,商品号,数量,单价,日期, … ) 出库单(编号,商品号,数量,单价,日期, … ) 库存(商品号, 库房号,类别,单价,库存数量,
21
第2章 数据仓库
数据仓库体系结构
数据源
数据仓库
RDBMS 数据文件
其他
综合数据 当前数据 历史数据 元数据
分析工具 查询工具 OLAP工具 DM工具
抽取、转换、装载
精选ppt
22
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构实例-税务数据仓库
数据源
ETL
数据存储
数据访问 数据展示
生产 数据库
数据集市
EXCEL
数据仓库
5-10 年
当前 详细数据
过去 详细数据
精选ppt
25
第2章 数据仓库
数据仓库体系结构
数据仓库数据的组织
• 数据由操作型环境(综合)导入数据仓库 • 数据具有不同的细节
早期细节级(过期数据) 当前细节级 轻度综合数据级(数据集市) 高度综合数据级
精选ppt
26
第2章 数据仓库
多渠道
社保库
遗留系统 数据库
E
外部 数据源
数据复制 平台
转换 T 中转区
L 加载 中转区
文档 数据
地市库
个税库
数据库系统模式(操作型数据)
采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日
期, … ) 供应商(供应商号,供应商名,地址,电话,…)
销售子系统: 客户(客户号,姓名,地址,电话, … ) 销售(客户号,商品号,数量,单价,日期, … )
库存子系统: 进库单(编号,商品号,数量,单价,日期, … ) 出库单(编号,商品号,数量,单价,日期, … ) 库存(商品号, 库房号,类别,单价,库存数量,
21
第2章 数据仓库
数据仓库体系结构
数据源
数据仓库
RDBMS 数据文件
其他
综合数据 当前数据 历史数据 元数据
分析工具 查询工具 OLAP工具 DM工具
抽取、转换、装载
精选ppt
22
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构实例-税务数据仓库
数据源
ETL
数据存储
数据访问 数据展示
生产 数据库
数据集市
EXCEL
数据仓库
5-10 年
当前 详细数据
过去 详细数据
精选ppt
25
第2章 数据仓库
数据仓库体系结构
数据仓库数据的组织
• 数据由操作型环境(综合)导入数据仓库 • 数据具有不同的细节
早期细节级(过期数据) 当前细节级 轻度综合数据级(数据集市) 高度综合数据级
精选ppt
26
第2章 数据仓库
多渠道
社保库
遗留系统 数据库
E
外部 数据源
数据复制 平台
转换 T 中转区
L 加载 中转区
文档 数据
地市库
个税库
数据仓库技术PPT课件( 25页)
像外行一样思考,像专家一样实践
2019/5/31
杭州斯凯网络科技有限公司
かなで たけお
金出 武雄
24
•
5、世上最美好的事是:我已经长大,父母还未老;我有能力报答,父母仍然健康。
•
6、没什么可怕的,大家都一样,在试探中不断前行。
•
7、时间就像一张网,你撒在哪里,你的收获就在哪里。纽扣第一颗就扣错了,可你扣到最后一颗才发现。有些事一开始就是错的,可只有到最后才不得不承认。
8
数据仓库的架构类型
2019/5/31
杭州斯凯网络科技有限公司
9
Oracle数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
10
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
11
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
12
2019/5/31
杭州斯凯网络科技有限公司
20
软件物理架构比较
软件物理架构主要特征区别就是行存储和列存 储。这个也是曾经很多厂商津津乐道的地方,根 据需求的不同,2种方式可以灵活采用。
大部分DB软件都是采用行存储,而列存储 的特征在于高效的单列值压缩,在选择列比较少 的时候需要io要求很低,速度很快,不过行存储 的DB目前在压缩效率上也在迅速提升,大部分需 求还是选择行数据进行观察,行存储也更加便于 表的按记录拆分进行并行化。
MapReduce 概念
MapReduce是一种编程模型(并不是google自己开发的 编程工具),用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(化简)",和他们的主要 思想,都是从函数式编程语言里借来的,还有从矢量编程 语言里借来的特性。他极大地方便了编程人员在不会分布 式并行编程的情况下,将自己的程序运行在分布式系统上。
《数据库与数据仓库》PPT课件
操作数据库中的数据,提供了一组提取数据的命 令
数据字典
自动生成或者手工生成的文件,用来存储数据 元素的定义和特性。如用途,物理表现,所属关 系,授权和安全.被动的,主动的.
精选ppt
34
数据字典
给数据流程图中每个成分以定义和说明的工具。在数据流 程图中仅对系统逻辑功能的总体框架作了描述,缺乏详细 具体的说明。数据字典的作用是对数据流程图中的各种成 分,包括数据项、数据结构、数据流、数据存储、处理功 能、外部项等的逻辑内容与特征予以详细说明。数据字典 中有关系统的详细信息是以后系统设计、系统实施与维护 的重要依据。
36
数据字典中的条目
数据项:是数据处理中不可分割的基本逻辑单位。包括数据项编号、 名称、取值范围、数据项类型、长度等。
数据结构:描述数据流/数据存储的逻辑组成。数据结构条目内容包 括:数据结构名称、编号、包含该结构的数据流/数据存储的编号、 该数据结构中包含的数据项名称等。
精选ppt
37
数据字典中的条目
数据字典编写的基本要求如下:
对数据流程图中各种成分的定义必须明确、易理解、唯一; 命名、编号与数据流程图一致; 符合一致性与完整性的要求,对数据流程图上的成分定义与说明
无遗漏项,无同名异义或异名同义; 格式规范、文字精炼与符号正确。
精选ppt
35
财务管理第三层工资管理数据流程图
精选ppt
精选ppt
39
数据库查询语言
SQL Structured Query Language
结构化查询语言标准 利用SQL可以查询不同数据库管理系统下的数
据. 基本形式 SELECT…FROM…WHERE…
精选ppt
40
数据视图和逻辑视图
数据字典
自动生成或者手工生成的文件,用来存储数据 元素的定义和特性。如用途,物理表现,所属关 系,授权和安全.被动的,主动的.
精选ppt
34
数据字典
给数据流程图中每个成分以定义和说明的工具。在数据流 程图中仅对系统逻辑功能的总体框架作了描述,缺乏详细 具体的说明。数据字典的作用是对数据流程图中的各种成 分,包括数据项、数据结构、数据流、数据存储、处理功 能、外部项等的逻辑内容与特征予以详细说明。数据字典 中有关系统的详细信息是以后系统设计、系统实施与维护 的重要依据。
36
数据字典中的条目
数据项:是数据处理中不可分割的基本逻辑单位。包括数据项编号、 名称、取值范围、数据项类型、长度等。
数据结构:描述数据流/数据存储的逻辑组成。数据结构条目内容包 括:数据结构名称、编号、包含该结构的数据流/数据存储的编号、 该数据结构中包含的数据项名称等。
精选ppt
37
数据字典中的条目
数据字典编写的基本要求如下:
对数据流程图中各种成分的定义必须明确、易理解、唯一; 命名、编号与数据流程图一致; 符合一致性与完整性的要求,对数据流程图上的成分定义与说明
无遗漏项,无同名异义或异名同义; 格式规范、文字精炼与符号正确。
精选ppt
35
财务管理第三层工资管理数据流程图
精选ppt
精选ppt
39
数据库查询语言
SQL Structured Query Language
结构化查询语言标准 利用SQL可以查询不同数据库管理系统下的数
据. 基本形式 SELECT…FROM…WHERE…
精选ppt
40
数据视图和逻辑视图
《数据仓库基础培训》课件
数据仓库的安全性和保密性
1 权限管理
数据仓库中的数据应根据用户角色和权限进行精确的管理,保证敏感数据的安全性。
2 数据加密
对敏感数据进行加密处理,防止未授权的访问和数据泄露。
3 备份与恢复
定期备份数据仓库,以确保数据的可靠性和可恢复性。
数据仓库的性能优化
索引优化
通过合理的索引设计和优化, 提高数据仓库的查询性能。
易用性
数据仓库的设计应简化用户的操作和查询过程, 使其能够轻松获取所需的信息。
数据仓库的建设流程与方法
1
需求分析
根据业务需求和数据源确定数据仓库的
数据建模
2
规模、范围和功能。
设计数据仓库的逻辑模型,包括维度模
型和事实表的建立。
3
ETL开发
进行数据抽取、转换和加载的开和完整。
数据仓库建设的经验与案例分享
成功案例
分享一些数据仓库建设的成功案例,探讨其经验和 最佳实践。
挑战与解决方案
讨论数据仓库建设过程中可能遇到的挑战,以及如 何解决和应对。
数据仓库的未来发展与挑战
1 大数据时代
随着大数据技术的不断发展,数据仓库将面临更大的数据规模和复杂性。
2 实时数据分析
实时数据分析需求的增加,将对数据仓库的实时性和性能提出更高要求。
分区与分片
将数据仓库的数据进行分区和 分片,以提高查询和加载的效 率。
缓存管理
使用缓存技术,预先加载常用 的数据,减少查询时间。
数据仓库的容错机制
数据复制
通过数据复制技术,将数据仓库的副本存储在不同 的地点,提高系统的容错能力。
灾难恢复
制定灾难恢复计划,确保在系统故障或灾难情况下 能够及时恢复数据仓库。
数据仓库概述PPT(共 57张)
决策支持系统:需要花数小时甚至更长时 间的处理、需要遍历数据库中的大部分数据, 进行复杂的计算,需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
数据仓库的概念与体系结构PPT课件
– 围绕一些主题,如顾客、供应商、产品等 – 关注决策者的数据建模与分析,而不是集中于
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
数据仓库基础知识培训教材(PPT38页)
数据仓库基础知识培训教材(PPT38页 )培训 课件培 训讲义 培训ppt教程管 理课件 教程ppt
面向主题性
• 面向主题性表示了数据仓库中数据组织的基本 原则,数据仓库中的所有数据都是围绕着某一 主题组织的。
• 确定主题以后,需要确定主题应该包含的数据。
• 不同的主题之间可能会出现相互重叠的信息。
1.1从传统数据库到数据仓库(续)
• 传统的事务处理环境不适宜于决策支持应 用
• 事务处理和分析处理的性能特性不同 • 数据集成问题 • 数据动态集成问题 • 历史数据问题 • 数据的综合问题
• 操作型环境和分析型环境的分离:数据抽取
现实生活中面临的问题
人们在日常生活中经常会遇到这样的情况: • 超市的经营者希望将经常被同时购买的商
• 随着市场竞争的加剧,信息系统的用户已经不 满足于仅仅用计算机去处理每天所发生的事务 数据,而是需要信息——能够支持决策的信息, 去帮助管理决策。这就需要一种能够将日常业 务处理中所收集到的各种数据转变为具有商业 价值信息的技术,传统数据库系统无法承担这 一责任。因为传统数据库的处理方式和决策分 析中的数据需求不相称。这些不相称性主要表 现在决策处理中的系统响应问题、决策数据需 求的问题和决策数据操作的问题。
品放在一起,以增加销售; • 保险公司想知道购买保险的客户一般具有
哪些特征; • 医学研究人员希望从已有的成千上万份病
历中找出患某种疾病的病人的共同特征, 从而为治愈这种疾病提供一些帮助; • ……
企业面临的问题
• 经过多年的计算机应用和市场积累,许多 企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录
数据集成性
• 根据决策分析的要求,将分散于各处的源数据进行 抽取、筛选、清理、综合等工作,最终集成到数据 仓库中。
《数据仓库技术》课件
数据质量参差不齐
数据来源多样,数据质 量难以保证,需要进行
数据清洗和校验。
数据分析需求多变
不同部门和业务场景对 数据分析的需求各不相 同,需要灵活地调整数 据仓库架构和查询方式
。
应对策略
采用分布式存储和计算 技术,提高数据存储和 处理能力;建立数据质 量管理体系,确保数据 质量;提供灵活的数据 仓库架构和查询方式, 满足多变的分析需求。
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量呈爆 炸式增长,如何高效地存储、处理和 分析这些数据成为数据仓库面临的挑 战。
机遇
大数据时代为数据仓库技术的发展提 供了广阔的空间,通过技术创新和优 化,数据仓库能够更好地应对大数据 的挑战,为企业提供更有价值的数据 分析服务。
数据仓库技术的未来发展
云端部署
AI与数据仓库的结合
随着云计算技术的成熟,数据仓库将 逐渐向云端迁移,以提高可扩展性和 灵活性。
人工智能技术的不断发展将为数据仓 库带来更多智能化功能,如自动分类 、预测等。
实时分析
随着对数据实时性的需求增加,数据 仓库将加强实时分析功能,提高数据 处理速度。
数据仓库与其他技术的结合
数据仓库与大数据技术的结合
OLAP技术
多维数据分析
OLAP支持多维数据分析,这意味着用户 可以从多个角度和维度(如时间、地点、
产品类别等)来分析数据。
A OLAP技术概述
OLAP是一种用于分析大量数据的工 具和技术,它允许用户通过多维数 据分析来深入了解数据的不同方面 。
B
C
D
可视化工具
OLAP系统通常提供各种可视化工具,如 仪表盘、报表、图表等,以帮助用户更好 地理解数据和分析结果。
基于ODSB架构的数据仓库培训教材21页PPT
对于有准备的头脑有特别的 亲和力 。 27、自信是人格的核心。
28、目标的坚定是性格中最必要的力 量泉源 之一, 也是成 功的利 器之一 。没有 它,天 才也会 在矛盾 无定的 迷径中 ,徒劳 无功。- -查士 德斐尔 爵士。 29、困难就是机遇。--温斯顿.丘吉 尔。 30、我奋斗,所以我快乐。--格林斯 潘。
46、我们若已接受最坏的,就再没有什么损失。——卡耐基 47、书到用时方恨少、事非经过不知难。——陆游 48、书籍把我们引入最美好的社会,使我们认识各个时代的伟大智者。——史美尔斯 49、熟读唐诗三百首,不会作诗也会吟。——孙洙 50、谁和我一样用功,谁就会和我一样成功。——莫扎特
28、目标的坚定是性格中最必要的力 量泉源 之一, 也是成 功的利 器之一 。没有 它,天 才也会 在矛盾 无定的 迷径中 ,徒劳 无功。- -查士 德斐尔 爵士。 29、困难就是机遇。--温斯顿.丘吉 尔。 30、我奋斗,所以我快乐。--格林斯 潘。
46、我们若已接受最坏的,就再没有什么损失。——卡耐基 47、书到用时方恨少、事非经过不知难。——陆游 48、书籍把我们引入最美好的社会,使我们认识各个时代的伟大智者。——史美尔斯 49、熟读唐诗三百首,不会作诗也会吟。——孙洙 50、谁和我一样用功,谁就会和我一样成功。——莫扎特
数据仓库ppt课件
数据仓库
Data Warehouse
可编辑ppt
1
数据仓库——起源
由20世纪60年代初期,运行在主文件上的单个应用是存储在磁带 上,发展到1970年出现新的存储技术,磁盘存储器(Direct Access Storage Device,DASD)数据库管理系统(Database Management System,DBMS),70年代中期,出现了联机事务处理(Online Transaction Processing,OLTP)。
数据集市:是从数据仓库中独立出来的一部分数据,也可称为部门数 据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数据 集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注 意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容, 这样在以后实施数据仓库时才不会造成大麻烦。
联机事务处理提高了访问数据的快速,可以完成许多过去无法完 成的事情。随着PC机的发展,人们开始利用数据做更多的事。出现 了抽取程序。抽取技术,可以实现把想要的数据从联机事务处理系统 中分离出来,解决数据分析性能方面的问题。慢慢的人们发现在抽取 结果中,加上一些条件限制可以更方便的得到想要的数据,于是就出 现了基于抽取之上的抽取。
可编辑ppt
ቤተ መጻሕፍቲ ባይዱ
7
数据仓库——组成
数据源:是指企业操作型数据库中的各种生产运营数据、办公管理数 据等内部数据和一些调查数据、市场信息等来自外环境的数据总称。 这些数据是构建数据仓库系统的基础是整个系统的数据源泉。
元数据:是描述数据仓库内数据的结构和建立方法的数据。它为访问 数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有 什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户 通过他来了解和访问数据。
Data Warehouse
可编辑ppt
1
数据仓库——起源
由20世纪60年代初期,运行在主文件上的单个应用是存储在磁带 上,发展到1970年出现新的存储技术,磁盘存储器(Direct Access Storage Device,DASD)数据库管理系统(Database Management System,DBMS),70年代中期,出现了联机事务处理(Online Transaction Processing,OLTP)。
数据集市:是从数据仓库中独立出来的一部分数据,也可称为部门数 据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数据 集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注 意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容, 这样在以后实施数据仓库时才不会造成大麻烦。
联机事务处理提高了访问数据的快速,可以完成许多过去无法完 成的事情。随着PC机的发展,人们开始利用数据做更多的事。出现 了抽取程序。抽取技术,可以实现把想要的数据从联机事务处理系统 中分离出来,解决数据分析性能方面的问题。慢慢的人们发现在抽取 结果中,加上一些条件限制可以更方便的得到想要的数据,于是就出 现了基于抽取之上的抽取。
可编辑ppt
ቤተ መጻሕፍቲ ባይዱ
7
数据仓库——组成
数据源:是指企业操作型数据库中的各种生产运营数据、办公管理数 据等内部数据和一些调查数据、市场信息等来自外环境的数据总称。 这些数据是构建数据仓库系统的基础是整个系统的数据源泉。
元数据:是描述数据仓库内数据的结构和建立方法的数据。它为访问 数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有 什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户 通过他来了解和访问数据。
数据仓库体系培训课件.pptx
数据存储·数据质量·元数据·安全
7
文思信息 版权所有,内部保密材料
BI环境内的数据架构
IT人员
高级分析人员 业务分析人员 决策用户
集市层
应用集市层 •面向应用的个性化定制。
指标库:规模指标、客户指标、盈利指标、风险指标等
汇总层
机构汇总 账户汇总
预连接/预处理 产品汇总
交易统计汇总
渠道汇总 客户汇总
管控平台
前端软件
前端软件
前端软件
前端软件
DM
信用卡 集市
DM
信贷集 市
DM
风险管 理集市
DM 。。。
ETL软件
ETL软件
ETL软件
ETL软件
SASB
YHT
CMS
PMS
。。。
4
文思信息 版权所有,内部保密材料
数据仓库典型体系架构(集中型-EDW)
前端软件(BIEE、Congnus、BO、Microstrategy)
4
应用用户、决策用户会访问特定应 用
……
业务人员通过设定业务检查规则来 3 明确模型可用性
业务部门人员多数需要常规报表供 日常呈报
…… 业务人员参考整合规则来验证业务 2 正确性
POWER USER通常需要访问第二层对 数据进行深入分析
……
1 审计/风险管理等需要未经加工的 业务原始数据
源数据质量检查规则、常规报告
EDW: •全部源系统的原始细节数据,不接 入派生和汇总数据。
ODS: •状态类数据保存当前最新数据 •日志类数据保存3个月 • 针对及其特殊的需要可以考虑 对数据保留一定时间段的历史
EDW: •一般最长在线保存7年。 •事件类数据在线保留时间会短 一些,13个月左右。
7
文思信息 版权所有,内部保密材料
BI环境内的数据架构
IT人员
高级分析人员 业务分析人员 决策用户
集市层
应用集市层 •面向应用的个性化定制。
指标库:规模指标、客户指标、盈利指标、风险指标等
汇总层
机构汇总 账户汇总
预连接/预处理 产品汇总
交易统计汇总
渠道汇总 客户汇总
管控平台
前端软件
前端软件
前端软件
前端软件
DM
信用卡 集市
DM
信贷集 市
DM
风险管 理集市
DM 。。。
ETL软件
ETL软件
ETL软件
ETL软件
SASB
YHT
CMS
PMS
。。。
4
文思信息 版权所有,内部保密材料
数据仓库典型体系架构(集中型-EDW)
前端软件(BIEE、Congnus、BO、Microstrategy)
4
应用用户、决策用户会访问特定应 用
……
业务人员通过设定业务检查规则来 3 明确模型可用性
业务部门人员多数需要常规报表供 日常呈报
…… 业务人员参考整合规则来验证业务 2 正确性
POWER USER通常需要访问第二层对 数据进行深入分析
……
1 审计/风险管理等需要未经加工的 业务原始数据
源数据质量检查规则、常规报告
EDW: •全部源系统的原始细节数据,不接 入派生和汇总数据。
ODS: •状态类数据保存当前最新数据 •日志类数据保存3个月 • 针对及其特殊的需要可以考虑 对数据保留一定时间段的历史
EDW: •一般最长在线保存7年。 •事件类数据在线保留时间会短 一些,13个月左右。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用分类
业务分类
财务
成本分析 资产分析
盈利
生产
产量 原料 质检
销售
KPI
库存
销量 市场 竞争对手
财务指标 生产指标 销市售场指标
库存分析 物流
…… ……
22
管理系统:元数据管理
元数据数据源 业务指标/需求
主数据 数据中心
ODS EDS
DDS
DM
ADS OLAP
应用系统 ETL
元数据存储平台
业务元数据 业务指标
15
主数据加载
数据抽取 数据映射 数据清洗 数据标准化 数据转换 数据加载
从 HDS 或
ODS 中获取 所需数 据
将业务 系统的 数据字 段对应 到主数 据的数 据字段
清除错 按照数
误的、
据的标
不符合
准,对
业务逻
数据进
辑的数
行统一
据
将数据 转换成 主数据 的模型
16
EDW数据加载
BI工具引擎 ……
数据交换平台
元
数
据
数据存储平台 DM
OLAP
ADS
管
理
主数据
DDS EDW
数据 质量 ETL 管理
历史数据存储(HDS)
操作数据存储(ODS)
业务系统
31
数据仓库-案例2
数据仓库应用平台
应用层 (Portal)
…
对外接口
报表 决策支持 查询
应用服务层
元数据访问服务
数据挖掘 与分析系统
Meta Data
数据服务层
Web Server
OLAP引擎
统
数
浏览器
元数据管理服务
一
据
的
访
管理和审计服务
安
问
BI引擎
全
层
数据交换服务
管
代
主数据管理服务
理
理
GUI应用程序
20
应用层次规划
企业绩效 KPI
分析型应用
决策层使用 分析人员使用
跨部门、跨业务应用
管理人员使用
业务报务、业务应用
业务人员使用
21
ER模型:与业务系统中模型基本一致,尽量减少由于数据处理带来 的时间消耗
实时性:保存实时变化的数据
13
EDW数据存储
模型特点
采用3NF方式建模,采用面向对象的建模方式 从业务模型入手,结合实际的业务系统的数据,使用主题域对数据
进行抽象 建模原则
全面性:最终应该能够覆盖到客户经营活动中所有的业务数据 抽象性:从业务的角度把客户的所有业务要素抽象成若干对象,采用面
目录
1
厂商的数据仓库架构
2
公司的数据仓库架构
3
数据存储与ETL
4
前端业务应用与管理系统
5
实施过程
6
案例
1
厂商的数据仓库架构
2
IBM数据仓库架构
3
NCR数据仓库架构
4
SAP的数据仓库
5
两级数据仓库架构
6
公司的数据仓库架构
7
系统总体架构图
数据仓库应用平台
应用层 (Portal)
…
对外接口
报表 决策支持 查询
应用服务层
元数据访问服务
数据挖掘 与分析系统
其它应用
BI工具引擎 ……
数据交换平台
元
数
据
数据存储平台 DM
OLAP
ADS
管
理
主数据
DDS EDW
数据
质量
ETL
管理
历史数据存储(HDS)
操作数据存储(ODS)
业务系统
8
公司实施常用架构
数据仓库应用平台
应用层 (Portal)
…
对外接口
报表 决策支持 查询
数据抽取 数据映射 数据清洗 数据标准化 数据转换 数据加载
从 HDS 或
ODS 中获取 所需数 据
将业务 系统的 数据字 段对应 到EDW 的数据 字段
清除错 按照数
误的、
据的标
不符合
准,对
业务逻
数据进
辑的数
行统一
据
将数据 转换成 EDW的 模型
17
DDS数据加载
数据抽取
数据映射
维度
技术元数据
维度 ETL信息 应用系统信息
管理元数据
ETL日志 应用系统日志
权限23
元数据应用平台
维护功能 业务元数据维护
技术元数据维护
查询功能
分类导航 全文检索 日志查询 权限查询
展现功能
动态指标解释 信息展示 血缘关系
主数据管理
24
实施技术
25
实施过程
26
数据仓库实施方法
自下而上
从业务数据入手,建立数据模型 建立完整的后台数据
其它应用
BI工具引擎 ……
数据交换平台
元
数
据
数据存储平台 DM
OLAP
ADS
管
理
主数据
DDS EDW
数据 质量 ETL 管理
历史数据存储(HDS)
操作数据存储(ODS)
业务系统
32
数据仓库-案例3
数据仓库应用平台
应用层 (Portal)
自上而下
完全基于业务需求分析的结果 以需求确定后台的数据范围
迭代开发
整个建设过程分为多个迭代过程 从关键的业务入手,即考虑后台数据,又提供前端展现
27
项目组架构
项目管理委员会
客户方项目组
项目管理组
质量管理组
系统架构组
需求分析组
数据建模组
ETL组
应用开发组
系统测试组
售后与服务组
28
实施流程
数据转换
数据汇总
从EDW数 据存储中 获取所需 数据
将EDW存 储模型的 字段,对 应到DDS 存储模型 的字段
把数据从 EDW的 ER模型转 换为DDS
的多维存 储模型
把EDW中 的数据进 行一定程 度的汇总
数据加载
18
前端业务应用与管理系统
19
应用服务层
数据中心存储平台 ODS EDS DDS OLAP DM
向对象的设计方法 扩展性:其体系结构应该能够适应客户今后业务的发展 高效性:应该注意不要使对象之间的关系过于复杂,导致在实际查询时
的速度过慢
14
DDS数据存储
模型特点
星型模型:以维度表和事实表的方式对数据进行组织和存放 面向需求:从满足应用需求的角度进行设计,从中找出维度,维和
分析变量 粒度较粗:从明细数据汇总得到
应
操作数据存储
用
(ODS)
OLAP
服
务
实时数据 存储
企业级 关系数 据模型
关系型 多维 模型
层 特应用数
据存储
(ADS)
11
主数据存储
模型特点
ER模型:与业务系统中代码信息存放方式类似 数据标准:在企业中采用统一的编码规则和标准 保留历史:保留主数据变化的版本
12
ODS数据存储
模型特点
数据挖掘 与分析系统
其它应用
应用服务层
元数据访问服务
BI工具引擎 ……
数据交换平台
元
数
据
数据存储平台 DM
OLAP
ADS
管 理
DDS
数据
质量
ETL
管理
EDW
历史数据存储(HDS)
业务系统
9
数据存储与ETL
10
数据存储
主数据 (MD)
企业数据存 储
多维数据 存储
数据集市 (DM)
(EDW)
(DDS)
项目管理
需求定义
项目准备
项目规划
技术 需求
业务 需求
技术架构
源数据分析 数据建模
ETL设计 开发
集成测试
系统上线
运行维护 系统演进
应用设计开发
29
实施案例
30
数据中心-案例1
数据仓库应用平台
应用层 (Portal)
…
对外接口
报表 决策支持 查询
应用服务层
元数据访问服务
数据挖掘 与分析系统
其它应用