数据仓库-数据集市-BI-数据分析-介绍ppt课件
合集下载
《数据仓库》PPT课件 (2)
数据仓库体系结构
数据库系统模式(操作型数据)
采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日
期, … ) 供应商(供应商号,供应商名,地址,电话,…)
销售子系统: 客户(客户号,姓名,地址,电话, … ) 销售(客户号,商品号,数量,单价,日期, … )
库存子系统: 进库单(编号,商品号,数量,单价,日期, … ) 出库单(编号,商品号,数量,单价,日期, … ) 库存(商品号, 库房号,类别,单价,库存数量,
21
第2章 数据仓库
数据仓库体系结构
数据源
数据仓库
RDBMS 数据文件
其他
综合数据 当前数据 历史数据 元数据
分析工具 查询工具 OLAP工具 DM工具
抽取、转换、装载
精选ppt
22
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构实例-税务数据仓库
数据源
ETL
数据存储
数据访问 数据展示
生产 数据库
数据集市
EXCEL
数据仓库
5-10 年
当前 详细数据
过去 详细数据
精选ppt
25
第2章 数据仓库
数据仓库体系结构
数据仓库数据的组织
• 数据由操作型环境(综合)导入数据仓库 • 数据具有不同的细节
早期细节级(过期数据) 当前细节级 轻度综合数据级(数据集市) 高度综合数据级
精选ppt
26
第2章 数据仓库
多渠道
社保库
遗留系统 数据库
E
外部 数据源
数据复制 平台
转换 T 中转区
L 加载 中转区
文档 数据
地市库
个税库
数据库系统模式(操作型数据)
采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日
期, … ) 供应商(供应商号,供应商名,地址,电话,…)
销售子系统: 客户(客户号,姓名,地址,电话, … ) 销售(客户号,商品号,数量,单价,日期, … )
库存子系统: 进库单(编号,商品号,数量,单价,日期, … ) 出库单(编号,商品号,数量,单价,日期, … ) 库存(商品号, 库房号,类别,单价,库存数量,
21
第2章 数据仓库
数据仓库体系结构
数据源
数据仓库
RDBMS 数据文件
其他
综合数据 当前数据 历史数据 元数据
分析工具 查询工具 OLAP工具 DM工具
抽取、转换、装载
精选ppt
22
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构实例-税务数据仓库
数据源
ETL
数据存储
数据访问 数据展示
生产 数据库
数据集市
EXCEL
数据仓库
5-10 年
当前 详细数据
过去 详细数据
精选ppt
25
第2章 数据仓库
数据仓库体系结构
数据仓库数据的组织
• 数据由操作型环境(综合)导入数据仓库 • 数据具有不同的细节
早期细节级(过期数据) 当前细节级 轻度综合数据级(数据集市) 高度综合数据级
精选ppt
26
第2章 数据仓库
多渠道
社保库
遗留系统 数据库
E
外部 数据源
数据复制 平台
转换 T 中转区
L 加载 中转区
文档 数据
地市库
个税库
数据仓库基础PPT课件
主题
• 商业智能技术 • 数据仓库与多维模型 • 设计数据仓库 • 设计多维模型
第1页/共40页
商业智能的体系
数据仓库技术
在线分析处理技术
数据挖掘技术
( Data Warehousing)An(alyOtiLcAaPl P:rOocnelisnseing (Data Mining)
数据整合
) 更加全面数、据深分入析的分析
• 父子维 父子维是基于两个维表列的维度,由维表中的两列来共同定义各个成员的隶属关系。一列称 为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。
第23页/共40页
数据仓库设计(二) ——维表
• 普通维
普通维中的层次是根据维表的列而定义的,所以维表中列的定义会直接影响到维度中层次的定义。 设计普通维度的维表必须充分考虑维度的扩展性。
• 单元级别权限: 单元级别的安全权限,可以限定多维数据集中特定单元访问。
• 其它级别权限: 不同OLAP引擎所提供的特属功能的权限。例如,钻取权限等
Jms
包含免数/退库数的列
……
……
第21页/共40页
数据仓库设计(一) ——事实表
• 设计事实表应注意的问题
• 事实表中一般不应包含描述性信息,也不应包含除事实表与维表中间对应的关联字段之外的 任何数据。
• 事实表中的数据应该是经过适当聚合的数据 • 事实表中数据的粒度应该是一致的 • 事实表的设计应该考虑增量数据更新的需要,例如是否需要增加时间戳字段等。
知识发现
集 数 题成据的商各,企业系建业统立数智的面据能历向中技史主心术形体成知系识(灵的查库活多B询指I、维—、导动分—即决态 析B席策、、u报s、快随in表再速机es分s析Int通隐e律ll过藏ig,数的e以n学、c辅e模潜助)型在决发的策现规
• 商业智能技术 • 数据仓库与多维模型 • 设计数据仓库 • 设计多维模型
第1页/共40页
商业智能的体系
数据仓库技术
在线分析处理技术
数据挖掘技术
( Data Warehousing)An(alyOtiLcAaPl P:rOocnelisnseing (Data Mining)
数据整合
) 更加全面数、据深分入析的分析
• 父子维 父子维是基于两个维表列的维度,由维表中的两列来共同定义各个成员的隶属关系。一列称 为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。
第23页/共40页
数据仓库设计(二) ——维表
• 普通维
普通维中的层次是根据维表的列而定义的,所以维表中列的定义会直接影响到维度中层次的定义。 设计普通维度的维表必须充分考虑维度的扩展性。
• 单元级别权限: 单元级别的安全权限,可以限定多维数据集中特定单元访问。
• 其它级别权限: 不同OLAP引擎所提供的特属功能的权限。例如,钻取权限等
Jms
包含免数/退库数的列
……
……
第21页/共40页
数据仓库设计(一) ——事实表
• 设计事实表应注意的问题
• 事实表中一般不应包含描述性信息,也不应包含除事实表与维表中间对应的关联字段之外的 任何数据。
• 事实表中的数据应该是经过适当聚合的数据 • 事实表中数据的粒度应该是一致的 • 事实表的设计应该考虑增量数据更新的需要,例如是否需要增加时间戳字段等。
知识发现
集 数 题成据的商各,企业系建业统立数智的面据能历向中技史主心术形体成知系识(灵的查库活多B询指I、维—、导动分—即决态 析B席策、、u报s、快随in表再速机es分s析Int通隐e律ll过藏ig,数的e以n学、c辅e模潜助)型在决发的策现规
《数据库与数据仓库》PPT课件
操作数据库中的数据,提供了一组提取数据的命 令
数据字典
自动生成或者手工生成的文件,用来存储数据 元素的定义和特性。如用途,物理表现,所属关 系,授权和安全.被动的,主动的.
精选ppt
34
数据字典
给数据流程图中每个成分以定义和说明的工具。在数据流 程图中仅对系统逻辑功能的总体框架作了描述,缺乏详细 具体的说明。数据字典的作用是对数据流程图中的各种成 分,包括数据项、数据结构、数据流、数据存储、处理功 能、外部项等的逻辑内容与特征予以详细说明。数据字典 中有关系统的详细信息是以后系统设计、系统实施与维护 的重要依据。
36
数据字典中的条目
数据项:是数据处理中不可分割的基本逻辑单位。包括数据项编号、 名称、取值范围、数据项类型、长度等。
数据结构:描述数据流/数据存储的逻辑组成。数据结构条目内容包 括:数据结构名称、编号、包含该结构的数据流/数据存储的编号、 该数据结构中包含的数据项名称等。
精选ppt
37
数据字典中的条目
数据字典编写的基本要求如下:
对数据流程图中各种成分的定义必须明确、易理解、唯一; 命名、编号与数据流程图一致; 符合一致性与完整性的要求,对数据流程图上的成分定义与说明
无遗漏项,无同名异义或异名同义; 格式规范、文字精炼与符号正确。
精选ppt
35
财务管理第三层工资管理数据流程图
精选ppt
精选ppt
39
数据库查询语言
SQL Structured Query Language
结构化查询语言标准 利用SQL可以查询不同数据库管理系统下的数
据. 基本形式 SELECT…FROM…WHERE…
精选ppt
40
数据视图和逻辑视图
数据字典
自动生成或者手工生成的文件,用来存储数据 元素的定义和特性。如用途,物理表现,所属关 系,授权和安全.被动的,主动的.
精选ppt
34
数据字典
给数据流程图中每个成分以定义和说明的工具。在数据流 程图中仅对系统逻辑功能的总体框架作了描述,缺乏详细 具体的说明。数据字典的作用是对数据流程图中的各种成 分,包括数据项、数据结构、数据流、数据存储、处理功 能、外部项等的逻辑内容与特征予以详细说明。数据字典 中有关系统的详细信息是以后系统设计、系统实施与维护 的重要依据。
36
数据字典中的条目
数据项:是数据处理中不可分割的基本逻辑单位。包括数据项编号、 名称、取值范围、数据项类型、长度等。
数据结构:描述数据流/数据存储的逻辑组成。数据结构条目内容包 括:数据结构名称、编号、包含该结构的数据流/数据存储的编号、 该数据结构中包含的数据项名称等。
精选ppt
37
数据字典中的条目
数据字典编写的基本要求如下:
对数据流程图中各种成分的定义必须明确、易理解、唯一; 命名、编号与数据流程图一致; 符合一致性与完整性的要求,对数据流程图上的成分定义与说明
无遗漏项,无同名异义或异名同义; 格式规范、文字精炼与符号正确。
精选ppt
35
财务管理第三层工资管理数据流程图
精选ppt
精选ppt
39
数据库查询语言
SQL Structured Query Language
结构化查询语言标准 利用SQL可以查询不同数据库管理系统下的数
据. 基本形式 SELECT…FROM…WHERE…
精选ppt
40
数据视图和逻辑视图
数据仓库概述PPT(共 57张)
决策支持系统:需要花数小时甚至更长时 间的处理、需要遍历数据库中的大部分数据, 进行复杂的计算,需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
数据仓库基础.ppt
• 特殊要求
根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。
• 增量更新
必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。
数据仓库基本元素(一)
• 关系型数据库
关系数据库是建立数据仓库的基础引擎平台,它为数据仓库提供临时存 储、清理和转换传入的数据,容纳和管理数据仓库中的大量数据,并支 持数据仓库的功能。
税务 机关 维表
时间 维表
行业 维表
事 实 表
经济 性质 维表
税种 维表
数据仓库组织形式(二)
• 雪花型模型
雪花型架构比星型模型增加了次要维表,有一个或多个维表是联接到其 它维表上,而非事实数据表上。
机构 维表
时间 维表
事 实 表
行业 维表
地区维
地市 维表 省份 维表
数据仓库设计(一)——事实表
数据仓库定义
?
• 数据仓库的概念
什么是数据仓库?
数据仓库就是面向主题的、集成的、不同时间的、稳定的数据集 合,用以支持经营管理中的决策制定过程。
数据仓库的特点
• 面向主题
• 集成性—企业数据框架
• 历史性、稳定性
数据仓库与业务数据库的比较
什么是联机分析处理(OLAP)?
• OLAP的定义
OLAP是使分析人员、管理人员能够从多种角度对从原始数据中转
数据仓库设计原则(一)
• 模型构架
尽量使用星型架构,使用雪花架构的目的是使事实表第一级的维表数量 达到最小。
• 设计方法
将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到 单一维度表中,而且在多个维度表中数据不应重复。
• 维表设计
设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和 大小。
第十七课--数据仓库和数据集市
24
任务一:设计Northwind数据库的星型模型
设计分析
事实表的主轴: Orders和OrderDetails两个表的连接。 OrderDetails中包括了数值字段:UnitPrice、Quantity及 Discount。可以推算出事实所需要的度量值:运费、销售 金额、销售数量和折扣。
第十七课--数据仓库和数 据集市
2020年7月17日星期五
数据仓库和数据集市
目标
什么是数据仓库 数据仓库系统体系结构 操作数据库与数据仓库的区别 维度建模的相关概念 维度建模的基本步骤 数据集市
2
数据仓库的定义
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(NonVolation)、反映历史变化(Time Variant)的集合数据, 用于支持管理决策和信息的全局共享。
5
相对稳定的
数据仓库中一般有大量的查询操作,但修改和删除操 作很少,通常只需要定期的加载、刷新。
6
反映历史变化的
数据仓库中的数据通常包含历史信息,系统记录了企 业从过去某一时点(如开始应用数据仓库的时点)到 目前的各个阶段的信息,通过这些信息,可以对企业 的发展历程和未来趋势做出定量分析和预测。
11
维度建模的相关概念
分析空间
数据仓库中一定量的数据,用于进行数据挖掘以发现新信息 同时支持管理决策。
切片
一种用来在数据仓库中将多个维度中的分析空间限制为数据 子集的技术。
星型模型
一种使用关系数据库实现多维分析空间的模型。
雪花模型
不管什么原因,当星型模型的维度需要进行规范化时,星型 模型就演化为雪花模型。
任务一:设计Northwind数据库的星型模型
设计分析
事实表的主轴: Orders和OrderDetails两个表的连接。 OrderDetails中包括了数值字段:UnitPrice、Quantity及 Discount。可以推算出事实所需要的度量值:运费、销售 金额、销售数量和折扣。
第十七课--数据仓库和数 据集市
2020年7月17日星期五
数据仓库和数据集市
目标
什么是数据仓库 数据仓库系统体系结构 操作数据库与数据仓库的区别 维度建模的相关概念 维度建模的基本步骤 数据集市
2
数据仓库的定义
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(NonVolation)、反映历史变化(Time Variant)的集合数据, 用于支持管理决策和信息的全局共享。
5
相对稳定的
数据仓库中一般有大量的查询操作,但修改和删除操 作很少,通常只需要定期的加载、刷新。
6
反映历史变化的
数据仓库中的数据通常包含历史信息,系统记录了企 业从过去某一时点(如开始应用数据仓库的时点)到 目前的各个阶段的信息,通过这些信息,可以对企业 的发展历程和未来趋势做出定量分析和预测。
11
维度建模的相关概念
分析空间
数据仓库中一定量的数据,用于进行数据挖掘以发现新信息 同时支持管理决策。
切片
一种用来在数据仓库中将多个维度中的分析空间限制为数据 子集的技术。
星型模型
一种使用关系数据库实现多维分析空间的模型。
雪花模型
不管什么原因,当星型模型的维度需要进行规范化时,星型 模型就演化为雪花模型。
数据仓库的概念与体系结构PPT课件
– 围绕一些主题,如顾客、供应商、产品等 – 关注决策者的数据建模与分析,而不是集中于
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
BI介绍PPT(PPT66页)
需求二:
参数1:枚举出“行业代码”、“注册类型” 参数2:当参数1选择“行业代码”时,参数2为“行业代码”维
当参数1选择“注册类型”时,参数2为“注册类型”维
62
权限管理
63
▪ 批量设置权限 ▪ 利用对象id ▪ 利用维属性和diminf函数
权限赋予
64
▪计划任务的“三只手”
67
BI@Report
Click to edit subtitle style
1
欢迎,欢迎
和我们共同进步的产品商 产品合作商 最终的使用人员 活跃的分析人员
2
IT技术人员
数据分析专家 数据分析专家
Nice to meet you
3
我们经常被困扰
海量数据束手无策
4
我们也为此困扰
职能部门各自为5政造成信息孤岛
用地图
56
▪ Dashboard ▪ 实现方式 ▪ 制作原理
Dashboard
57
钻取链接的加强运用
▪ 合理应用钻取参数(range) ▪ 图片放大 ▪ 附件钻取 ▪ 利用我们知识完成:
下钻时判断是否是叶子节点,如果是,跳转到另外一张报表
58
▪ 多系列统计图 ▪ 统计图的美化
3D 边框 表元颜色
26
浅尝BI报表
27
浮动——单级浮动
表头
固定 表元
浮动维单元 格(绿箭头)
浮动区域( 绿框)
分析区 (红框)
28
浮动——多级浮动
一个浮动包含
另一个 浮动
双重浮29动=两个浮动?
向右浮动
浮动——交叉浮动
向下浮动
交叉浮30动=双向浮动?
固定——无浮动
参数1:枚举出“行业代码”、“注册类型” 参数2:当参数1选择“行业代码”时,参数2为“行业代码”维
当参数1选择“注册类型”时,参数2为“注册类型”维
62
权限管理
63
▪ 批量设置权限 ▪ 利用对象id ▪ 利用维属性和diminf函数
权限赋予
64
▪计划任务的“三只手”
67
BI@Report
Click to edit subtitle style
1
欢迎,欢迎
和我们共同进步的产品商 产品合作商 最终的使用人员 活跃的分析人员
2
IT技术人员
数据分析专家 数据分析专家
Nice to meet you
3
我们经常被困扰
海量数据束手无策
4
我们也为此困扰
职能部门各自为5政造成信息孤岛
用地图
56
▪ Dashboard ▪ 实现方式 ▪ 制作原理
Dashboard
57
钻取链接的加强运用
▪ 合理应用钻取参数(range) ▪ 图片放大 ▪ 附件钻取 ▪ 利用我们知识完成:
下钻时判断是否是叶子节点,如果是,跳转到另外一张报表
58
▪ 多系列统计图 ▪ 统计图的美化
3D 边框 表元颜色
26
浅尝BI报表
27
浮动——单级浮动
表头
固定 表元
浮动维单元 格(绿箭头)
浮动区域( 绿框)
分析区 (红框)
28
浮动——多级浮动
一个浮动包含
另一个 浮动
双重浮29动=两个浮动?
向右浮动
浮动——交叉浮动
向下浮动
交叉浮30动=双向浮动?
固定——无浮动
数据仓库结构体系PPT课件
第17页/共23页
典型的蜘蛛网结构示意图
第18页/共23页
3.6 数据展示层
• 负责应用结果显示,也可称为数据前端处理。 • 数据仓库的数据展示有多种固定的图板。 • 数据展示可以通过联机方式表示,也可以通过Web方式表示。
第19页/共23页
参考文献
• 耿麒麟,赵太祥.多层次的数据仓库系统框架[J].中国科技信息,2010(2):89-89. • 张洪.基于数据仓库的决策支持系统[J].企业导报,2010(7):280-281. • 李兴国,金芳芳,于海峰.基于数据仓库的决策支持系统的体系结构[J].合肥工业大学学报,2003,8(26):678-
第10页/共23页
数据提取
数据后端处理流程图
数据源
数据清洗
数据转换
数据加载
数据仓库
数据刷新
数据提取、数据清洗、数据转换和数据加载构成 了后端处理4个连续环节,数据源中的数据经过4 个不同处理环节最终进入数据仓库中,构成了如 图所示的后端处理数据流程图。而数据刷新则是 另一个数据仓库入口点,它与数据提取并行作为 另一种入口点进入数据仓库。
第21页/共23页
第22页/共23页
感谢您的观看!
第23页/共23页
第5页/共23页
3 数据仓库体系结构
第6页/共23页
结构层次
• 数据源 • 数据后端处理 • 数据仓库及其管理 • 数据集市 • 数据仓库应用 • 数据展示
第7页/共23页
3.1 数据源层
• 数据源为数据仓库提供数据来源。 • 它是多种联机事务处理系统及外部文件。 • 一个数据仓库可以有多个数据源。 • 数据源一般是分布在网络中的各个结点,通过网络中的数据接口与数据仓库连接。
典型的蜘蛛网结构示意图
第18页/共23页
3.6 数据展示层
• 负责应用结果显示,也可称为数据前端处理。 • 数据仓库的数据展示有多种固定的图板。 • 数据展示可以通过联机方式表示,也可以通过Web方式表示。
第19页/共23页
参考文献
• 耿麒麟,赵太祥.多层次的数据仓库系统框架[J].中国科技信息,2010(2):89-89. • 张洪.基于数据仓库的决策支持系统[J].企业导报,2010(7):280-281. • 李兴国,金芳芳,于海峰.基于数据仓库的决策支持系统的体系结构[J].合肥工业大学学报,2003,8(26):678-
第10页/共23页
数据提取
数据后端处理流程图
数据源
数据清洗
数据转换
数据加载
数据仓库
数据刷新
数据提取、数据清洗、数据转换和数据加载构成 了后端处理4个连续环节,数据源中的数据经过4 个不同处理环节最终进入数据仓库中,构成了如 图所示的后端处理数据流程图。而数据刷新则是 另一个数据仓库入口点,它与数据提取并行作为 另一种入口点进入数据仓库。
第21页/共23页
第22页/共23页
感谢您的观看!
第23页/共23页
第5页/共23页
3 数据仓库体系结构
第6页/共23页
结构层次
• 数据源 • 数据后端处理 • 数据仓库及其管理 • 数据集市 • 数据仓库应用 • 数据展示
第7页/共23页
3.1 数据源层
• 数据源为数据仓库提供数据来源。 • 它是多种联机事务处理系统及外部文件。 • 一个数据仓库可以有多个数据源。 • 数据源一般是分布在网络中的各个结点,通过网络中的数据接口与数据仓库连接。
数据仓库基础知识培训教材(PPT38页)
数据仓库基础知识培训教材(PPT38页 )培训 课件培 训讲义 培训ppt教程管 理课件 教程ppt
面向主题性
• 面向主题性表示了数据仓库中数据组织的基本 原则,数据仓库中的所有数据都是围绕着某一 主题组织的。
• 确定主题以后,需要确定主题应该包含的数据。
• 不同的主题之间可能会出现相互重叠的信息。
1.1从传统数据库到数据仓库(续)
• 传统的事务处理环境不适宜于决策支持应 用
• 事务处理和分析处理的性能特性不同 • 数据集成问题 • 数据动态集成问题 • 历史数据问题 • 数据的综合问题
• 操作型环境和分析型环境的分离:数据抽取
现实生活中面临的问题
人们在日常生活中经常会遇到这样的情况: • 超市的经营者希望将经常被同时购买的商
• 随着市场竞争的加剧,信息系统的用户已经不 满足于仅仅用计算机去处理每天所发生的事务 数据,而是需要信息——能够支持决策的信息, 去帮助管理决策。这就需要一种能够将日常业 务处理中所收集到的各种数据转变为具有商业 价值信息的技术,传统数据库系统无法承担这 一责任。因为传统数据库的处理方式和决策分 析中的数据需求不相称。这些不相称性主要表 现在决策处理中的系统响应问题、决策数据需 求的问题和决策数据操作的问题。
品放在一起,以增加销售; • 保险公司想知道购买保险的客户一般具有
哪些特征; • 医学研究人员希望从已有的成千上万份病
历中找出患某种疾病的病人的共同特征, 从而为治愈这种疾病提供一些帮助; • ……
企业面临的问题
• 经过多年的计算机应用和市场积累,许多 企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录
数据集成性
• 根据决策分析的要求,将分散于各处的源数据进行 抽取、筛选、清理、综合等工作,最终集成到数据 仓库中。
数据仓库体系培训课件.pptx
数据存储·数据质量·元数据·安全
7
文思信息 版权所有,内部保密材料
BI环境内的数据架构
IT人员
高级分析人员 业务分析人员 决策用户
集市层
应用集市层 •面向应用的个性化定制。
指标库:规模指标、客户指标、盈利指标、风险指标等
汇总层
机构汇总 账户汇总
预连接/预处理 产品汇总
交易统计汇总
渠道汇总 客户汇总
管控平台
前端软件
前端软件
前端软件
前端软件
DM
信用卡 集市
DM
信贷集 市
DM
风险管 理集市
DM 。。。
ETL软件
ETL软件
ETL软件
ETL软件
SASB
YHT
CMS
PMS
。。。
4
文思信息 版权所有,内部保密材料
数据仓库典型体系架构(集中型-EDW)
前端软件(BIEE、Congnus、BO、Microstrategy)
4
应用用户、决策用户会访问特定应 用
……
业务人员通过设定业务检查规则来 3 明确模型可用性
业务部门人员多数需要常规报表供 日常呈报
…… 业务人员参考整合规则来验证业务 2 正确性
POWER USER通常需要访问第二层对 数据进行深入分析
……
1 审计/风险管理等需要未经加工的 业务原始数据
源数据质量检查规则、常规报告
EDW: •全部源系统的原始细节数据,不接 入派生和汇总数据。
ODS: •状态类数据保存当前最新数据 •日志类数据保存3个月 • 针对及其特殊的需要可以考虑 对数据保留一定时间段的历史
EDW: •一般最长在线保存7年。 •事件类数据在线保留时间会短 一些,13个月左右。
7
文思信息 版权所有,内部保密材料
BI环境内的数据架构
IT人员
高级分析人员 业务分析人员 决策用户
集市层
应用集市层 •面向应用的个性化定制。
指标库:规模指标、客户指标、盈利指标、风险指标等
汇总层
机构汇总 账户汇总
预连接/预处理 产品汇总
交易统计汇总
渠道汇总 客户汇总
管控平台
前端软件
前端软件
前端软件
前端软件
DM
信用卡 集市
DM
信贷集 市
DM
风险管 理集市
DM 。。。
ETL软件
ETL软件
ETL软件
ETL软件
SASB
YHT
CMS
PMS
。。。
4
文思信息 版权所有,内部保密材料
数据仓库典型体系架构(集中型-EDW)
前端软件(BIEE、Congnus、BO、Microstrategy)
4
应用用户、决策用户会访问特定应 用
……
业务人员通过设定业务检查规则来 3 明确模型可用性
业务部门人员多数需要常规报表供 日常呈报
…… 业务人员参考整合规则来验证业务 2 正确性
POWER USER通常需要访问第二层对 数据进行深入分析
……
1 审计/风险管理等需要未经加工的 业务原始数据
源数据质量检查规则、常规报告
EDW: •全部源系统的原始细节数据,不接 入派生和汇总数据。
ODS: •状态类数据保存当前最新数据 •日志类数据保存3个月 • 针对及其特殊的需要可以考虑 对数据保留一定时间段的历史
EDW: •一般最长在线保存7年。 •事件类数据在线保留时间会短 一些,13个月左右。
数据仓库简介-PPT课件
9
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
数据仓库技术分享ppt
Lambda架构存在的问题:
• 同样的需求要开发两套一样的代码,开发成本、维护成本极高。 • 同样资源计算两次,资源占用多。 • 实时链路和离线链路计算结果容易让人误解,昨天和今天看到的数据不一致。 • 下游需整合实时和离线处理结果。
PART/02 数仓架构
kappa架构: 使用不可改变的数据流作为主要的记录 源,而不使用数据库或文件的时间点来 表示。 Kappa架构将数据作为事件写入到持久 化的流中,对代码的修改只需要重放过 去的事件即可。
PART/02 数仓架构
03
数仓建模
PART/03 数仓建模
数仓分层
清晰数据结构 数据血缘追踪 减少重复开发 把复杂问题简单化 屏蔽原始数据的异常
PART/03 数仓建模
ODS层
DWD层 DWS层 ADS层
保持数据原貌不做任何修改,起到备份数据的作用。 数据采用压缩,减少磁盘存储空间 创建分区表,防止后续的全表扫描
比尔·恩门(Bill Inmon) 《 Building the Data Warehouse 》
数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合。 通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本、提高产品质量等。 数仓并不是数据的最终目的地,而是为主句最终的目的地做好准备。包括:清洗,转义,分 类,充足,合并,拆分,统计等。
PART/01 什么是数据仓库
3、相对稳定的。 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供查询,数据进入数据仓 库以后,一般将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期 的加载、刷新。
4、反映历史变化。 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过 去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未 来趋势做出定量分析和预测。
• 同样的需求要开发两套一样的代码,开发成本、维护成本极高。 • 同样资源计算两次,资源占用多。 • 实时链路和离线链路计算结果容易让人误解,昨天和今天看到的数据不一致。 • 下游需整合实时和离线处理结果。
PART/02 数仓架构
kappa架构: 使用不可改变的数据流作为主要的记录 源,而不使用数据库或文件的时间点来 表示。 Kappa架构将数据作为事件写入到持久 化的流中,对代码的修改只需要重放过 去的事件即可。
PART/02 数仓架构
03
数仓建模
PART/03 数仓建模
数仓分层
清晰数据结构 数据血缘追踪 减少重复开发 把复杂问题简单化 屏蔽原始数据的异常
PART/03 数仓建模
ODS层
DWD层 DWS层 ADS层
保持数据原貌不做任何修改,起到备份数据的作用。 数据采用压缩,减少磁盘存储空间 创建分区表,防止后续的全表扫描
比尔·恩门(Bill Inmon) 《 Building the Data Warehouse 》
数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合。 通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本、提高产品质量等。 数仓并不是数据的最终目的地,而是为主句最终的目的地做好准备。包括:清洗,转义,分 类,充足,合并,拆分,统计等。
PART/01 什么是数据仓库
3、相对稳定的。 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供查询,数据进入数据仓 库以后,一般将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期 的加载、刷新。
4、反映历史变化。 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过 去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未 来趋势做出定量分析和预测。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据可信性:两个部门提供的数据是不一样的,让管理者无所适从
报表的生产率问题:由于OLTP的单项系统导致数据的分散性和相同元素定
义不一致所致不可能把数据转换成信息
数据动态集成问题:不同的需求,要求将操作型环境和分析型环境相分离
历史数据问题:单项系统之间保留的历史数据时间范围不一致,无法满足
DSS分析的需要数据的综合问题:非细节数据、多种程度的综合 提升现有的信息:
数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用
数据挖掘从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非
平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、 数据库、可视化技术等
OLAP On-Line Analytical Processing是数据仓库系统的主要应用,支持复杂的分析操作
广州市品高软件开发有限公司
9
数据仓库领域另外一名重要的人物
比尔·恩门的对头 随着拉尔夫·金博尔(Ralph Kimball)博士出版了他的第
一本书“The DataWarehouse Toolkit”(《数据仓库工具 箱》),数据仓库行业就开始喧哗起来,恩门的“Building the Data Warehouse”主张建立数据仓库时采用自上而下 (DWDM)方式,以第3范式进行数据仓库模型设计,而他 生活上的好朋友Ralph Kimball在“The DataWarehouse Toolkit”则是主张自下而上(DMDW)的方式,力推数据集 市建设,以致他们的FANS吵闹得差点打了起来,直至恩门推 出新的BI架构CIF(Corporation information factory),把 Kimball的数据集市包括了进来才算平息。
即席查询
自由组合条件
•可任意选择宽表字段
定义条件关系及值
•条件和值之间可以用= in等连接; •条件和条件之间可用or and之间连接
导出列编辑
•可编辑结果的显示列
输出结果
反向分析
23
数据应用之数据挖掘
数据挖掘:从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于
Association rule learning)的信息的过程
பைடு நூலகம்
元数据管理工具
元数 据工 具功 能
实体差异分析 主机拓扑图分析
元数据使用情况 元数据统计
指标库 血缘分析
实体关联度分析 过程查询
元数 据存 储
业务元数据
业务规则 业务描述 指标口径 ……
元数
据获 数据源
ETL
取
Webservice接口、JMI接口、XMI接口
管理元数据
流程定义 角色定义 组织架构
技术元数据
3
数据仓库的特点
面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分
离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户 使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独
较为交单 维度建模 高
交付 时间 部署成本
指导思想
需要很长的启动时间
较高的启动成本,较低的后续项目开 发成本 长期规划
可以快速部署应用
较低的启动成本,每个后 续项目成本接近
各部门需要有统一的构建 思想
结论:一般结合两种方式的优点混合使用
广州市品高软件开发有限公司
13
数据仓库体系架构
广州市品高软件开发有限公司
自下而上 1. 根据特定的业务过程建立数据集市; 2. 在各部门数据集市之上递增构建整个 企业的数据仓库
两种数据仓库构建方式对比
对比项 体系结构
复杂度 建模工具 易访问性
自上而下
先建立全企业的原子级数据仓库,然 后在此基础上建立部门级应用
自下而上
按照业务过程建立集市, 再通过整合建立数据仓库
非常复杂 传统ER模型 低
对特定平台作出相应调整
广州市品高软件开发有限公司
17
数据建模方法
范式建模法: Bill Inmon主张使用,
使用关系型数据库第三范式进行ER建模, 同业务系统的数据库建模类似
维度建模法: Kimball 最先提出这一
概念,按照事实表,维表来构建数据仓库,数据集市。 并针对各个维作了大量的预处理,这种方法的最被人 广泛知晓的名字就是星型模式(Star-schema),另 外还有雪花模型、星座模型、雪暴模型
据量大
工作单位 用户数 DB大小
简单的事务 上千个 100MB-GB
广州市品高软件开发有限公司
复杂的查询 上百个 100GB-TB
6
数据仓库是怎么产生的
在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展做出了 巨大贡献。各类信息系统大多属于面向事务处理的OLTP系统,经过多年的运行, 积累了大量的数据,而管理决策层对数据分析基础平台的需求却日益强烈。
星型
雪花
18
两种建模方法比较
对比项 提出人 复杂度
范式建模
维度建模
Bill Innon
Kimball
比较简单,从关系型数据库角度出发, 建模简单,但由于在构建
比较方便构建
星型模式之前需要进行大
量的数据预处理,因此会
导致大量的数据处理工作
灵活性
较为灵活
性能
慢
数据一致性 能够较好保证数据一致性
当业务发生变化,需要重 新进行维度的定义
广州市品高软件开发有限公司
10
议程
1. 数据仓库概念及由来 ✓ 基本概念 ✓ 产生背景
2. 数据仓库搭建 ✓ 数据整合 ✓ 数据建模 ✓ 数据管控
3. Oracle数据仓库产品介绍
两种数据仓库构建方式
自上而下 1. 进行全企业的数据建模和数据整合,并建
立原子级数据仓库; 2. 对于各部门的应用再建立相应的数据集市
数据仓库数据建模步骤
一般按照主题进行建模 一般步骤
✓梳理组织架构关系
✓抽象业务概念
✓具化抽象概念的属性✓针对特定物理平台
✓梳理系统用户、角色
✓分组业务概念,按照业务主线 ✓细化业务流程
作出相应的技术调整
✓梳理业务流程(实际工作流程)聚合类似的分组
✓针对模型的性能考虑
✓提出业务流程改进方法及措施 ✓理解分组概念之间的关联及关系
度小于30元的用现金缴费的女性,80%可能会流失
广州市品高软件开发有限公司
24
数据管控
数据管控主要包括元数据管理、数据质量管理、数据安全管理,全面提升数据管控能力
•数据质量管理
•数据安全管理 数据仓库
广州市品高软件开发有限公司
•元数据管理
25
元数据管理工具
元数据管理工具可加强数据的管控力度,增强系统自身管理能力,提升系统易用性
由于做了大量数据预处理, 查询性能很快。
只是依靠单纯的维度建模, 不能保证数据来源的一致 性和准确性
结论:一般在数据仓库底层使用范式建模,在数据集市层或多维数据库使用维度建模
数据应用-多维分析之切片、切块
数据应用-多维分析之钻取
按
时
间
维
60
向
上
钻
取
按 时 间 维 向 下 钻 取
数据应用-多维分析之旋转
14
数据整合---ETL
ETL框架 采集
DB2 Oralce
…… 文件
ETL监控
转换
装载
数 据
数据转换
数据清洗
数 据
抽
加
取
载
数据中心
插
任务管理
作业调度
插
件
件
数据抽取监控 磁盘IO监控 数据库监控
数据清洗监控
数据转换监控
网络IO监控
CPU监控
告警处理
元数据管理模块
数据质量管理模块
15
数据整合--ETL特点
数据应用之即席查询
用户根据自身需求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表
构建宽表模型
基本信息字段
工班日期 所属路段 所属区域 OD路径字段
收费站 车道
收费方式 车辆信息信息
异常行驶信息 绿色通道字段
收费信息字段 结算费用字段
分账信息字段 计重信息字段
通行卡字段 标识路径字段
广州市品高软件开发有限公司
计算口径错误 ….
文件传输出错 ….
错误的数据维护流程
责任心、责任人
人为调整数据流程 数据稽核流程
反馈渠道
管理措施 培训计划
流程类
管理类
结果
决策是 否正确
系统建 设成败
数据质量管理工具
监控 检查 报告
数据源 抽取
数据源
数 抽取
ETL 转换 轻度汇
高度汇
据
外部应用
监
服
控
工具
装载
总层 汇总
汇总
总层
务
抽取 总
线
点
外部应用
监控 数据
质量规则 元数据
规则匹 配计算
质量报告
质量报告主要包括报告时间、报告标题、报告类型、告警类型、严重级别、 报告内容等
广州市品高软件开发有限公司
ETL工具特点
1. 多种数据源支持:支持DB2、 ORACLE、MySql、SQLSERVER、 文件多种不同数据源的抽取; 2. 作业调度可视化配置:使用 图形化界面配置调度作业; 3. ETL过程监控:对采集、转换、 装载过程进行监控,在发生异常时 自动记录相关信息。
报表的生产率问题:由于OLTP的单项系统导致数据的分散性和相同元素定
义不一致所致不可能把数据转换成信息
数据动态集成问题:不同的需求,要求将操作型环境和分析型环境相分离
历史数据问题:单项系统之间保留的历史数据时间范围不一致,无法满足
DSS分析的需要数据的综合问题:非细节数据、多种程度的综合 提升现有的信息:
数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用
数据挖掘从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非
平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、 数据库、可视化技术等
OLAP On-Line Analytical Processing是数据仓库系统的主要应用,支持复杂的分析操作
广州市品高软件开发有限公司
9
数据仓库领域另外一名重要的人物
比尔·恩门的对头 随着拉尔夫·金博尔(Ralph Kimball)博士出版了他的第
一本书“The DataWarehouse Toolkit”(《数据仓库工具 箱》),数据仓库行业就开始喧哗起来,恩门的“Building the Data Warehouse”主张建立数据仓库时采用自上而下 (DWDM)方式,以第3范式进行数据仓库模型设计,而他 生活上的好朋友Ralph Kimball在“The DataWarehouse Toolkit”则是主张自下而上(DMDW)的方式,力推数据集 市建设,以致他们的FANS吵闹得差点打了起来,直至恩门推 出新的BI架构CIF(Corporation information factory),把 Kimball的数据集市包括了进来才算平息。
即席查询
自由组合条件
•可任意选择宽表字段
定义条件关系及值
•条件和值之间可以用= in等连接; •条件和条件之间可用or and之间连接
导出列编辑
•可编辑结果的显示列
输出结果
反向分析
23
数据应用之数据挖掘
数据挖掘:从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于
Association rule learning)的信息的过程
பைடு நூலகம்
元数据管理工具
元数 据工 具功 能
实体差异分析 主机拓扑图分析
元数据使用情况 元数据统计
指标库 血缘分析
实体关联度分析 过程查询
元数 据存 储
业务元数据
业务规则 业务描述 指标口径 ……
元数
据获 数据源
ETL
取
Webservice接口、JMI接口、XMI接口
管理元数据
流程定义 角色定义 组织架构
技术元数据
3
数据仓库的特点
面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分
离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户 使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独
较为交单 维度建模 高
交付 时间 部署成本
指导思想
需要很长的启动时间
较高的启动成本,较低的后续项目开 发成本 长期规划
可以快速部署应用
较低的启动成本,每个后 续项目成本接近
各部门需要有统一的构建 思想
结论:一般结合两种方式的优点混合使用
广州市品高软件开发有限公司
13
数据仓库体系架构
广州市品高软件开发有限公司
自下而上 1. 根据特定的业务过程建立数据集市; 2. 在各部门数据集市之上递增构建整个 企业的数据仓库
两种数据仓库构建方式对比
对比项 体系结构
复杂度 建模工具 易访问性
自上而下
先建立全企业的原子级数据仓库,然 后在此基础上建立部门级应用
自下而上
按照业务过程建立集市, 再通过整合建立数据仓库
非常复杂 传统ER模型 低
对特定平台作出相应调整
广州市品高软件开发有限公司
17
数据建模方法
范式建模法: Bill Inmon主张使用,
使用关系型数据库第三范式进行ER建模, 同业务系统的数据库建模类似
维度建模法: Kimball 最先提出这一
概念,按照事实表,维表来构建数据仓库,数据集市。 并针对各个维作了大量的预处理,这种方法的最被人 广泛知晓的名字就是星型模式(Star-schema),另 外还有雪花模型、星座模型、雪暴模型
据量大
工作单位 用户数 DB大小
简单的事务 上千个 100MB-GB
广州市品高软件开发有限公司
复杂的查询 上百个 100GB-TB
6
数据仓库是怎么产生的
在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展做出了 巨大贡献。各类信息系统大多属于面向事务处理的OLTP系统,经过多年的运行, 积累了大量的数据,而管理决策层对数据分析基础平台的需求却日益强烈。
星型
雪花
18
两种建模方法比较
对比项 提出人 复杂度
范式建模
维度建模
Bill Innon
Kimball
比较简单,从关系型数据库角度出发, 建模简单,但由于在构建
比较方便构建
星型模式之前需要进行大
量的数据预处理,因此会
导致大量的数据处理工作
灵活性
较为灵活
性能
慢
数据一致性 能够较好保证数据一致性
当业务发生变化,需要重 新进行维度的定义
广州市品高软件开发有限公司
10
议程
1. 数据仓库概念及由来 ✓ 基本概念 ✓ 产生背景
2. 数据仓库搭建 ✓ 数据整合 ✓ 数据建模 ✓ 数据管控
3. Oracle数据仓库产品介绍
两种数据仓库构建方式
自上而下 1. 进行全企业的数据建模和数据整合,并建
立原子级数据仓库; 2. 对于各部门的应用再建立相应的数据集市
数据仓库数据建模步骤
一般按照主题进行建模 一般步骤
✓梳理组织架构关系
✓抽象业务概念
✓具化抽象概念的属性✓针对特定物理平台
✓梳理系统用户、角色
✓分组业务概念,按照业务主线 ✓细化业务流程
作出相应的技术调整
✓梳理业务流程(实际工作流程)聚合类似的分组
✓针对模型的性能考虑
✓提出业务流程改进方法及措施 ✓理解分组概念之间的关联及关系
度小于30元的用现金缴费的女性,80%可能会流失
广州市品高软件开发有限公司
24
数据管控
数据管控主要包括元数据管理、数据质量管理、数据安全管理,全面提升数据管控能力
•数据质量管理
•数据安全管理 数据仓库
广州市品高软件开发有限公司
•元数据管理
25
元数据管理工具
元数据管理工具可加强数据的管控力度,增强系统自身管理能力,提升系统易用性
由于做了大量数据预处理, 查询性能很快。
只是依靠单纯的维度建模, 不能保证数据来源的一致 性和准确性
结论:一般在数据仓库底层使用范式建模,在数据集市层或多维数据库使用维度建模
数据应用-多维分析之切片、切块
数据应用-多维分析之钻取
按
时
间
维
60
向
上
钻
取
按 时 间 维 向 下 钻 取
数据应用-多维分析之旋转
14
数据整合---ETL
ETL框架 采集
DB2 Oralce
…… 文件
ETL监控
转换
装载
数 据
数据转换
数据清洗
数 据
抽
加
取
载
数据中心
插
任务管理
作业调度
插
件
件
数据抽取监控 磁盘IO监控 数据库监控
数据清洗监控
数据转换监控
网络IO监控
CPU监控
告警处理
元数据管理模块
数据质量管理模块
15
数据整合--ETL特点
数据应用之即席查询
用户根据自身需求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表
构建宽表模型
基本信息字段
工班日期 所属路段 所属区域 OD路径字段
收费站 车道
收费方式 车辆信息信息
异常行驶信息 绿色通道字段
收费信息字段 结算费用字段
分账信息字段 计重信息字段
通行卡字段 标识路径字段
广州市品高软件开发有限公司
计算口径错误 ….
文件传输出错 ….
错误的数据维护流程
责任心、责任人
人为调整数据流程 数据稽核流程
反馈渠道
管理措施 培训计划
流程类
管理类
结果
决策是 否正确
系统建 设成败
数据质量管理工具
监控 检查 报告
数据源 抽取
数据源
数 抽取
ETL 转换 轻度汇
高度汇
据
外部应用
监
服
控
工具
装载
总层 汇总
汇总
总层
务
抽取 总
线
点
外部应用
监控 数据
质量规则 元数据
规则匹 配计算
质量报告
质量报告主要包括报告时间、报告标题、报告类型、告警类型、严重级别、 报告内容等
广州市品高软件开发有限公司
ETL工具特点
1. 多种数据源支持:支持DB2、 ORACLE、MySql、SQLSERVER、 文件多种不同数据源的抽取; 2. 作业调度可视化配置:使用 图形化界面配置调度作业; 3. ETL过程监控:对采集、转换、 装载过程进行监控,在发生异常时 自动记录相关信息。