数据仓库入门PPT演示文稿

合集下载

《数据仓库》PPT课件 (2)

《数据仓库》PPT课件 (2)
数据仓库体系结构
数据库系统模式(操作型数据)
采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日
期, … ) 供应商(供应商号,供应商名,地址,电话,…)
销售子系统: 客户(客户号,姓名,地址,电话, … ) 销售(客户号,商品号,数量,单价,日期, … )
库存子系统: 进库单(编号,商品号,数量,单价,日期, … ) 出库单(编号,商品号,数量,单价,日期, … ) 库存(商品号, 库房号,类别,单价,库存数量,
21
第2章 数据仓库
数据仓库体系结构
数据源
数据仓库
RDBMS 数据文件
其他
综合数据 当前数据 历史数据 元数据
分析工具 查询工具 OLAP工具 DM工具
抽取、转换、装载
精选ppt
22
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构实例-税务数据仓库
数据源
ETL
数据存储
数据访问 数据展示
生产 数据库
数据集市
EXCEL
数据仓库
5-10 年
当前 详细数据
过去 详细数据
精选ppt
25
第2章 数据仓库
数据仓库体系结构
数据仓库数据的组织
• 数据由操作型环境(综合)导入数据仓库 • 数据具有不同的细节
早期细节级(过期数据) 当前细节级 轻度综合数据级(数据集市) 高度综合数据级
精选ppt
26
第2章 数据仓库
多渠道
社保库
遗留系统 数据库
E
外部 数据源
数据复制 平台
转换 T 中转区
L 加载 中转区
文档 数据
地市库
个税库

数据仓库技术PPT课件( 25页)

数据仓库技术PPT课件( 25页)

像外行一样思考,像专家一样实践
2019/5/31
杭州斯凯网络科技有限公司
かなで たけお
金出 武雄
24

5、世上最美好的事是:我已经长大,父母还未老;我有能力报答,父母仍然健康。

6、没什么可怕的,大家都一样,在试探中不断前行。

7、时间就像一张网,你撒在哪里,你的收获就在哪里。纽扣第一颗就扣错了,可你扣到最后一颗才发现。有些事一开始就是错的,可只有到最后才不得不承认。
8
数据仓库的架构类型
2019/5/31
杭州斯凯网络科技有限公司
9
Oracle数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
10
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
11
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
12
2019/5/31
杭州斯凯网络科技有限公司
20
软件物理架构比较
软件物理架构主要特征区别就是行存储和列存 储。这个也是曾经很多厂商津津乐道的地方,根 据需求的不同,2种方式可以灵活采用。
大部分DB软件都是采用行存储,而列存储 的特征在于高效的单列值压缩,在选择列比较少 的时候需要io要求很低,速度很快,不过行存储 的DB目前在压缩效率上也在迅速提升,大部分需 求还是选择行数据进行观察,行存储也更加便于 表的按记录拆分进行并行化。
MapReduce 概念
MapReduce是一种编程模型(并不是google自己开发的 编程工具),用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(化简)",和他们的主要 思想,都是从函数式编程语言里借来的,还有从矢量编程 语言里借来的特性。他极大地方便了编程人员在不会分布 式并行编程的情况下,将自己的程序运行在分布式系统上。

数据仓库基础PPT课件

数据仓库基础PPT课件
主题
• 商业智能技术 • 数据仓库与多维模型 • 设计数据仓库 • 设计多维模型
第1页/共40页
商业智能的体系
数据仓库技术
在线分析处理技术
数据挖掘技术
( Data Warehousing)An(alyOtiLcAaPl P:rOocnelisnseing (Data Mining)
数据整合
) 更加全面数、据深分入析的分析
• 父子维 父子维是基于两个维表列的维度,由维表中的两列来共同定义各个成员的隶属关系。一列称 为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。
第23页/共40页
数据仓库设计(二) ——维表
• 普通维
普通维中的层次是根据维表的列而定义的,所以维表中列的定义会直接影响到维度中层次的定义。 设计普通维度的维表必须充分考虑维度的扩展性。
• 单元级别权限: 单元级别的安全权限,可以限定多维数据集中特定单元访问。
• 其它级别权限: 不同OLAP引擎所提供的特属功能的权限。例如,钻取权限等
Jms
包含免数/退库数的列
……
……
第21页/共40页
数据仓库设计(一) ——事实表
• 设计事实表应注意的问题
• 事实表中一般不应包含描述性信息,也不应包含除事实表与维表中间对应的关联字段之外的 任何数据。
• 事实表中的数据应该是经过适当聚合的数据 • 事实表中数据的粒度应该是一致的 • 事实表的设计应该考虑增量数据更新的需要,例如是否需要增加时间戳字段等。
知识发现
集 数 题成据的商各,企业系建业统立数智的面据能历向中技史主心术形体成知系识(灵的查库活多B询指I、维—、导动分—即决态 析B席策、、u报s、快随in表再速机es分s析Int通隐e律ll过藏ig,数的e以n学、c辅e模潜助)型在决发的策现规

数据仓库概述PPT(共 57张)

数据仓库概述PPT(共 57张)
决策支持系统:需要花数小时甚至更长时 间的处理、需要遍历数据库中的大部分数据, 进行复杂的计算,需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求

数据仓库基础.ppt

数据仓库基础.ppt

• 特殊要求
根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。
• 增量更新
必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。
数据仓库基本元素(一)
• 关系型数据库
关系数据库是建立数据仓库的基础引擎平台,它为数据仓库提供临时存 储、清理和转换传入的数据,容纳和管理数据仓库中的大量数据,并支 持数据仓库的功能。
税务 机关 维表
时间 维表
行业 维表
事 实 表
经济 性质 维表
税种 维表
数据仓库组织形式(二)
• 雪花型模型
雪花型架构比星型模型增加了次要维表,有一个或多个维表是联接到其 它维表上,而非事实数据表上。
机构 维表
时间 维表
事 实 表
行业 维表
地区维
地市 维表 省份 维表
数据仓库设计(一)——事实表
数据仓库定义

• 数据仓库的概念
什么是数据仓库?
数据仓库就是面向主题的、集成的、不同时间的、稳定的数据集 合,用以支持经营管理中的决策制定过程。
数据仓库的特点
• 面向主题
• 集成性—企业数据框架
• 历史性、稳定性
数据仓库与业务数据库的比较
什么是联机分析处理(OLAP)?
• OLAP的定义
OLAP是使分析人员、管理人员能够从多种角度对从原始数据中转
数据仓库设计原则(一)
• 模型构架
尽量使用星型架构,使用雪花架构的目的是使事实表第一级的维表数量 达到最小。
• 设计方法
将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到 单一维度表中,而且在多个维度表中数据不应重复。
• 维表设计
设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和 大小。

数据仓库入门PPT课件

数据仓库入门PPT课件
旋转(pivot) – 旋转是变换维的方向,即在表格中重新安排维的放置 (例如行列互换)
21
OLAP的分析方法(一)切片、切块
22
OLAP的分析方法(二)钻取
按 时 间 维 向 下 钻
23 取




60




OLAP的分析方法(三)旋转
24
OLAP分类
OLAP
按照存储方式
按照处理地点
ROLAP MOLAP HOLAP
BOSS+增值业务+财务
集成数据
– 建立关联
事件关联(业务之间是相互关联)
客户数据统一
– 历史数据
大量历史数据的保存问题
– 中国建设银行一个中等规模的省产生每天的交 易详细记录大约200M
7
– 通常在业务系统中只保存当日数据
数据仓库数据处理流程
业务系统数据/外部数据
数据格式检查
源数据清洁、抽取、转换
12
ETL应用过程
数据加载入库
数据加载主要是将经过转换和清洗的数据加载到数据仓 库里面,即入库,可以通过数据文件直接装载或直连数 据库的方式来进行数据装载,可以充分体现高效性 ETL调度 ETL的调度控制方式有两种:
自动方式
由系统每天定时或准实时启动后台程序,自动完成数据 仓库ETL处理流程。 手动方式 用户可以通过前台监控平台,对单个目标或批量目标进 行手工调度。
(4)信息性:不论数据量有多大,也不管数据存储在何处,OLAP 系统应能及时获得信息,并且管理大容量信息。
20
OLAP表现方式
钻取 – 改变维的层次,变换分析的粒度 – 向上钻取(roll up)和向下钻取(drill down)

数据仓库基础知识培训教材(PPT38页)

数据仓库基础知识培训教材(PPT38页)

数据仓库基础知识培训教材(PPT38页 )培训 课件培 训讲义 培训ppt教程管 理课件 教程ppt
面向主题性
• 面向主题性表示了数据仓库中数据组织的基本 原则,数据仓库中的所有数据都是围绕着某一 主题组织的。
• 确定主题以后,需要确定主题应该包含的数据。
• 不同的主题之间可能会出现相互重叠的信息。
1.1从传统数据库到数据仓库(续)
• 传统的事务处理环境不适宜于决策支持应 用
• 事务处理和分析处理的性能特性不同 • 数据集成问题 • 数据动态集成问题 • 历史数据问题 • 数据的综合问题
• 操作型环境和分析型环境的分离:数据抽取
现实生活中面临的问题
人们在日常生活中经常会遇到这样的情况: • 超市的经营者希望将经常被同时购买的商
• 随着市场竞争的加剧,信息系统的用户已经不 满足于仅仅用计算机去处理每天所发生的事务 数据,而是需要信息——能够支持决策的信息, 去帮助管理决策。这就需要一种能够将日常业 务处理中所收集到的各种数据转变为具有商业 价值信息的技术,传统数据库系统无法承担这 一责任。因为传统数据库的处理方式和决策分 析中的数据需求不相称。这些不相称性主要表 现在决策处理中的系统响应问题、决策数据需 求的问题和决策数据操作的问题。
品放在一起,以增加销售; • 保险公司想知道购买保险的客户一般具有
哪些特征; • 医学研究人员希望从已有的成千上万份病
历中找出患某种疾病的病人的共同特征, 从而为治愈这种疾病提供一些帮助; • ……
企业面临的问题
• 经过多年的计算机应用和市场积累,许多 企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录
数据集成性
• 根据决策分析的要求,将分散于各处的源数据进行 抽取、筛选、清理、综合等工作,最终集成到数据 仓库中。

数据仓库简介-PPT课件

数据仓库简介-PPT课件
9
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:

数据仓库概述(PPT 90页)

数据仓库概述(PPT 90页)

6 数据管理员 是负责数据导入时管理数据质量的专业人员,还检阅提取日志,发现其中数据
提取的错误和源于业务系统的错误。
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据
DW&DM
2000-2-3 2000-2-4 2000-2-5
…..
2/3/2000 2/4/2000 2/5/2000
…..
2000/2/3 2000/2/4 2000/2/5
…..
图1-9 数据格式的不一致
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据
2.数据处理的效率很低
• 在错综复杂的体系中,不同级别的数据库可能使用不同类型的数 据库系统,对于有巨型数据量的企业级数据库可能使用IBM DB2, 对于中小型数据库可能使用SQL Server。各种数据库的开发工具 和开发环境不同,抽取程序应用的技术不同,因而难以集成。

如果一个大型企业的决策者需要一份关于公司整体运营情况
可能和今天是不同的。可见,动用大量的人力,物力和时间才能
完成的报表不仅实效性很差,数据处理的效率也很低。
DW&DM
以数据库为中心 以数据仓库为中心
应用A 应用B 应用C
操作应用A 操作应用B 操作应用C
数据库
生产环境 数据库
以数据库为中心
生产环境
数据库
以数据仓库为中心
分析应用A 分析应用B 分析应用C
型系统的划分如图1-4所示。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库的特点 – 数据仓库的数据是面向主题的 – 数据仓库的数据是集成的 – 数据仓库的数据是与时间相关的 – 数据仓库的数据是稳定的
4
简单的数据仓库架构
5
数据仓库实际应用例子
6
数据集成
企业全面的经营数据
– OLTP分散在各个不同系统中(事件独立)
银行:卡、储蓄、信贷、会计、中间业务等等系 统
上千个
上百个
100MB-GB
100GB-TB什么Fra bibliotekOLAP定义1 :OLAP(联机分析处理)是针对特定问题的联机数据 访问和分析。通过对信息(维数据)的多种可能的观察形式 进行快速、稳定一致和交互性的存取,允许管理决策人员 对数据进行深入观察。
定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或 执行人员能够从多种角度对从原始数据中转化出来的、能 够真正为用户所理解的、并真实反映企业维特性的信息进 行快速、一致、交互地存取,从而获得对数据的更深入了 解的一类软件技术。(OLAP委员会的定义)
13
ETL应用过程 监控
主要是监控ETL的整个过程,通过扫描ETL各模块的日 志中的关键值,如记录时间等信息与当前的状态作比较, 如果超过某一个值,则认为该模块运行可能出现问提, 应告警。
14
ETL工具框架
15
OLAP简述
16
OLAP&OLTP(on-line transaction processing)
12
ETL应用过程
数据加载入库
数据加载主要是将经过转换和清洗的数据加载到数据仓 库里面,即入库,可以通过数据文件直接装载或直连数 据库的方式来进行数据装载,可以充分体现高效性 ETL调度 ETL的调度控制方式有两种:
自动方式
由系统每天定时或准实时启动后台程序,自动完成数据 仓库ETL处理流程。 手动方式 用户可以通过前台监控平台,对单个目标或批量目标进 行手工调度。
BOSS+增值业务+财务
集成数据
– 建立关联
事件关联(业务之间是相互关联)
客户数据统一
– 历史数据
大量历史数据的保存问题
– 中国建设银行一个中等规模的省产生每天的交 易详细记录大约200M
7
– 通常在业务系统中只保存当日数据
数据仓库数据处理流程
业务系统数据/外部数据
数据格式检查
源数据清洁、抽取、转换
文件系统管理 这一阶段在20世纪50年代后期至60年代中后期,计算机应用开始用于信息 管理,由于数据存储、检索和维护等需求,使得相应的研究开展起来了, 在硬件和软件方面都得到了发展,磁盘磁鼓出现,操作系统也产生。这一 时期数据管理的特点主要是:: 数据保存,数据可以长期保存在磁盘上; 有操作系统的文件管理系统,文件结构化,数据的物理结构和逻辑结构有了 区别; 有了存储文件后,数据可以不再仅仅属于某一个应用,而能进行一定程度 的复用。 但文件系统在数据管理方面存在缺陷,表现在数据冗余度大,数据和程序 之间缺乏独立性,容易造成数据的不一致性。
OLAP的目标是满足决策支持或多维环境特定的查询和报表 需求,它的技术核心是“维”这个概念,因此OLAP也可 以说是多维数据分析工具的集合。
数据库系统(60年代末开始)
2
数据仓库的发展的动力
业务需求驱动 – 主要是详细的分析 – 科学的经营 市场活动的细化和实施等
数据驱动 – 数据量不断扩大 – 没有数据仓库等相关技术很难全面了解企业
项目驱动
3
数据仓库定义
Inmon的定义: – DataWarehouse is a subject-oriented,integrated,timevariant, and nonvolatile collection of data in support of management’s decision making process
装载数据到DW
ODS数据抽取、转换
装载数据到ODS
DW数据抽取、转换 DW数据生成报表
报表展现
8
装载到OLAP
分析性查询
ETL简述
9
ETL定义
ETL: Extract-Transform-Load 数 据 抽 取 ( Extract ) 、 转 换 ( Transform ) 、 装 载 (Load)的过程。 ETL是BI/DW的核心和灵魂,按照统一的规则集成并提 高数据的价值,是负责完成数据从数据源向目标数据仓 库转化的过程,是实施数据仓库的重要步骤
Data Warehouse overview
1
数据仓库管理的历史时期
人工管理方式: 这一时期是在20世纪50年代中期以前,这一阶段的计算机应用主要用于科 学计算,外存只有纸带、磁带、卡片等,数据处理的方式基本上是批处理。 这一时期数据管理的特点是:数据不保存;没有专用的数据管理软件,每 个应用都必须自己完成存储结构、存取方法、输入输入输出等数据管理功 能;一组数据对应一个应用,这使得程序之间可能有重复的数据。
用户
功能 DB 设计 数据
存取 工作单位 用户数 DB 大小
17
OLTP
OLAP
操作人员,低层管 理人员
日常操作处理
决策人员,高级管 理人员
分析决策
面向应用
面向主题
当前的, 最新的细 节的, 二维的分立 的
读/写数十条记录
历史的, 聚集的, 多维的集成的, 统 一的
读上百万条记录
简单的事务
复杂的查询
10
ETL应用过程
数据抽取 抽取主要是针对各个业务系统及不同网点的分散 数据,充分理解数据定义后,规划需要的数据源 及数据定义,制定可操作的数据源,制定增量抽 取的定义。 (数据源和文件等多种形式)
数据传输 数据传输是通过网络负责把远程的数据到本地 目录下。
11
ETL应用过程
数据的清洗和转换 转换主要是针对数据仓库建立的模型,通过一系列的转 换来实现将数据从业务模型 到分析模型,通过内建的库 函数、自定义脚本或其他的扩展方式,实现了各种复杂 的 转换,并且支持调试环境,清楚的监控数据转换的状 态。数据转换是真正将源数据变为目标数据的关键环节, 它包括数据格式转,换数据类型转换、数据汇总计算、 数据拼接等等。 清洗主要是针对系统的各个环节可能出现的数据二义性、 重复、不完整、违反业务 规则等问题,允许通过试抽取, 将有问题的纪录先剔除出来,根据实际情况调整相应 的 清洗操作。
相关文档
最新文档