数据仓库入门PPT演示文稿

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文件系统管理 这一阶段在20世纪50年代后期至60年代中后期,计算机应用开始用于信息 管理,由于数据存储、检索和维护等需求,使得相应的研究开展起来了, 在硬件和软件方面都得到了发展,磁盘磁鼓出现,操作系统也产生。这一 时期数据管理的特点主要是:: 数据保存,数据可以长期保存在磁盘上; 有操作系统的文件管理系统,文件结构化,数据的物理结构和逻辑结构有了 区别; 有了存储文件后,数据可以不再仅仅属于某一个应用,而能进行一定程度 的复用。 但文件系统在数据管理方面存在缺陷,表现在数据冗余度大,数据和程序 之间缺乏独立性,容易造成数据的不一致性。
上千个
上百个
100MB-GB
100GB-TB
什么是OLAP
定义1 :OLAP(联机分析处理)是针对特定问题的联机数据 访问和分析。通过对信息(维数据)的多种可能的观察形式 进行快速、稳定一致和交互性的存取,允许管理决策人员 对数据进行深入观察。
定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或 执行人员能够从多种角度对从原始数据中转化出来的、能 够真正为用户所理解的、并真实反映企业维特性的信息进 行快速、一致、交互地存取,从而获得对数据的更深入了 解的一类软件技术。(OLAP委员会的定义)
用户
功能 DB 设计 数据
存取 工作单位 用户数 DB 大小
17
OLTP
OLAP
操作人员,低层管 理人员
日常操作处理
决策人员,高级管 理人员
分析决策
面向应用
面向主题
当前的, 最新的细 节的, 二维的分立 的
读/写数十条记录
历史的, 聚集的, 多维的集成的, 统 一的
读上百万条记录
简单的事务
复杂的查询
13
ETL应用过程 监控
主要是监控ETL的整个过程,通过扫描ETL各模块的日 志中的关键值,如记录时间等信息与当前的状态作比较, 如果超过某一个值,则认为该模块运行可能出现问提, 应告警。
14
ETL工具框架
15
OLAP简述
16
OLAP&OLTP(on-line transaction processing)
OLAP的目标是满足决策支持或多维环境特定的查询和报表 需求,它的技术核心是“维”这个概念,因此OLAP也可 以说是多维数据分析工具的集合。
数据库系统(60年代末开始)
2
数据仓库的发展的动力
业务需求驱动 – 主要是详细的分析 – 科学的经营 市场活动的细化ห้องสมุดไป่ตู้实施等
数据驱动 – 数据量不断扩大 – 没有数据仓库等相关技术很难全面了解企业
项目驱动
3
数据仓库定义
Inmon的定义: – DataWarehouse is a subject-oriented,integrated,timevariant, and nonvolatile collection of data in support of management’s decision making process
Data Warehouse overview
1
数据仓库管理的历史时期
人工管理方式: 这一时期是在20世纪50年代中期以前,这一阶段的计算机应用主要用于科 学计算,外存只有纸带、磁带、卡片等,数据处理的方式基本上是批处理。 这一时期数据管理的特点是:数据不保存;没有专用的数据管理软件,每 个应用都必须自己完成存储结构、存取方法、输入输入输出等数据管理功 能;一组数据对应一个应用,这使得程序之间可能有重复的数据。
10
ETL应用过程
数据抽取 抽取主要是针对各个业务系统及不同网点的分散 数据,充分理解数据定义后,规划需要的数据源 及数据定义,制定可操作的数据源,制定增量抽 取的定义。 (数据源和文件等多种形式)
数据传输 数据传输是通过网络负责把远程的数据到本地 目录下。
11
ETL应用过程
数据的清洗和转换 转换主要是针对数据仓库建立的模型,通过一系列的转 换来实现将数据从业务模型 到分析模型,通过内建的库 函数、自定义脚本或其他的扩展方式,实现了各种复杂 的 转换,并且支持调试环境,清楚的监控数据转换的状 态。数据转换是真正将源数据变为目标数据的关键环节, 它包括数据格式转,换数据类型转换、数据汇总计算、 数据拼接等等。 清洗主要是针对系统的各个环节可能出现的数据二义性、 重复、不完整、违反业务 规则等问题,允许通过试抽取, 将有问题的纪录先剔除出来,根据实际情况调整相应 的 清洗操作。
装载数据到DW
ODS数据抽取、转换
装载数据到ODS
DW数据抽取、转换 DW数据生成报表
报表展现
8
装载到OLAP
分析性查询
ETL简述
9
ETL定义
ETL: Extract-Transform-Load 数 据 抽 取 ( Extract ) 、 转 换 ( Transform ) 、 装 载 (Load)的过程。 ETL是BI/DW的核心和灵魂,按照统一的规则集成并提 高数据的价值,是负责完成数据从数据源向目标数据仓 库转化的过程,是实施数据仓库的重要步骤
数据仓库的特点 – 数据仓库的数据是面向主题的 – 数据仓库的数据是集成的 – 数据仓库的数据是与时间相关的 – 数据仓库的数据是稳定的
4
简单的数据仓库架构
5
数据仓库实际应用例子
6
数据集成
企业全面的经营数据
– OLTP分散在各个不同系统中(事件独立)
银行:卡、储蓄、信贷、会计、中间业务等等系 统
12
ETL应用过程
数据加载入库
数据加载主要是将经过转换和清洗的数据加载到数据仓 库里面,即入库,可以通过数据文件直接装载或直连数 据库的方式来进行数据装载,可以充分体现高效性 ETL调度 ETL的调度控制方式有两种:
自动方式
由系统每天定时或准实时启动后台程序,自动完成数据 仓库ETL处理流程。 手动方式 用户可以通过前台监控平台,对单个目标或批量目标进 行手工调度。
BOSS+增值业务+财务
集成数据
– 建立关联
事件关联(业务之间是相互关联)
客户数据统一
– 历史数据
大量历史数据的保存问题
– 中国建设银行一个中等规模的省产生每天的交 易详细记录大约200M
7
– 通常在业务系统中只保存当日数据
数据仓库数据处理流程
业务系统数据/外部数据
数据格式检查
源数据清洁、抽取、转换
相关文档
最新文档