数据仓库基础 PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BI的由来
• 商业智能(Business Intelligence,简称BI) 最早是由美国Gartner Group于1996年提出的。当时将其 定义为一类数据仓库(或数据集市)、查询报表、数据分 析、数据挖掘、数据备份和恢复等部分组成的、以帮助企 业决策为目的技术及其应用。
• 数据仓库、OLAP、数据挖掘总是纠缠在一起,交流太麻 烦,统称为BI,不仅如此,以后不用DW/OLAP/DM,BI 也不会过时。
• 可以理解为交叉表的数据格
钻取和上卷
旋转
示例:钻取-操作
示例:钻取-效果
基于多维数据库的OLAP——MOLAP
• 以多维方式组织数据(综合数据) • 以多维方式显示(观察)数据 • 多维数据库的形式类似于交叉表,可直观地表述一对多、
多对多的关系
– 如:产品、地区、销售额
• 关系 • 多维
– 结构较复杂 – 以关系模拟多维 – 支持适当细节的OLAP – 较成熟
数据使用:分析
• 职责
– 负责数据的使用、分析、展现
• 常见方式
– 报表:常规的制式固定报表 – OLAP:联机分析处理 – 数据挖掘 – 即席查询 – 自助查询
调度管理
ETL 数据获取
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数据标准管理
数据质量管理
联机分析处理(OLAP)
• 是针对特定问题的联机访问和分析 • 通过对信息的很多种可能的观察形式进行快速、稳定一致
—— [Ladley,1997]
……是一组方法、技术、工具…… • Data warehouse is a process of crating, maintaining,and
using a decision-support infrastructure.
—— Appleton,1995][Haley,1997][Gardner 1998]
RDBMS
Metadata
Source
Data Extraction,
Databases Transformation, load
Central Data Warehouse
Architected Data Marts
MidTier
MidTier
MDB
End-User DW Tools
Data Access and Analysis
Source Hub - Data Extraction, Central Data Ware-
Databases Transformation, load
house and ODS
Architected Data Marts
Data Access and Analysis
小结:体系结构
调度管理
ETL 数据获取
• 模拟多维方式显示(观察)数据
ROLAP架构
MOLAP与ROLAP
• MOLAP
– 计算速度较快 – 支持的数据容量较小 – 缺乏细节数据的OLAP – 多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指
针结构 – 以关系数据库存放细节数据、以多维数据库存放综合数据
• ROLAP
• 本文没有严格区分数据仓库和BI
日程:技术知识
• 基本概念 • 体系结构 • 设计方法 • 技术实现
调度管理
ETL
数据仓库
分析
数据获取
数据存储
数据使用
门
户 元数据管理
数据标准管理
数据质量管理
体系结构的重点
• 重点问题:数据的获取、存储和使用
– 数据仓库和集市的加载能力至关重要 – 数据仓库和集市的查询输出能力至关重要
数据仓库基础
信息技术部 开发三处 徐景春
日程
日程:技术知识
• 基本概念 • 体系结构 • 设计方法 • 技术实现
背景:数据处理的发展历程
数据库
OLTP处理交易 统计类需求 数据源繁杂 文件方式
数据与程序混杂 管理复杂 并发问题 一致性问题
传统数据仓库
OLAP处理分析 性能问题 非结构化数据 实时
• Data Mart
– 数据集市 – 小型的,面向部门或工作组级数据仓库。 – Inmon:部门级仓库,数据仓库数据的部分拷贝 – Kimball:数据仓库的组成部分,构成数据仓库
• Operation Data Store
– 操作数据存储 – 支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境 – 四个基本特点
• CDC组件
– Change Data Capture 改变数据捕获
CDC整体连接示意图
system
CDC for Oracle
S1(实例)
S11(数据存储)
CDC for Accessserver
D11(数据存 储)
CDC for Datastage
D1(实例)
userA(登录服务器用户)
AAddmmiinn((客客户户端端用用户户)) cdd user(登录服务器用户)
• 多维数据库由许多经压缩的、类似于数组的对象构成,带 有高度压缩的索引及指针结构
• 以关系数据库存放细节数据、以多维数据库存放综合数据
MOLAP架构
基于关系数据库的OLAP——ROLAP
• 以二维表与多维联系来表达多维数据(综合数据)
– 星型结构 – 事实表,存储事实的量及各维的码值(BCNF) – 维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余) – 事实表通过外键与每个维表相联系 – 雪花、星座、雪暴
• 异常捕获、异常处理
– 非功能需求
• 如何复用代码 • 性能:是否使用存储过程、如何转换 • 易用性:并行开发、维护
调度管理
ETL 数据获取
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数据标准管理
数据质量管理
增量数据获取方式
• 时间戳
– 源表有时间戳字段,记录新增、 修改、删除更新时间戳字段
MDB
End-User Tool
End-User Tool
End-User Tool
End-User Tool
体系结构 [Pieter,1998]
Relational
Appl. Package
Legacy
External Data
Cleansing Tool
Warehouse Admin. Tools
—— [Inmon,1996]
数据仓库是一个面向主题的、集成的、非易失的且随时间 变化的数据集合,用来支持管理人员的决策。
数据仓库其他定义
• Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform .
• 粒度
– 指数据仓库的数据单位中保存数据的细化或综合程度的级别 – 粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多 – 粒度影响数据仓库中数据量的大小 – 粒度问题是设计数据仓库的一个重要方面 – 在数据仓库的细节级上创建两种粒度
• 短期储存的低粒度(真实档案),满足细节查询 • 具有综合的高粒度(轻度综合),做分析
cdc user(登录服务器用户)
CDC FOR ORACLE 连接核心Oracle数据库作为数据源
AAddmmiinn((客客户户端端用用户户))
CDC FOR DATASTAGE 让数据源的增量数据落地成数据文件,作为目标端
CDC FOR ACCESSSERVER 连接 CDC FOR ORACLE和CDC FOR DATASTAGE 并提供用户管理
DW2.0 大数据平台
……
说明 不是“替代”关系 本文档重点介绍“传统数据仓库”
OLTP与OLAP
OLTP 处理交易wenku.baidu.com流程 运转
OLAP 分析数据 数据 记录、观察
数据仓库定义
• Data warehouse is a subject oriented, integrated,nonvolatile and time variant collection of data in support of management’s decision.
• 触发器
– 源表中创建触发器,通过触发器 捕获数据的增、删、改
插入 修改 删除
…… 增量2 增量1
ETL
存量数据
数据仓库
• 数据库日志
– 对事务数据库的日志文件进行分析,获取变化的数据
• Hash值
– 通过比对记录的hash值,识别出变化的数据
• 业务日期
– 根据源表中有业务含义的日期字段获取增量,如保单表的签单日、生效日,收付 费表的实收日期,保全生效日等
带ODS的体系结构
ODS
Relational
Appl. Package
Legacy
External Data
Cleansing Tool
Warehouse Admin. Tools
Extract, Transform and Load
Central Metadata
Data Modeling
Tool
Central Data
Warehouse
Local Metadata
Data Mart
RDBMS
Metadata Exchange
Local Metadata
Local Metadata
Data Mart RDBMS
MidTier
OLTP Tools
MidTier
MDB
End-User DW Tools
和交互性的存取,允许分析人员对数据进行深入观察 • 概念
– 变量是数据的实际意义,描述数据是什么 – 维是人们观察数据的特定角度 – 维的层次是维在不同细节程度的描述 – 维成员是维的一个取值 – 多层次维的维成员是各层次取值的组合 – 对应一个数据项,维成员是该数据项在该维中位置的描述 – 多维数组可以表示为(维1,维2,……,变量),如(地区,时间,销售渠道,销售额) – 多维数组的取值称为数据单元(单元格)
Extract, Transform and Load
Central Metadata
Data Modeling
Tool
Central Data
Warehouse
Local Metadata
Data Mart
RDBMS
Metadata Exchange
Local Metadata
Data Mart
Local
• 集成
– 从原有的分散数据库数据中抽取来的,需要消除数据表述的不一致性(数据的清 洗)
– 代码、粒度、结构
• 非易失的(不可更改的)
– 批处理增加,仓库已经存在的数据不会改变
• 随时间变化
– 键码都包含时间项,以标明数据的历史时期
面向主题
集成
非易失的(不可更改的)
随时间变化
Data Mart、ODS、ETL
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数
数据标准管理
据
用
源
数据质量管理
户
数据获取:ETL
• 职责
– 负责将数据从源系统提取到数据仓库中
• 功能
– 去掉操作型数据库中不需要的数据 – 统一转换数据的名称和定义 – 计算汇总数据和派生数据 – 估计遗失数据的缺省值
• 关键问题
– 增量数据获取 – 异常处理
Relational
Package
Legacy
External source Data Clean Tool
Data Staging
Enterprise Data
Warehouse
Data Staging:数据 处理区域,为了实现 ETL过程的临时存储
Datamart
RDBMS
Datamart
RDBMS ROLAP
如何选择增量获取方式
数据存储:数据仓库
• 职责
– 负责存储数据
• 功能
– 快速存取,适应变化
• 关键问题
– 4个基本特征的数据集合 – 数据架构:分哪几层 – 数据模型:每层如何存储数据 – 数据流向
调度管理
ETL 数据获取
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数据标准管理
数据质量管理
……是一个过程……
四个特征[Inmon,1996]
• 面向主题
– 主题是在较高层次上对数据抽象 – 面向主题的数据组织分为两步骤
• 确定主题 • 确定每个主题所包含的数据内容
– 每个主题由一组关系表实现,相关表通过公共的键码关联(如:客户ID) – 主题内数据可以存储在不同介质上(综合级,细节级,多粒度)
• 面向主题的(Subject -Oriented) • 集成的 • 可变的 • 当前或接近当前的
• ETL
– 数据抽取、转换、装载(Extract/Transformation/Load)
元数据、分割、粒度
• 元数据
– 关于数据的数据。用于构造、维持、管理使用数据仓库。
• 分割
– 数据分散到各自的物理单元中去,它们能独立地处理。