数据仓库技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库技术
2.数据装载类型
o 最初装载
o 这是第一次对整个数据仓库进行装载。
o 增量装载
o 由于源系统的变化,数据仓库需要装载变化的数据。
o 完全刷新
o 这种类型的数据装载用于周期性重写数据仓库。
数据仓库技术
3.5.4 ETL工具
o 数据转换引擎 o 代码生成器 o 通过复制捕获数据
数据仓库技术
数据仓库技术
2.数据抽取技术
o 当前值。
n 源系统中存储的数据都代表了当前时刻的值。当商业交 易时,这些数据是会发生变化的。
o 周期性的状态。
n 这类数据存储的是每次发生变化时的状态。例如,对于 每一保险索赔,都经过索赔开始、确认、评估和解决等 步骤,都要考虑有时间说明。
数据仓库技术
3.5.2 数据转换
数据仓库技术
2.1 数据仓库的定义
o 以1992年W.H.Inmon出版《Building the Data Warehouse》为标志,数据仓库速度 发展起来,Inmon也被誉为 “数据仓库之 父”。
o W.H.Inmon对数据仓库的定义是:“数据 仓库是支持决策过程的、面向主题的、集成 的、随时间变化的、持久的数据集合。
o OLTP与OLAP对比
数据仓库技术
OLTP 数据库数据(操作型)
细节性数据 当前数据 经常更新
一次处理的数据量小 对响应时间要求高 用户数量大
面向操作人员,支持日常操作 面向应用,事务驱动
OLAP 数据库/数据仓库数据(分析型)
综合性数据 历史数据
周期性更新 一次处理的数据量大
响应时间合理 用户数量相对较少 面向决策人员,支持管理需要 面向分析,分析驱动
o 分片——数据分割后的独立单元。 o 数据的分割 提高了数据管理的灵活性
重构、索引、重组、恢复、监控 o 分割的标准:日期、地域、业务领域。
数据仓库技术
分割的一个例子
健康保险 生命保险 事故保险
1999 分片1
分片2
分片3
2000 分片4
分片5
分片6
2001 分片7
分片8
分片9
数据仓库技术
3.4 数据仓库的数据组织模式
数据仓库技术
1 数据仓库技术的产生
o 数据仓库(Data Warehouse)技术完全是 在决策需求的驱动下产生与发展起来的。
n “数据太多,信息不足”的现状 n 异构环境的数据的转换和共享 n 利用数据进行数据处理转换为利用数据支持决

o 操作型数据库无法满足决策支持系统对数 据库系统的要求
o 专为决策服务的数据库系统称为数据仓库 (Data Warehouse,简称DW)。
(1)实体识别问题
数据来源于多个不同的客户系统,对相同客户可能分别 有不同的键码,将它们组合成一条单独的记录。
(2)多数据源相同属性不同值的问题
不同系统中得到的值存在一些差别 ,需要给出合理的值。
数据仓库技术
4.如何实施转换
o 自己编写程序实现数据转换 o 使用转换工具
数据仓库技术
3.5.3 数据装载
数据仓库技术
5.1 OLAP的定义
o 联机分析处理是是一种软件技术,他使分 析人员能够迅速、一致、交互地从各个方 面观察信息,以达到深入理解数据的目的。
o 联机分析技术是共享多维信息的快速分析。
—快速性
5秒内作出反应
—可分析性
逻辑分析和统计分析
—多维性
支持多维表
—信息性
及时获取信息
数据仓库技术
OLAP实例
编码
数据仓库 m,f
属性度量
管道cm
数据仓库技术
集成
应用A 描述 应用B 描述 应用C 描述 应用D 描述
多重信息源 冲突的键码
应用A char(10) 应用B dec fixed(9,2) 应用C pic ‘9999999’ 应用D char(12)
描述 char(12)
数据仓库技术
操作性
人寿保险

维表
事实表 量
o 星型模式(star schema)
中间有一个单一表,沿半径向外连接到多个表
o 雪花模式(snowflake schema)
是星型模式的扩展,每一个点都沿半径向外连
接到多个点
o 混合模式
数据仓库技术
3.5 ETL
o 数据抽取、转换、装载(ETL)是建立数 据仓库的重要步骤,需要花费开发数据仓 库70%的工作量。
数据仓库技术
6 数据仓库系统(DWS)
数据仓库系统=数据仓库(DW)+仓库管理+分析工具
关系数据 数据文件 其它数据
数据仓库 管理工具 抽取、转换
装载
元数据库
数据建模 工具
综合数据 当前数据 历史数据
用户查询 工具
C/S工具
OLAP工具
DM工具
源数据
仓库管理
数据仓库 分析工具
数据仓库技术
参考书籍
1. 数据转换的基本功能 2. 数据转换类型 3. 数据整合和合并 4. 如何实施转换
数据仓库技术
1.数据转换的基本功能
o 选择:从源系统中选择整个记录或者部分记录。 o 分离/合并:对源系统中的数据进行分离操作或者合并操作。 o 转化:对源系统进行标准化和可理解化。 o 汇总:将最低粒度数据进行汇总。 o 清晰:对单个字段数据进行重新分配和简化 。
数据仓库技术
2.3 非易失性
数据库
数据仓库
插入
修改
删除
访问 删除
插入 修改
数据的逐个记录方式处理
访问
数据的批量载入/访问
数据仓库技术
2.4 随时间变化
数据库
数据仓库
时间期限:当前到60—90天 记录更新 键码结构可能包括也可能不
包括时间元素
时间期限:5—10年 数据的复杂快照 键码结构包括时间元素
高度综合级
每月销售 1994-2001
轻度综合级 (数据集市)
元 数 据
当前细节级
每周销售 1994-2001
销售细节级 2000-2001
操作型转换 早期细节级
销售细节级
1994-1999
数据仓库技术
3.3 分割
o 分割——将当前细节数据分散到各自的物 理单元中去以便能分别独立处理,以提高 数据处理效率。
数据仓库技术
2.2 数据仓库的特征
是面向主题 (Subject-Orientation) 的; 数据仓库是集成 ( Integration ) 的; 数据仓库是稳定/非易失性 ( Nonvolatile )
的; 是随时间变化 ( Time Vagrancy ) 的; 是信息的概括和聚集。
数据仓库技术
3 数据仓库中的数据组织
3.1 数据的粒度 3.2 数据仓库的数据组织结构 3.3 数据的分割 3.4 数据仓库的数据组织模式 3.5 数据的追加
数据仓库技术
3.1 粒度
o 粒度——是指数据仓库的数据单位中保存数 据的细化或总合程度的级别。
o 细化程度越高,粒度级就越小; 细化程度越低,粒度级就越大。
o 独立的数据集市(Independent Data Mart),数据直接来源于数据源。
o 从属的数据集市(Dependeant Data Mart),数据来源于中央的数据仓库。
数据仓库技术
两种数据集市
数据源
数据源
数据源
数据源
中央数据仓库
独立数据集市
从属数据集市
Байду номын сангаас
分析工具
分析工具
分析工具
分析工具
分析工具
一个3维的模型, 3个维为:部门,时间,销售。 三维立方体,三维表
部 门
汽车 家具 服装
销售
销售量 利润增长% 1998 1999
时间
数据仓库技术
5.2 OLAP的多维数据分析
o 切片和切块(slice and dice) 固定多维表的某一维或某几维,使一
些列或行不显示。 o 钻取(drill)
各粒度级别(维的层次)之间的访问。 Ж上钻(drill up) Ж下钻(drill down) o 旋转(pivoting)
o 粒度——细节的级别 o 粒度的划分决定了数据仓库中数据量的大小
和查询的详细程度。 o 多重粒度
数据仓库技术
粒度的一个例子
高细化
每月200个记录 每月40,000个字节
低细化 每月一个记录 每月200个字节

通过检索

可以回答






无细节

无法回答
数据仓库技术
3.2 数据仓库的数据组织结构
J Jones 女
1945年7月20日 。。。。。
汽车保险
J Jones 去年有两张罚单 一次大事故 。。。。。
房产保险 健康保险
J Jones Main大街123号 已婚 。。。。。
J Jones 两个孩子 高血压 。。。。。
数据仓库
顾客
J Jones 女 1945年7月20日出生 去年两张罚单 一次大事故 已婚 两个孩子 高血压 。。。。。。
o 数据仓库(Building the Data Warehouse) W.H.Inmon 机械工业出版社
o 数据仓库技术及联机分析处理 王珊等编著 科学出版社
数据仓库技术
Q&A
谢谢!
数据仓库技术
决策支持系统对数据库系统的要求: o 详细数据与总结数据(summary data) o 当前数据与历史数据 o 数据源的异构性和分布性 o 即时更新与按需更新 o 联机事务处理OLTP与联机分析处理OLAP
数据仓库技术
数据抽取、转换和装载(ETL)
o 数据仓库的数据来源于多个数据源,主要是企业 内部数据;存档的历史数据;企业的外部数据。这 些数据源可能是在不同的硬件平台上,使用不同的 操作系统。源数据是以不同的格式存放在不同的数 据库中。
o 数据仓库需要将这些源数据经过抽取、转换和装 载的过程,存储到数据仓库的数据模型中。可以说, 数据仓库的数据获取需要经过抽取 (Extraction)、转换(Transform)、装载 (Load)三个过程即ETL过程。
操作性环境
汽车
主题是数据归类的标准
数据仓库
顾客

人寿



健康
保险单 保险费
意外伤亡
索赔
数据仓库技术
2.2 集成
数据进入数据仓库之前,必须经过加 工与集成
数据库
应用A m,f 应用B 1,0 应用C x,y 应用D 男,女
应用A 管道cm 应用B 管道inches 应用C 管道mcf 应用D 管道yds
数据仓库技术
2.数据转换类型
(1)格式修正 (2)字段的解码 (3)计算值和导出值 (4)单个字段的分离 (5)信息的合并 (6)特征集合转化 (7)度量单位的转化 (8)关键字重新构造 (9)汇总 (10)日期/时间转化
数据仓库技术
3.数据整合和合并
数据整合和合并是将相关的源数据组合 成一致的数据结构,装入数据仓库。
4.1 数据集市的概念
o 数据集市(Data Mart)——具有特定应用 的数据仓库,主要针对某个具有战略意义 的应用或者具体部门级的应用,支持用户 利用已有的数据获得重要的竞争优势或者 找到进入新市场的具体解决方案。
人力资源数据集市 财务数据集市 销售数据集市 市场数据集市等
数据仓库技术
4.2 数据集市的种类
数据仓库技术
3.5.1 数据抽取
1. 确认数据源 2. 数据抽取技术
数据仓库技术
1.确认数据源
o 列出对事实表的每一个数据项和事实 o 列出每一个维度属性 o 对于每个目标数据项,找出源数据项 o 一个数据元素有多个来源,选择最好的来源 o 确认一个目标字段的多个源字段,建立合并规则 o 确认一个目标字段的多个源字段,建立分离规则 o 确定默认值 o 检查缺失值的源数据
(1)数据装载方式 (2)数据装载类型
数据仓库技术
1.数据装载方式
o 基本装载
o 按照装载的目标表,将转换过的数据输入到目标表中去。
o 追加
o 如果目标表中已经存在数据,追加过程在保存已有数据的基础上增 加输入数据。
o 破坏性合并
o 用新输入数据更新目标记录数据。
o 建设性合并
o 保留已有的记录,增加输入的记录,并标记为旧记录的替代。
平面数据的坐标轴转换。
数据仓库技术
5.3 OLTP与OLAP
o OLTP系统——联机事务处理 On-Line Transaction Processing 事件驱动,面向应用。 如:银行的储蓄系统
o OLAP系统——联机分析处理 On-Line Analytical Processing 跨部门,面向主题。
数据仓库技术
操作型数据与分析型数据
操作型数据 细节的
在存取的瞬间是准确的 可更新
操作需求预先知道 事务驱动
面向日常业务应用
一次操作数据量少 对响应时间的要求高
分析型数据 综合的 代表过去的数据 不更新 操作需求预先不知道 分析驱动 面向分析决策 一次操作数据量多 对响应时间的要求低
数据仓库技术
2.1 面向主题
数据仓库技术
2020/11/21
数据仓库技术
提纲
o 数据仓库技术的产生 o 数据仓库的定义和特征 o 数据仓库中的数据组织
n 数据的粒度 n 数据仓库的数据组织结构 n 数据的分割 n 数据仓库的数据组织模式 n ETL o 数据集市 o OLAP n 定义和实例 n OLAP的多维数据分析 n OLTP与OLAP o 数据仓库系统(DWS)
相关文档
最新文档