XXXX-第2次课-新一代数据库系统--数据仓库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Sdlc :Software Development Life Cycle 7
第2章 数据仓库
数据仓库基本概念
数据仓库与决策支持系统
用户在进行决策制定时需要得到企业各方面的信息,因此用 户一般首先根据各个业务部门数据库中的数据,创建数据仓库, 存储各种历史信息和汇总信息。
对数据仓库的进一步应用由功能强大的分析工具来实现。现 在主要有三类分析工具可用于决策支持。
16 2/3 % 16 2/3 % 16 2/3 % 16 2/3 % 16 2/3 %
16 2/3 %
20
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构的争论
Inmon的企业信息化工厂
Kimball的维度数据仓库
独立型数据集市
21
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构的争论
Inmon的企业信息化工厂
22
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构的争论
Kimball的维度数据仓库
相比之下,独立型数据集市在关注企业级应用方面显示出了不足。其开发只考虑了 来自一个小组或部门的需求。由于这种关注的片面性,其开发不会受制于对跨企业公共 数据元素的探讨;而仅仅关注特定主题区域的特定系统。
由于这两种企业体系结构有相同的范围,因此产生了一个相同的体系结构特点: 它们都有一个独立的原子数据的集成仓库。在企业信息化工厂中,这一仓库被称为企 业数据仓库。在维度数据仓库中,该仓库被称为维度数据仓库。这种集中存储的集成 特性与关注企业级应用是一致的。它汇集了公共实体的多种优势,比如顾客或产品。 同样,关注原子化也满足了企业目标。无须按照特定分组或主题区域的需求来收集细 节数据。取而代之的是,尽可能有效地收集细节数据以满足所有的分析型需求。
资源。
人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。
要提高分析和决策的有效性,分析型处理及其数据必须与操作型
处理及其数据分离。必须把分析型数据从事务处理环境中提取出
来,按照DSS处理的需要进行重新组织,建立单独的分析处理环
境。
数据仓库技术正是为了构建这种新的分析处理环境而出现的
一种数据存储和组织技术。
10
第2章 数据仓库
数据仓库基本概念
数据仓库定义及特征
数据仓库理论的创始人W.H.Inmon在其 《Building the Data Warehouse》一书中,给出了数据仓库的四个 基本特征:
面向主题, 数据是集成的, 数据是不可更新的, 数据是随时间不断变化。
11
第2章 数据仓库
数据仓库基本概念
数据仓库层次结构
用户
可视化工具集
多维分析工具
数据挖掘工具
数据仓库 工具层
多维数据
数据仓库
数据仓库层
数据来源
源数据 源数据 源数据 源数据 源数据
29
第2章 数据仓库
数据仓库体系结构
数据源
数据仓库
RDBMS 数据文件
其他
综合数据 当前数据 历史数据 元数据
分析工具 查询工具 OLAP工具 DM工具
抽取、转换、装载 30
18
第2章 数据仓库
数据仓库基本概念
数据仓库定义及特征 随时间变化的
数据库环境
数据仓库环境
时间期限:当前到30-60天 记录更新 包含或者不包含时间概念
时间期限:年 数据的复杂快照 包含时间概念
19
第2章 数据仓库
主要内容
数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计
独立型数据集 市
无倡导者 但很常见
数据集市 竖井式 烟筒型 孤岛型
主题区域的实现 可以使用维度设 不需要企业环境 计
26
第2章 数据仓库
数据仓库体系结构的争论
数据仓库体系结构
三种体系结构比较
Inmon的企业信息化工厂和Kimball的维度数据仓库都关注企业级应用。他们的目 的是支持跨企业或组织机构的分析型需求。这种方法允许在一个主题区域内处理需求, 就像跨主题区域处理问题一样。
数据仓库基本概念
应用背景及需求 随着数据库技术的应用普及和发展,人们不再仅仅满足于
一般的业务处理,而对系统提出了更高的要求:提供决策支持 (DSS、OLAP).
需求 一种面向分析的环境; 一种把相关的各种数据转换成有商业价值的信息的技术。
4
第2章 数据仓库 数据仓库基本概念
从数据库到数据仓库 数据库系统能够很好的用于事务处理,但它对分析处理的支
对于Kimball体系结构来说,不要求数据集市与物理数据分开存储。相 反,它可以是一种逻辑构件——数据仓库表的子集。单独的数据集市报表 可以随时构建。构建完毕后即可从集成仓库中得到报表。数据集市与企业 信息视图保持一致,要么是由于它们将这种视图具体化,要么是由于它们 从数据集市中获取数据。
28
第2章 数据仓库 数据仓库体系结构
9
第2章 数据仓库
数据仓库基本概念
数据仓库与决策支持系统
第三类的分析工具可用于在大量的数据集合中,找到有意义 的数据趋势或者模式,而不是上面提到的复杂数据查询。在数据 分析过程中,尽管分析者能够判定得到的数据模式是否有意义, 但是生成查询来得到有意义的模式还是很困难的。例如,分析者 查看信用卡使用记录,希望从中找出不正常的信用卡使用行为, 以表明是被滥用的丢失的信用卡;商人希望通过查看客户记录找 出潜在的客户来提高收益。许多应用涉及的数据量很大,很难用 人工分析或者传统的统计分析方法进行分析,数据挖掘的目的就 是对这种大量数据的分析提供支持。
参考 Star Schema 完全参考手册—数据仓库维度设计权威指南 清华大学2出7 版社
第2章 数据仓库
数据仓库体系结构的争论
数据仓库体系结构
三种体系结构比较
对于Inmon体系结构来说,数据集市是为部门使用而建立的一组表格, 并且是物理分离的。可以聚集细节数据以适应部门或小组的特殊需要。在 这方面,它与独立型数据集市有一些相似之处;然而,企业信息化工厂中 的数据集市在企业仓库中获取数据,因此内容与企业信息视图保持一致。 而这是独立型数据集市无法保证的。
第 2 章 数据仓库
1
第2章 数据仓库
主要内容
数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计
2
第2章 数据仓库
主要内容
数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计
3
第2章 数据仓库
关注企业级应用需要采用一种工程化的方法来处理来自不同组织的数据需求。数 据仓库不能仅凭倾听几次需求就能设计出来。设计团队必须研究、分析公共数据元素 的不同特征,这些特征由于用户不同而有所差别。比如,用户或产品可能在制造、销 售或审计中彼此关联。对于相同的数据元素,在不同的系统中会采用不同的处理方法, 数据仓库设计必须以一种统一的视图来适应所有不同的观点。
主题-顾客 主题-保单 主题-索赔 主题-保费
13
第2章 数据仓库
数据仓库基本概念
数据仓库定义及特征 集成的
数据仓库的数据是从原有的分散数据库数据中抽取来的 需要消除数据表述的不一致性(数据的清洗) 数据的综合
14
第2章 数据仓库
数据仓库基本概念
数据仓库定义及特征 集成的
数据库环境
集成
数据仓库环境
23
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构的争论
独立型数据集市
24
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构的争论
三种体系结构的特征比较
原子数据 集成仓库
企业级 格式
主题区域级
直接访问 数据集市 格式
直接访问
企业信息化 √ 工厂
维度数据仓 √ 库
独立型数据 × 集市
第3范式 否
维度
持一直不能令人满意。特别是当以业务处理为主的联机事务处理
(OLTP) 应用和以分析处理为主的DSS应用共存于一个数据库系
统时,就会产生许多问题。
例如,事务处理应用一般需要的是当前数据,主要考虑较短
的响应时间;而分析处理应用需要是历史的、综合的、集成的数
据,它的分析处理过程可能持续几个小时,从而消耗大量的系统
第一类能够支持涉及分组和聚集查询,并能够对各种复杂的 布尔条件、统计函数和时间序列分析提供支持的系统。主要由上 述查询组成的应用称为联机分析处理,即OLAP。在支持OLAP查 询的系统中,数据最好看成是一个多维数组
8
第2章 数据仓库
数据仓库基本概念
数据仓库与决策支持系统
第二类系统仍为支持传统SQL查询的DBMS,但为了有效地 执行OLAP查询而进行了特殊的设计。这些系统可以看作是为决 策支持应用进行了优化的关系数据库系统。许多关系数据库厂商 对他们的产品进行了扩展,并且随着时间的推移,专门的OLAP 系统和支持决策支持的关系数据库系统之间的差别将逐渐取消
描述
维度设计的角色
企业数据仓库是 维度设计只应用 原子数据的一种 于数据集市 集成仓库
不能被直接访问 数据集市为部门
使 用 /分析而重 新组织数据
维度数据仓库是 所有数据按维度 原子数据的一种 组织 集成仓库
可以被访问 包含在维度数据
仓库的主题区域,
有时称为数据集 市
数据集市不要求 是独立的数据库
应用A 1, 0 应用B 男,女 应用C Y,N
映射 编码
多维数据库 男,女
应用A CM 应用B Inches 应用C CM
映射 转换
多维数据库 CM
15
第2章 数据仓库
数据仓库基本概念
数据仓库定义及特征 不可更新的
数据仓库的主要数据操作是查询、分析; 不进行一般意义上的数据更新(过期数据可能被删除) 数据仓库强化查询、淡化并发控制和完整性保护等技 术.
数据仓库定义及特征 面向主题
主题是在较高层次上对数据抽象; 面向主题的数据组织分为两步骤:
--抽取主题;--确定每个主题所包含的数据内容 每个主题在数据仓库中都是由一组关系表实现的
12
第2章 数据仓库
数据仓库基本概念
数据仓库定义及特征 面向主题
数据库 面向应用
数据库 面向主题
意外伤害 汽车
健康
人寿
16
第2章 数据仓库
数据仓库基本概念
数据仓库定义及特征
不可更新的
数据库环境
数据的逐个记录方式处理
Insert、Update、Delete Select
数据仓库环境
数据的批量载加载,存取
访问Select
ETL
17
第2章 数据仓库
数据仓库基本概念
数据仓库定义及特征 随时间变化的
不断增加新的数据内容; 不断删除旧的数据内容; 定时综合; 数据仓库中数据表的键码都包含时间项,以标 明数据的历史时期
6
第2章 数据仓库
操作型数据 细节的 在存取瞬间是准确的 可更新 操作需求事先可知道 生命周期符合SDLC 对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小 支持日常操作
分析型数据 综合的,或提炼的 代表过去的数据 不更新 操作需求事先不知道 完全不同的生命周期 对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大 支持管理需求
5
第2章 数据仓库
数据仓库基本概念
OLTP(on-line transaction processing)与OLAP(On-Line Analytical Processing)区别
主要通过以下五点区分开来。 用户和系统的面向性 OLTP是面向顾客的,用于事务和查询处理; OLAP是面向市场的,用于数据分析 数据内容 OLTP系统管理当前数据; OLAP系统管理大量历史数据,提供汇总和聚集机制. 数据库设计 OLTP采用实体-联系ER模型和面向应用的数据库设计; OLAP采用星型或雪花模型和面向主题的数据库设计. 视图 OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的 数据; OLAP则相反. 访问模式 OLTP系统的访问主要由短的原子事务组成.这种系统需要并行和恢复机制; OLAP系统的访问大部分是只读操作
是*
N/A
N/A
物理
维度*

逻辑*
维度

物理
维度*

25
第2章 数据仓库
数据仓库体系结构的争论
数据仓库体系结构
三种体系结构比较
体系结构
提倡者
其他称谓
企业信息化工 Bill Inmon 原子数据仓库

企业数据仓库
维度数据仓库 Ralph Kimball
企业数据仓库 总线体系结构 结构化数据集市 虚拟数据集市
第2章 数据仓库
数据仓库体系结构
数据仓库体系结构实例-税务数据仓库
数据源
ETL
数据存储
数据访问 数据展示
生产 数据库
多渠道
社保库
遗留系统 数据库
E
外部 数据源
数据复制 平台
转换 T 中转区
L 加载 中转区
文档 数据
地市库
个税库
数Байду номын сангаас 集市
“一局式”分析
数据仓库
数据 集市
ETL
数据 集市
数据 集市
“一户式”分析
相关文档
最新文档