第1章数据仓库的基本概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


星型模式支持多维数据建模,支持使用人员
据 仓
从不同的维度对数据进行分析。
库 的
星型模式能较好地为数据仓库提供查询支持。
基 本
星型模式可以提高查询速度。


第1章数据仓库的基本概念
主码、外码和代理码:

第 一
主码(Primary Key):主码是表中的一个属性

或属性的组合,它能唯一地标识表中的每条记录。

数据行。


维表中有一个主码,其余非主码的列为属
仓 库
性,维表中的属性数据通常是字符型数据。


维表具有层次性,维表的层次性可用来分
本 概
割其他的明细维表,维表层次的级别数量取决于查

询的粒度。
第1章数据仓库的基本概念
1-4-3 数据仓库的总线型结构


著名的数据仓库专家Ralph Kinball认为,
数 据
而成的。
仓 库
• 一般在某个业务部门建立数据集市,或称为
的 基
部门级数据仓库。
本 概
• 建立数据集市与数据仓库,一般是采用“自

顶向下”和“自下而上”相结合的设计思想。
第1章数据仓库的基本概念
讨论题:



1、结合陕西科技大学大学学生学籍管理系

统进行数据仓库的主题划分,列举有哪些主题。

本 概
数据的一致性与完整性、数据的安全保密性等方面

提供了有效的手段。
第1章数据仓库的基本概念
与分析型应用结合时存在的问题:
❖ 决策支持系统为掌握充分的信息,需要访问大


量的企业内部数据和外部数据。


❖ 传统数据库中的大量数据是事务型数据,即该

数据是对每一项工作、管理对象的具体的、细
据 仓
节性的描述。


time-variant,and nonvolatile collection of data in support of

management’s decision making process.

第1章数据仓库的基本概念
数据仓库的四大特征:


数据是面向主题的

数据是集成的


数据是具有时间特征的
数 据
析型用户的访问。
仓 库
主题数据的存储称为实视图,它与数据库的
的 基
视图概念不同之处在于:它不是虚拟的,而是已经

过计算,含有大量数据,并存储在数据仓库中的实


实在在的表。
库 的
组成。


事实表的主码是组合码,维表的主码是简单
概 念
码,每一张维表中的简单码与事实表组合码中的一
个组成部分相对应。
第1章数据仓库的基本概念
企业销售数据的多维数据模式图




•时间维表

•时间码


•日期

•月份

•季度

•年度



•事 实 表
•时间码 •产品码 •地区码
•销 售 量 •销 售 额 •销售成本


作,原因在于多维数据模型的各个维是逻辑等价的。


多维数据模型对决策分析有好的扩展性。


汇总数据的巨大价值。
第1章数据仓库的基本概念
1-4-2 星型模式
星型模式是事实表与维表通过星型方式连接

而成,如下图:


•产品维表
•时间维表

•产品码(PK)
•时间码(PK)


•产品大类
•事 实 表
概 念
实体关系模型不适用于以查询为主的分析型
应用,具体表现在:使用者、界面、检索手段。
第1章数据仓库的基本概念
多维数据模型以直观的方式组织数据,每一


个多维数据模型由多个多维数据模式
一 章
(Dimensional Data Schema)表示。

每一个多维数据模式都是由一个事实表


(Fact Table)和一组维表(Dimension Table)
统一的维:

第 一
统一的维是指:一个维,无论其维表与哪一

个事实表相连接,维的含义是完全相同的。


建立、公布、维护和完善统一的维是全局数
仓 库
据仓库项目小组一项非常重要的工作。
的 基
公布了统一维之后,各数据集市必须严格执
本 概
行。

第1章数据仓库的基本概念
统一的事实:

第 一
统一的事实的定义工作与统一的维的定义工







第1章数据仓库的基本概念
1-5 数据仓库的体系结构


1-5-1 体系结构的内容


总体框架
数 据
Zachman框架:
仓 库
回答问题
的 基
数据体系结构------数据仓库的内容是什么?
本 概
系统体系结构------存放在什么平台上?

技术体系结构------如何实现?
第1章数据仓库的基本概念

级别。
数 据
数据越详细,粒度越小,级别越低,回答查

询的种类就越多。(数据堆积,回答综合问题效
库 的
率低)

数据越综合,粒度越大,级别越高,回答查


询的种类就越少。

第1章数据仓库的基本概念
维度:(Dimension)
维度是指人们观察事物的角度。


例如:当人们关注产品销售情况时,有如下维度:
面向分析决策型应用而组织和存储数据
本 概
的数据仓库技术应运而生。

第1章数据仓库的基本概念
时间:20世纪80年代初


人物:W.H.Inmon


定义: 数据仓库是面向主题的、集成的、

具有时间特征的、稳定的数据集合,用以支持经


营管理中的决策制定过程。


A data warehouse is a subject-oriented,integrated,








第1章数据仓库的基本概念
1-4 多维数据模型


多维数据模型是进行决策支持数据建模的最

好方式,数据仓库采用多维数据模型不仅能使其使


用方便,而且能提高系统的性能。
据 仓
1-4-1 实体关系模型与多维模型


实体关系模型应用于操作型数据库系统,多
基 本
维模型应用于分析型数据仓库系统。
•分析结果2:


前景不好

第1章数据仓库的基本概念
第一章:数据仓库的基本概念

第 一
1-1 数据仓库的产生与发展
章 传统的数据库技术作为数据管理手段,主要用


于联机事务处理(OLTP,On-Line Transaction Process),


数据库中保存的是大量的日常业务数据。


在数据共享、数据与应用程序的独立性、维护
第1章数据仓库的基本概 念
2020/11/25
第1章数据仓库的基本概念
•案例讨论:下图展示了某电信公司的市场部和计划
部对业务A是否具有市场前景的分析过程和结果。

第 一
•试讨论为什么两部门分析结果不同。


据 仓
•市场部
•分析程序1
•分析结果1:

前景很好


•企业级数据库


•计划部
•分析程序2


外码(Foreign Key):外码是出现在一个表中,
仓 库
同时在另一个表中被定义成主码的属性。
的 基
代理码(Surrogate Key):所有的主码和外

码一般都是采用没有具体含义的代理码,例如,从1开始的自


然数编码。
第1章数据仓库的基本概念
事实表:



事实表是星型模式的核心,它是按维进行分
技术体系结构图如下:
•抽取、转

第 一 章
换、装载
•数 据 预 •处理工具
•总 线 •OLAP
•数据挖掘
•其他工具 •报表生成器

•数据集市
•前端工具
据 仓 库
•数 •据 •源
•预
•处
•理
•数据集市
•数

•据
•查询 •服务 •数据
•可视化 •分 析 •结 果


•数据集市


•后台
•前台
•元数据

数据是相对稳定的

库 的
数据仓库的其它特点:
基 本
数据量非常大(10GB---1000GB)

是数据库技术的一种新的应用

使用人员较少
第1章数据仓库的基本概念
1-2 数据仓库与数据库


操作型数据库
分析型数据仓库


系统目的 支持日常操作
支持管理需求,获取信息

使用人员 办事员、DBA、数据库专家 经理、管理人员、分析专家
库 的
❖ 事务处理型应用与分析决策型应用对数据库系

统的性能要求不同。
本 概
❖ 传统数据库中保存和管理的一般是当前数据,

而决策支持系统不仅需要当前的数据,而且还
要求有大量的历史数据。
第1章数据仓库的基本概念
结论:

第 一
在事务处理型应用环境中直接构建分析

决策型应用是不可行的。



于是:

的 基


数据仓库的建设应该是一步步完成的,以部门级数

据集市的建设为出发点,但必须统观全局,使数据

ຫໍສະໝຸດ Baidu

集市成为完整的企业级数据仓库的一个逻辑子集。


这种建设思想的实现是以一种特定的结构为


指导的,称为数据仓库的总线型结构(Data
概 念
Warehouse Bus Architecture)。
第1章数据仓库的基本概念


数据内容 当前数据
历史数据、派生数据
库 的
数据特点 细节的
综合的或提炼的
基 本
数据组织 面向应用
面向主题

存取类型 添加、修改、查询、删除 查询、聚集

数据稳定性 动态的
相对稳定
第1章数据仓库的基本概念
续上表:


操作型数据库 分析型数据仓库


需求特点
需求事先可知道
需求事先不知道
数 据
操作特点
数 据
每一个主题基本对应一个宏观的分析领域。

例:面向主题:产品订货分析,货物发运分析, 新产品


开发分析;
基 本
面向应用:财务,销售,供应,人力资源,生产调

度…….

主题域的特征:独立性,完备性
第1章数据仓库的基本概念
粒度:(Granularity)

第 一
粒度是指数据仓库中数据单元的详细程度和
一个时刻操作一单元 一个时刻操作一集合

数据库设计
基于E-R图

基于星型模式、雪花模式

一次操作数据量 一次操作数据量小 一次操作数据量大


存取频率
较高
较低
概 念
响应时间
小于3秒
几秒—几十分钟
第1章数据仓库的基本概念
1-3 数据仓库技术的术语


主题: (Subject)


主题是一个在较高层次上将数据归类的标准,
• 数据立方体:



• 数据立方体是指由两个或更多个属性即两


个或更多个维来描述或者分类的数据。
据 仓
• 在三维的情况下可以用图形来表示,一般称

为数据立方体。

基 本
• 实际的数据仓库的应用中,数据是多维的。


第1章数据仓库的基本概念
• 联机分析处理: (OLAP)

第 一
• 联机分析处理是快速、灵活的多维数据分析
•产品维表
•产品码 •产品大类 •产品细类 •产品名称
•地区维表
•地区码 •国 家 •地 区 •城 市
第1章数据仓库的基本概念
多维数据模型的优势:


多维数据模型是已知标准化的结构,即包含


多个多维数据模式,每一个多维数据模式都对应一

张事实表和多张维表。


这种多维结构能支持最终用户不可预知的操

作同时进行,由数据仓库项目:小组负责,工作量
数 据
相对较少,但要注意以下几点;


❖ 统一的计算口径
的 基
❖ 统一的计量单位

❖ 统一的含义


❖ 事实表中要包含最详细的事实数据,即粒度最小
的数据
第1章数据仓库的基本概念

讨论题:



1、根据学籍管理系统数据仓库的建设,确
数 据
定事实表与维表,列举各个维,并划分维层次。
•日期

•产品细类
•时间码(FK)
•月份

•产品名称
•产品码(FK)(PK)
•季度

•地区码(FK)

•地区维表
本 概
•地区码(PK)

•国 家
•销 售 量 •销 售 额 •销售成本
•年度
•地 区 •城 市
第1章数据仓库的基本概念

星型模式的优点:

一 章
星型模式结构简单,表的数目少,建模方便。


析形查询的对象,其中存储的是业务事实,例如:

销售量、销售额、销售成本等。

库 的
事实表中的数据一般是数值型,具有可加性。
基 本
事实表的主码为外码的组合,唯一的标识各
概 念
条事实记录,事实表的外码对应各维表的主码。
第1章数据仓库的基本概念
维表:

第 一
维表用于指导从不同的角度在事实表中选择
第1章数据仓库的基本概念
1-5-2 相关的数据存储

第 一
数据源:


数据源是数据仓库的原始来源,是数据仓库

系统开发与应用的数据基础,分为两部分;


❖ 企业内部数据源


❖ 企业外部数据源



第1章数据仓库的基本概念
主题数据:

第 一
主题数据是数据仓库的核心数据,一般以多

维数据模型的形式存储在数据仓库中,直接面向分
一 章
时间维:随时间变化的销售数据;
地区维:不同地区的销售数据;

客户维:不同客户的销售;
据 仓
……

根据观察事物角度的细节程度不同,维又具有
的 基
维层次。数据;

渠道维:不同销售渠道的销售数据;

产品维:不同产品的销售数据

例:时间维:日期、周、月份、季度、年等;
地区维:城市、地区、国家等。
第1章数据仓库的基本概念

工具。


• OLAP的目的是支持分析决策,满足多维环境


的查询和报表需求。


• 数据仓库的多维数据存储结构为OLAP的实施


提供了理想的多维数据环境。

第1章数据仓库的基本概念
• 数据集市: (Data Mart)

第 一
• 数据集市是完整的数据仓库的一个逻辑子集

,而数据仓库正是由其所有的数据集市有机组合
相关文档
最新文档