第1章数据仓库的基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数
星型模式支持多维数据建模,支持使用人员
据 仓
从不同的维度对数据进行分析。
库 的
星型模式能较好地为数据仓库提供查询支持。
基 本
星型模式可以提高查询速度。
概
念
第1章数据仓库的基本概念
主码、外码和代理码:
•
第 一
主码(Primary Key):主码是表中的一个属性
章
或属性的组合,它能唯一地标识表中的每条记录。
章
数据行。
数
据
维表中有一个主码,其余非主码的列为属
仓 库
性,维表中的属性数据通常是字符型数据。
的
基
维表具有层次性,维表的层次性可用来分
本 概
割其他的明细维表,维表层次的级别数量取决于查
念
询的粒度。
第1章数据仓库的基本概念
1-4-3 数据仓库的总线型结构
•
第
著名的数据仓库专家Ralph Kinball认为,
数 据
而成的。
仓 库
• 一般在某个业务部门建立数据集市,或称为
的 基
部门级数据仓库。
本 概
• 建立数据集市与数据仓库,一般是采用“自
念
顶向下”和“自下而上”相结合的设计思想。
第1章数据仓库的基本概念
讨论题:
•
第
一
1、结合陕西科技大学大学学生学籍管理系
章
统进行数据仓库的主题划分,列举有哪些主题。
数
本 概
数据的一致性与完整性、数据的安全保密性等方面
念
提供了有效的手段。
第1章数据仓库的基本概念
与分析型应用结合时存在的问题:
❖ 决策支持系统为掌握充分的信息,需要访问大
•
第
量的企业内部数据和外部数据。
一
章
❖ 传统数据库中的大量数据是事务型数据,即该
数
数据是对每一项工作、管理对象的具体的、细
据 仓
节性的描述。
基
本
time-variant,and nonvolatile collection of data in support of
概
management’s decision making process.
念
第1章数据仓库的基本概念
数据仓库的四大特征:
•
第
数据是面向主题的
一
数据是集成的
章
数
数据是具有时间特征的
数 据
析型用户的访问。
仓 库
主题数据的存储称为实视图,它与数据库的
的 基
视图概念不同之处在于:它不是虚拟的,而是已经
本
过计算,含有大量数据,并存储在数据仓库中的实
概
念
实在在的表。
库 的
组成。
基
本
事实表的主码是组合码,维表的主码是简单
概 念
码,每一张维表中的简单码与事实表组合码中的一
个组成部分相对应。
第1章数据仓库的基本概念
企业销售数据的多维数据模式图
•
第
一
章
•时间维表
数
•时间码
据
仓
•日期
库
•月份
的
•季度
基
•年度
本
概
念
•事 实 表
•时间码 •产品码 •地区码
•销 售 量 •销 售 额 •销售成本
库
的
作,原因在于多维数据模型的各个维是逻辑等价的。
基
本
多维数据模型对决策分析有好的扩展性。
概
念
汇总数据的巨大价值。
第1章数据仓库的基本概念
1-4-2 星型模式
星型模式是事实表与维表通过星型方式连接
•
而成,如下图:
第
一
•产品维表
•时间维表
章
•产品码(PK)
•时间码(PK)
数
据
•产品大类
•事 实 表
概 念
实体关系模型不适用于以查询为主的分析型
应用,具体表现在:使用者、界面、检索手段。
第1章数据仓库的基本概念
多维数据模型以直观的方式组织数据,每一
•
第
个多维数据模型由多个多维数据模式
一 章
(Dimensional Data Schema)表示。
数
每一个多维数据模式都是由一个事实表
据
仓
(Fact Table)和一组维表(Dimension Table)
统一的维:
•
第 一
统一的维是指:一个维,无论其维表与哪一
章
个事实表相连接,维的含义是完全相同的。
数
据
建立、公布、维护和完善统一的维是全局数
仓 库
据仓库项目小组一项非常重要的工作。
的 基
公布了统一维之后,各数据集市必须严格执
本 概
行。
念
第1章数据仓库的基本概念
统一的事实:
•
第 一
统一的事实的定义工作与统一的维的定义工
仓
库
的
基
本
概
念
第1章数据仓库的基本概念
1-5 数据仓库的体系结构
•
第
1-5-1 体系结构的内容
一
章
总体框架
数 据
Zachman框架:
仓 库
回答问题
的 基
数据体系结构------数据仓库的内容是什么?
本 概
系统体系结构------存放在什么平台上?
念
技术体系结构------如何实现?
第1章数据仓库的基本概念
章
级别。
数 据
数据越详细,粒度越小,级别越低,回答查
仓
询的种类就越多。(数据堆积,回答综合问题效
库 的
率低)
基
数据越综合,粒度越大,级别越高,回答查
本
概
询的种类就越少。
念
第1章数据仓库的基本概念
维度:(Dimension)
维度是指人们观察事物的角度。
•
第
例如:当人们关注产品销售情况时,有如下维度:
面向分析决策型应用而组织和存储数据
本 概
的数据仓库技术应运而生。
念
第1章数据仓库的基本概念
时间:20世纪80年代初
•
第
人物:W.H.Inmon
一
章
定义: 数据仓库是面向主题的、集成的、
数
具有时间特征的、稳定的数据集合,用以支持经
据
仓
营管理中的决策制定过程。
库
的
A data warehouse is a subject-oriented,integrated,
据
仓
库
的
基
本
概
念
第1章数据仓库的基本概念
1-4 多维数据模型
•
第
多维数据模型是进行决策支持数据建模的最
一
好方式,数据仓库采用多维数据模型不仅能使其使
章
数
用方便,而且能提高系统的性能。
据 仓
1-4-1 实体关系模型与多维模型
库
的
实体关系模型应用于操作型数据库系统,多
基 本
维模型应用于分析型数据仓库系统。
•分析结果2:
概
•
前景不好
念
第1章数据仓库的基本概念
第一章:数据仓库的基本概念
•
第 一
1-1 数据仓库的产生与发展
章 传统的数据库技术作为数据管理手段,主要用
数
据
于联机事务处理(OLTP,On-Line Transaction Process),
仓
库
数据库中保存的是大量的日常业务数据。
的
基
在数据共享、数据与应用程序的独立性、维护
第1章数据仓库的基本概 念
2020/11/25
第1章数据仓库的基本概念
•案例讨论:下图展示了某电信公司的市场部和计划
部对业务A是否具有市场前景的分析过程和结果。
•
第 一
•试讨论为什么两部门分析结果不同。
章
数
据 仓
•市场部
•分析程序1
•分析结果1:
•
前景很好
库
的
•企业级数据库
基
本
•计划部
•分析程序2
数
据
外码(Foreign Key):外码是出现在一个表中,
仓 库
同时在另一个表中被定义成主码的属性。
的 基
代理码(Surrogate Key):所有的主码和外
本
码一般都是采用没有具体含义的代理码,例如,从1开始的自
概
念
然数编码。
第1章数据仓库的基本概念
事实表:
•
第
一
事实表是星型模式的核心,它是按维进行分
技术体系结构图如下:
•抽取、转
•
第 一 章
换、装载
•数 据 预 •处理工具
•总 线 •OLAP
•数据挖掘
•其他工具 •报表生成器
数
•数据集市
•前端工具
据 仓 库
•数 •据 •源
•预
•处
•理
•数据集市
•数
的
•据
•查询 •服务 •数据
•可视化 •分 析 •结 果
基
本
•数据集市
概
念
•后台
•前台
•元数据
据
数据是相对稳定的
仓
库 的
数据仓库的其它特点:
基 本
数据量非常大(10GB---1000GB)
概
是数据库技术的一种新的应用
念
使用人员较少
第1章数据仓库的基本概念
1-2 数据仓库与数据库
•
第
操作型数据库
分析型数据仓库
一
章
系统目的 支持日常操作
支持管理需求,获取信息
数
使用人员 办事员、DBA、数据库专家 经理、管理人员、分析专家
库 的
❖ 事务处理型应用与分析决策型应用对数据库系
基
统的性能要求不同。
本 概
❖ 传统数据库中保存和管理的一般是当前数据,
念
而决策支持系统不仅需要当前的数据,而且还
要求有大量的历史数据。
第1章数据仓库的基本概念
结论:
•
第 一
在事务处理型应用环境中直接构建分析
章
决策型应用是不可行的。
数
据
仓
于是:
库
的 基
一
章
数据仓库的建设应该是一步步完成的,以部门级数
数
据集市的建设为出发点,但必须统观全局,使数据
据
ຫໍສະໝຸດ Baidu
仓
集市成为完整的企业级数据仓库的一个逻辑子集。
库
的
这种建设思想的实现是以一种特定的结构为
基
本
指导的,称为数据仓库的总线型结构(Data
概 念
Warehouse Bus Architecture)。
第1章数据仓库的基本概念
据
仓
数据内容 当前数据
历史数据、派生数据
库 的
数据特点 细节的
综合的或提炼的
基 本
数据组织 面向应用
面向主题
概
存取类型 添加、修改、查询、删除 查询、聚集
念
数据稳定性 动态的
相对稳定
第1章数据仓库的基本概念
续上表:
•
第
操作型数据库 分析型数据仓库
一
章
需求特点
需求事先可知道
需求事先不知道
数 据
操作特点
数 据
每一个主题基本对应一个宏观的分析领域。
仓
例:面向主题:产品订货分析,货物发运分析, 新产品
库
的
开发分析;
基 本
面向应用:财务,销售,供应,人力资源,生产调
概
度…….
念
主题域的特征:独立性,完备性
第1章数据仓库的基本概念
粒度:(Granularity)
•
第 一
粒度是指数据仓库中数据单元的详细程度和
一个时刻操作一单元 一个时刻操作一集合
仓
数据库设计
基于E-R图
库
基于星型模式、雪花模式
的
一次操作数据量 一次操作数据量小 一次操作数据量大
基
本
存取频率
较高
较低
概 念
响应时间
小于3秒
几秒—几十分钟
第1章数据仓库的基本概念
1-3 数据仓库技术的术语
•
第
主题: (Subject)
一
章
主题是一个在较高层次上将数据归类的标准,
• 数据立方体:
•
第
一
• 数据立方体是指由两个或更多个属性即两
章
数
个或更多个维来描述或者分类的数据。
据 仓
• 在三维的情况下可以用图形来表示,一般称
库
为数据立方体。
的
基 本
• 实际的数据仓库的应用中,数据是多维的。
概
念
第1章数据仓库的基本概念
• 联机分析处理: (OLAP)
•
第 一
• 联机分析处理是快速、灵活的多维数据分析
•产品维表
•产品码 •产品大类 •产品细类 •产品名称
•地区维表
•地区码 •国 家 •地 区 •城 市
第1章数据仓库的基本概念
多维数据模型的优势:
•
第
多维数据模型是已知标准化的结构,即包含
一
章
多个多维数据模式,每一个多维数据模式都对应一
数
张事实表和多张维表。
据
仓
这种多维结构能支持最终用户不可预知的操
章
作同时进行,由数据仓库项目:小组负责,工作量
数 据
相对较少,但要注意以下几点;
仓
库
❖ 统一的计算口径
的 基
❖ 统一的计量单位
本
❖ 统一的含义
概
念
❖ 事实表中要包含最详细的事实数据,即粒度最小
的数据
第1章数据仓库的基本概念
•
讨论题:
第
一
章
1、根据学籍管理系统数据仓库的建设,确
数 据
定事实表与维表,列举各个维,并划分维层次。
•日期
仓
•产品细类
•时间码(FK)
•月份
库
•产品名称
•产品码(FK)(PK)
•季度
的
•地区码(FK)
基
•地区维表
本 概
•地区码(PK)
念
•国 家
•销 售 量 •销 售 额 •销售成本
•年度
•地 区 •城 市
第1章数据仓库的基本概念
•
星型模式的优点:
第
一 章
星型模式结构简单,表的数目少,建模方便。
章
数
析形查询的对象,其中存储的是业务事实,例如:
据
销售量、销售额、销售成本等。
仓
库 的
事实表中的数据一般是数值型,具有可加性。
基 本
事实表的主码为外码的组合,唯一的标识各
概 念
条事实记录,事实表的外码对应各维表的主码。
第1章数据仓库的基本概念
维表:
•
第 一
维表用于指导从不同的角度在事实表中选择
第1章数据仓库的基本概念
1-5-2 相关的数据存储
•
第 一
数据源:
章
数
数据源是数据仓库的原始来源,是数据仓库
据
系统开发与应用的数据基础,分为两部分;
仓
库
❖ 企业内部数据源
的
基
❖ 企业外部数据源
本
概
念
第1章数据仓库的基本概念
主题数据:
•
第 一
主题数据是数据仓库的核心数据,一般以多
章
维数据模型的形式存储在数据仓库中,直接面向分
一 章
时间维:随时间变化的销售数据;
地区维:不同地区的销售数据;
数
客户维:不同客户的销售;
据 仓
……
库
根据观察事物角度的细节程度不同,维又具有
的 基
维层次。数据;
本
渠道维:不同销售渠道的销售数据;
概
产品维:不同产品的销售数据
念
例:时间维:日期、周、月份、季度、年等;
地区维:城市、地区、国家等。
第1章数据仓库的基本概念
章
工具。
数
据
• OLAP的目的是支持分析决策,满足多维环境
仓
库
的查询和报表需求。
的
基
• 数据仓库的多维数据存储结构为OLAP的实施
本
概
提供了理想的多维数据环境。
念
第1章数据仓库的基本概念
• 数据集市: (Data Mart)
•
第 一
• 数据集市是完整的数据仓库的一个逻辑子集
章
,而数据仓库正是由其所有的数据集市有机组合