第3章数据仓库中的数据及组织精品PPT课件
合集下载
数据仓库3-数据仓库中的数据及组织讲述
![数据仓库3-数据仓库中的数据及组织讲述](https://img.taocdn.com/s3/m/dc0f09165a8102d276a22f8a.png)
数据仓库中存储两类数据: 业务数据和元数据
9
数据仓库的体系结构
10
3.1数据仓库中的数据组织
数据仓库中存储的数据
高度综合级
元 数 据
轻度综合级
当前细节级
后备数据
后备数据
后备数据
早期细节级
11
3.1数据仓库中的数据组织
数据组织的实例
高度综合级 2015每“月”电话呼 叫情况信息
轻度综合级
MySQL MySQL MySQL
MySQL
MySQL MySQL MySQL
MySQL MySQL MySQL
20
2)数据分割
数据分割的标准可以根据实际情况来确定,通常选 择:按日期、地域、业务领域等来进行。
21
2)数据分割
数据分割的方法 垂直分割:垂直分割就是把一个表垂直分成两部分。 水平分割:水平分割就是把表按行分成两部分。
轻度综合数据:记录每个顾客每次的购物金额,或
每种商品每一天的销售数据。 高度综合数据:记录每个顾客每月或每年的购物金 额,或每种商品每月或每年的销售数据。
16
1)数据粒度
数据粒度的确定是业务分析、硬件、软件的一个折中。 在数据仓库中多重粒度是必不可少的
17
1)数据粒度
数据粒度是数据仓库的重要概念。存在两种形式, 形式二: 样本数据库,其粒度是根据采样率的高低来划分的。
粒度越小,细节程度越高,综合程度越低。
14
1)数据粒度
不同的情况组织数据的粒度会不同。 如:
电信通话
细节数据:记录每一次通话情况。 轻度综合数据:记录顾客每天的通话情况。 高度综合数据:记录顾客每月的通话情况。
9
数据仓库的体系结构
10
3.1数据仓库中的数据组织
数据仓库中存储的数据
高度综合级
元 数 据
轻度综合级
当前细节级
后备数据
后备数据
后备数据
早期细节级
11
3.1数据仓库中的数据组织
数据组织的实例
高度综合级 2015每“月”电话呼 叫情况信息
轻度综合级
MySQL MySQL MySQL
MySQL
MySQL MySQL MySQL
MySQL MySQL MySQL
20
2)数据分割
数据分割的标准可以根据实际情况来确定,通常选 择:按日期、地域、业务领域等来进行。
21
2)数据分割
数据分割的方法 垂直分割:垂直分割就是把一个表垂直分成两部分。 水平分割:水平分割就是把表按行分成两部分。
轻度综合数据:记录每个顾客每次的购物金额,或
每种商品每一天的销售数据。 高度综合数据:记录每个顾客每月或每年的购物金 额,或每种商品每月或每年的销售数据。
16
1)数据粒度
数据粒度的确定是业务分析、硬件、软件的一个折中。 在数据仓库中多重粒度是必不可少的
17
1)数据粒度
数据粒度是数据仓库的重要概念。存在两种形式, 形式二: 样本数据库,其粒度是根据采样率的高低来划分的。
粒度越小,细节程度越高,综合程度越低。
14
1)数据粒度
不同的情况组织数据的粒度会不同。 如:
电信通话
细节数据:记录每一次通话情况。 轻度综合数据:记录顾客每天的通话情况。 高度综合数据:记录顾客每月的通话情况。
数据库和数据仓库管理教材(PPT 50页)
![数据库和数据仓库管理教材(PPT 50页)](https://img.taocdn.com/s3/m/7557d379763231126fdb110f.png)
数据库管理系统组成
数据字典(Data Dictionary)
自动生成或者手工生成的文件,用来存储数据元 素的定义和特性。
数据字典包含着数据库中所含信息(字段)的逻 辑结构,如名称、类型、格式、缺省值、有效范 围等。
演示 ACCESS。
数据库管理系统组成
数据操作语言(Data Manipulation Language, DML) 提供了一组从数据库中提取数据的命令。
实体、属性和关键字
属性(Attribute)
实体的某一方面的特征; 学生(学号、姓名、年龄、性别、专业、班级) 产品(产品编号、名称、供应商、类型、单位
数量、单价、库存量、订购量、再订购量)
实体、属性和关键字
关键字(Primary Key)
定义:用来识别记录的一个或一组字段,是 识别记录和在文件中查找记录的标志;
CREATE TABLE STUDENT ( STUDENT_NO INTEGER, NAME TEXT(8), SPECIALITY_NO TEXT(8))
CREATE TABLE STUDENT ( STUDENT_NO INTEGER, NAME TEXT(8), SPECIALITY_NO TEXT(8), BIRTHDAY DATE, PHOTO GENERAL)
SQL(Structured Query Language)是一种 DML。 格式:
SELECT 字段名1,字段名2,… FROM 表1,表2 WHERE 条件
SELECT [供应商ID], [供应商名称] FROM 供应商文件 WHERE [城市]=‘上海’
演示 ACCESS
数据库查询语言(DML)
数据仓库的概念与体系结构PPT课件
![数据仓库的概念与体系结构PPT课件](https://img.taocdn.com/s3/m/70103993e518964bce847cd5.png)
– 围绕一些主题,如顾客、供应商、产品等 – 关注决策者的数据建模与分析,而不是集中于
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
数据仓库专题讲义PPT公开课(43页)
![数据仓库专题讲义PPT公开课(43页)](https://img.taocdn.com/s3/m/9f6bfd17f705cc17542709a7.png)
OLAP的多维数据概念
数据单元。多维数据集的取值称为数据单元。 当在多维数据集的每个维都选中一个维成员以
后,这些维成员的组合就惟一确定了观察变量 的值。
OLAP多维数据分析
1.切片和切块(Slice and Dice)
在多维数据结构中,按二维进行切片,按三维进行切块,可 得到所需要的数据。如在“城市、产品、时间”三维立 方体中进行切块和切片,可得到各城市、各产品的销售情 况。
数据的存储与管理
数据的存储与管理是整个数据仓库系统的核心。 针对现有各业务系统的数据,进行抽取、清理, 并有效集成,按照主题进行组织。数据仓库按照 数据的覆盖范围可以分为企业级数据仓库和部门 级数据仓库(通常称为数据集市)。
OLAP服务器
OLAP服务器对分析需要的数据进行有效集成, 按多维模型予以组织,以便进行多角度、多层 次的分析,并发现趋势。
数据仓库四个特点-相对稳定
操作型数据库中的数据通常实时更新,数据 根据需要及时发生变化。数据仓库的数据主 要供企业决策分析之用,所涉及的数据操作 主要是数据查询,一旦某个数据进入数据仓 库以后,一般情况下将被长期保留,也就是 数据仓库中一般有大量的查询操作,但修改 和删除操作很少,通常只需要定期的加载、 刷新。
2.钻取(Drill)
钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/ 上卷(Roll-up)操作, 钻取的深度与维所划分的层次相 对应。
数据仓库四个特点-反映历史变化
数据仓库本质
如果说传统数据库系统的要求是快速、准确、安全、 可靠地将数据存进数据库中的话,那么数据仓库的 要求就是能够准确、安全、可靠地从数据库中取出 数据,经过加工转换成有规律信息之后,再供管理 人员进行分析使用。
数据库与数据仓库【PPT精选文档】
![数据库与数据仓库【PPT精选文档】](https://img.taocdn.com/s3/m/8e8a96f777eeaeaad1f34693daef5ef7ba0d12ca.png)
人员
数据库管理员(Data Base Administrator,DBA)、系统分析员和 数据库设计人员、应用程序员和最终用户。
本讲内容
6.1 信息系统的数据管理 6.2 文件环境下的数据组织 6.3 数据库环境下的数据组织 6.4数据模型 6.5关系模式规范化 6.6数据视图概念 6.7数据库设计 6.8面向对象及其他高级数据库系统 6.9数据仓库与数据挖掘
本讲内容
6.1 信息系统的数据管理 6.2 文件环境下的数据组织 6.3 数据库环境下的数据组织 6.4数据模型 6.5关系模式规范化 6.6数据视图概念 6.7数据库设计 6.8面向对象及其他高级数据库系统 6.9数据仓库与数据挖掘
6.1 信息系统的数据管理
▪ 学者詹姆斯•马丁提出数据环境的概念,认 为只要企业的性质和目标不变,尽管企业的 数据加工处理过程是多变,但数据是稳定的 ,企业任何业务活动都离不开对数据的存取 。
数据定义语言及其翻译程序;数据操纵(或查询)语 言及其编译(或解释)程序;数据库管理例行程序。ຫໍສະໝຸດ 6.3 数据库环境下的数据组织
硬件
CPU、内存、磁盘、磁带以及其它外部设备。
软件
操作系统(OS)、数据库管理系统(DBMS)、应用于开发应用 程序的具有数据库接口的高级语言及其编译系统、以DBMS为核 心的应用开发工具、为某应用环境开发的数据库应用系统。
6.4 数据模型
现实世界
认识、选择 描述
信息世界
客观 世界
事物: 相关性质集合 世界
存 储 计算机的数据集合 结 构
计算机世界
实 实体: 体 相关属性集合
加工、转换
加
工 、 转 换
数 实体: 据 相关属性集合 集
数据库管理员(Data Base Administrator,DBA)、系统分析员和 数据库设计人员、应用程序员和最终用户。
本讲内容
6.1 信息系统的数据管理 6.2 文件环境下的数据组织 6.3 数据库环境下的数据组织 6.4数据模型 6.5关系模式规范化 6.6数据视图概念 6.7数据库设计 6.8面向对象及其他高级数据库系统 6.9数据仓库与数据挖掘
本讲内容
6.1 信息系统的数据管理 6.2 文件环境下的数据组织 6.3 数据库环境下的数据组织 6.4数据模型 6.5关系模式规范化 6.6数据视图概念 6.7数据库设计 6.8面向对象及其他高级数据库系统 6.9数据仓库与数据挖掘
6.1 信息系统的数据管理
▪ 学者詹姆斯•马丁提出数据环境的概念,认 为只要企业的性质和目标不变,尽管企业的 数据加工处理过程是多变,但数据是稳定的 ,企业任何业务活动都离不开对数据的存取 。
数据定义语言及其翻译程序;数据操纵(或查询)语 言及其编译(或解释)程序;数据库管理例行程序。ຫໍສະໝຸດ 6.3 数据库环境下的数据组织
硬件
CPU、内存、磁盘、磁带以及其它外部设备。
软件
操作系统(OS)、数据库管理系统(DBMS)、应用于开发应用 程序的具有数据库接口的高级语言及其编译系统、以DBMS为核 心的应用开发工具、为某应用环境开发的数据库应用系统。
6.4 数据模型
现实世界
认识、选择 描述
信息世界
客观 世界
事物: 相关性质集合 世界
存 储 计算机的数据集合 结 构
计算机世界
实 实体: 体 相关属性集合
加工、转换
加
工 、 转 换
数 实体: 据 相关属性集合 集
《数据仓库技术》课件
![《数据仓库技术》课件](https://img.taocdn.com/s3/m/e55da7bb4793daef5ef7ba0d4a7302768f996f6e.png)
数据质量参差不齐
数据来源多样,数据质 量难以保证,需要进行
数据清洗和校验。
数据分析需求多变
不同部门和业务场景对 数据分析的需求各不相 同,需要灵活地调整数 据仓库架构和查询方式
。
应对策略
采用分布式存储和计算 技术,提高数据存储和 处理能力;建立数据质 量管理体系,确保数据 质量;提供灵活的数据 仓库架构和查询方式, 满足多变的分析需求。
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量呈爆 炸式增长,如何高效地存储、处理和 分析这些数据成为数据仓库面临的挑 战。
机遇
大数据时代为数据仓库技术的发展提 供了广阔的空间,通过技术创新和优 化,数据仓库能够更好地应对大数据 的挑战,为企业提供更有价值的数据 分析服务。
数据仓库技术的未来发展
云端部署
AI与数据仓库的结合
随着云计算技术的成熟,数据仓库将 逐渐向云端迁移,以提高可扩展性和 灵活性。
人工智能技术的不断发展将为数据仓 库带来更多智能化功能,如自动分类 、预测等。
实时分析
随着对数据实时性的需求增加,数据 仓库将加强实时分析功能,提高数据 处理速度。
数据仓库与其他技术的结合
数据仓库与大数据技术的结合
OLAP技术
多维数据分析
OLAP支持多维数据分析,这意味着用户 可以从多个角度和维度(如时间、地点、
产品类别等)来分析数据。
A OLAP技术概述
OLAP是一种用于分析大量数据的工 具和技术,它允许用户通过多维数 据分析来深入了解数据的不同方面 。
B
C
D
可视化工具
OLAP系统通常提供各种可视化工具,如 仪表盘、报表、图表等,以帮助用户更好 地理解数据和分析结果。
最新第3章 数据仓库PPT课件
![最新第3章 数据仓库PPT课件](https://img.taocdn.com/s3/m/2be1749202768e9950e738c8.png)
P69
users function DB design data
usage access
unit of work # records accessed #users DB size metric
OLTP clerk, IT professional
day to day operations
application-oriented
数据仓库
财产险
机动车险
客户
寿险
操作型数据库是面向特殊 处理任务,各个系统之间 各自分离
数据仓库是按照一定的主 题域进行组织。一个主题 通常与多个操作型信息系 统相关。
2021/5/10
Data Mining: Concepts and Techniques
17
2、集成的
数据仓库中的数据是在对原有分散的数据库数 据抽取、清理的基础上经过系统加工、汇总和整 理得到的,必须消除源数据中的不一致性,以保 证数据仓库内的信息是关于整个企业的一致的全 局信息。
(Integrated)、相对稳定的(Non-
Volatile)、反映历史变化(Time Variant)
的数据集合,用于支持管理决策和信息的全局
共享。
2021/5/10
Data Mining: Concepts and Techniques
14
注意:
数据仓库是一个过程而不是一个项目;
数据仓库是一个环境,而 不是 一件产品。
数据组织方式 关系数据库系统
财务分析系统 (指定)
数据组织方式 关系数据库系统
上海股东开户系统 (指定)
数据组织方式 关系数据库系统
证券咨询系统 (类型可选择) 数据组织方式 加密文本文件
第三章数据仓库的数据存储与处理精品PPT课件
![第三章数据仓库的数据存储与处理精品PPT课件](https://img.taocdn.com/s3/m/bf3ae16449649b6649d74776.png)
第三章 数据仓库的数据存储与处理
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.1 数据仓库组成
数据
信息
决策
经营数据
加载 管理
系
器
统
分
外部数据
析
与
设
计
16.10.2020
详细信息
集合信息
查询 管理 器
元数据
数据查询 CLAP工具
仓库管理器
CLAP工具
数据仓库与数据挖掘
数据仓库的管理器
文件结构
暂时数据存储所 数据仓库结构
数据仓库与数据挖掘
加载管理器
建议
用户尽量选用适合的软件工具来协助进行整个加载 管理的工作;
但是,因为源数据的特性存在很大的差异,数据仓 库中加载管理器的功能无法一致,所以不可能完全使用 外购的软件工具,而必须自行设计针对特殊需要而编写 的程序、存储过程或是脚本文件。
查询管理器将把查询统计分析的结果存入查询概述
文件,供仓库管理器使用,以决定为哪些项目执行数据
集合的工作。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.2 数据粒度
➢ 定义
粒度是指数据仓库的数据单位中保存数据的细化或综合程 度的级别。细化程度越高,粒度级就越小;相反,细化程度越 低,粒度级就越大。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
系
左图是一个低粒度级,每个活动(在这里是一次电话)被详细
统
记录下来,数据的格式如图所示。到月底每个顾客平均有200条
分
记录(全月中每个电话都记录一次),因而总共需要40000个字节;
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.1 数据仓库组成
数据
信息
决策
经营数据
加载 管理
系
器
统
分
外部数据
析
与
设
计
16.10.2020
详细信息
集合信息
查询 管理 器
元数据
数据查询 CLAP工具
仓库管理器
CLAP工具
数据仓库与数据挖掘
数据仓库的管理器
文件结构
暂时数据存储所 数据仓库结构
数据仓库与数据挖掘
加载管理器
建议
用户尽量选用适合的软件工具来协助进行整个加载 管理的工作;
但是,因为源数据的特性存在很大的差异,数据仓 库中加载管理器的功能无法一致,所以不可能完全使用 外购的软件工具,而必须自行设计针对特殊需要而编写 的程序、存储过程或是脚本文件。
查询管理器将把查询统计分析的结果存入查询概述
文件,供仓库管理器使用,以决定为哪些项目执行数据
集合的工作。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
3.2 数据粒度
➢ 定义
粒度是指数据仓库的数据单位中保存数据的细化或综合程 度的级别。细化程度越高,粒度级就越小;相反,细化程度越 低,粒度级就越大。
系 统 分 析 与 设 计
16.10.2020
数据仓库与数据挖掘
系
左图是一个低粒度级,每个活动(在这里是一次电话)被详细
统
记录下来,数据的格式如图所示。到月底每个顾客平均有200条
分
记录(全月中每个电话都记录一次),因而总共需要40000个字节;
数据仓库PPT
![数据仓库PPT](https://img.taocdn.com/s3/m/0d7bbe5777232f60ddcca11d.png)
结论: 结论:
空间数据仓库是一个多种异构数据源在单个 站点以统一的模式组织的存储, 站点以统一的模式组织的存储,它的根本目 的是服务于决策支持, 的是服务于决策支持,是空间决策支持系统 SDSS)的核心。 (SDSS)的核心。
1.5 1.5 数据仓库与数据库的比较
数据仓库(DW) 数据仓库(DW) 分析型数据环境 面向空间分析(主题), 面向空间分析(主题), 支持SDSS 支持SDSS 集成的综合数据 历史数据(5-10年) 历史数据( 10年 定期加载,加载后极少更新 定期加载, 数据驱动的开发周期 CLDS) (CLDS) 数据库(DB) 数据库(DB) 操作型数据环境 面向业务, 面向业务,日常事务处理
高级数据库系统
基于WEB的空间数据库系统 的空间数据库系统 基于
90年代 90年代 到现在
空间数据分库和数据挖掘 空间属性一体化数据库系统) (空间属性一体化数据库系统)
基于XML的数据系统 的数据系统 基于
2000年 2000年 之后
第一代综合信息系统
空间数据库和联机处理 OLAP 空间数据挖掘SDM和知 空间数据挖掘 和知 识发现 KDD
集成的
具有关联机制, 具有关联机制,可为辅助决策集成多个不 同部门不同系统的大量数据异构空间。 同部门不同系统的大量数据异构空间。
稳定性
进入空间数据仓库的数据是不能或极少更 新的。 新的。
不同时间的
空间数据仓库内包含了大量历史数据, 空间数据仓库内包含了大量历史数据,时 限为5 10年 主要用于进行时间趋势分析。 限为5—10年,主要用于进行时间趋势分析。
1.2 空间数据仓库的概念
• 数据仓库的创始人 数据仓库的创始人W·H·Inmon曾经给数据 曾经给数据 仓库( 仓库(DW)下过一个定义:数据仓库是数 )下过一个定义: 据仓库向空间维的扩展, 据仓库向空间维的扩展,它是一个支持决 策过程的、面向主题的、集成的、稳定的、 策过程的、面向主题的、集成的、稳定的、 不同时间的空间数据的集合。 不同时间的空间数据的集合。
数据仓库ppt课件
![数据仓库ppt课件](https://img.taocdn.com/s3/m/aeaa052dda38376bae1faea9.png)
精选编辑ppt
3
数据仓库——发展
数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提 出,主要功能是将组织透过资讯系统和联机事务处理(OLTP)经年累月 所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一 有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数 据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主 管资讯系统(EIS)之创建,帮助决策者能快速有效的从大量资料中,分 析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建 构商业智能(BI)。
精选编辑ppt
4
数据仓库——特征
1.数据仓库是面向主题的; 操作型数据库的数据组织面向事务处理任务,而数据仓库中的数
据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决 策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2.数据仓库是集成的;
数据仓库的数据有来自于分散的操作型数据,将所需数据从原来 的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据 仓库。 3.数据仓库是不可更新的;
元数据:是描述数据仓库内数据的结构和建立方法的数据。它为访问 数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有 什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户 通过他来了解和访问数据。
数据集市:是从数据仓库中独立出来的一部分数据,也可称为部门数 据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数据 集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注 意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容, 这样在以后实施数据仓库时才不会造成大麻烦。
chap3数据库与数据仓库精品PPT课件
![chap3数据库与数据仓库精品PPT课件](https://img.taocdn.com/s3/m/358863b616fc700aba68fc62.png)
11.10.2020
3
引言
数据库与数据仓库是组织和处理信息以及 实现商务智能最常用的方法.
数据库管理系统和数据挖掘工具是常用的 完成信息处理和商务智能的IT工具.
11.10.2020
4
商务智能
商务智能 – 涉及以下知识:
• 顾客 • 竞争对手 • 合作伙伴 • 竞争环境 • 内部业务
11.10.2020
5
商务智能
11.10.2020
6
商务智能
两类信息处理工作:
1. 联机事务处理(OLTP) – 收集信息、处理信
息,并利用收集到和经过处理得到的信息更 新已存信息.
业务数据库 Operational databases
2. 联机分析处理 (OLAP) – 支持决策的信息处
理方式.
11.10.2020
11.10.2020
9
关系数据库模型
组成部分:
1. 信息的具体内容 2. 信息的逻辑结构.
11.10.2020
10
关系数据库模型
信息的收集
11.10.2020
11
关系数据库模型
创建逻辑结构
创建数据库时,首先要建立数据字典.
数据字典 – 包含了信息的逻辑结构.
11.10.2020
12
关系数据库模型
11.10.2020
20
数据库管理系统工具
数据操作子系统
数据操作子系统- 帮助用户对数据库中的信
息进行增加、修改和删除. 数据操作工具包 括视图、报表生成器、SQL等.
视图 – 允许用户看到数据库文件的内容, 对其进行必要的修改,完成简单的分类, 并通过查找操作得到具体信息的位置.
【精品】数据仓库及应用(数据仓库、数据模型、商务智能)PPT课件
![【精品】数据仓库及应用(数据仓库、数据模型、商务智能)PPT课件](https://img.taocdn.com/s3/m/dde0516076a20029bc642d16.png)
Implement Time
> TB Months to years
< TB Months
Data Mart
Data Mart
Control: A department can completely control the data and processing that occurs inside a data mart. Cost: The cost of storage and processing is less, because the data mart’s machine is smaller than DW’s Customization: The data mart’s data is customized to suit the peculiar needs of the department.
Administration
Enterprise Data Warehouse
Enterprise data warehouses are funded on a corporate basis. Enterprise data warehouse covers the entire business (corporation), incorporating data from all operational systems. Information is extracted from the operational environment, cleansed, and transformed into a central, integrated enterprise-wide data warehouse environment, so that all the departments and other internal organizations of the corporation can benefit from a consistent, integrated source of decision support information.
> TB Months to years
< TB Months
Data Mart
Data Mart
Control: A department can completely control the data and processing that occurs inside a data mart. Cost: The cost of storage and processing is less, because the data mart’s machine is smaller than DW’s Customization: The data mart’s data is customized to suit the peculiar needs of the department.
Administration
Enterprise Data Warehouse
Enterprise data warehouses are funded on a corporate basis. Enterprise data warehouse covers the entire business (corporation), incorporating data from all operational systems. Information is extracted from the operational environment, cleansed, and transformed into a central, integrated enterprise-wide data warehouse environment, so that all the departments and other internal organizations of the corporation can benefit from a consistent, integrated source of decision support information.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
库中。
12.10.2020
22
3.3.2 元数据的分类
❖ 元数据可以按多种方式分类: ➢ 按用户分类 ➢ 按来源的正式程度分类 ➢ 按功能分类
12.10.2020
23
1. 按使用元数据的用户分类
❖ 按使用元数据的用户分类:
➢ 技术元数据:是关于数据仓库系统技术细节的描述 数据,是数据仓库开发人员和管理人员需要使用的 重要信息。主要包括数据仓库结构的描述等,主要 用户是技术人员。
❖ 其主要目标是提供数据资源的全面指南,使得数据 仓库管理员和开发人员可以方便地了解数据仓库中
有什么数据?数据在什么地方?它们来源于哪里,
以及数据仓库系统中是如何利用这些数据?如何管
理这些数据?
12.10.2020
20
3.3.1 元数据的定义(续)
❖ 要有效的管理数据仓库,必须设计一个描述能力强、 内容完善的元数据。
12.10.2020
21
Hale Waihona Puke 3.3.1 元数据的定义(续)
❖ 与元数据产生、存储有关的工具: ➢ 数据抽取工具:完成ETL操作。 ➢ 前端展现工具:实现把关系表映射成与业务相关的
事实表和维表来支持多维业务视图,进行多维分析。 ➢ 建模工具:提供更高层次的、与特定业务相关的语
义。 ➢ 元数据存储工具:用于将元数据存储在专门的数据
每种商品每一天的销售数据。 ➢ 高度综合数据:记录每个顾客每月或每年的购物金
额,或每种商品每月或每年的销售数据。
12.10.2020
9
1. 数据粒度(续)
❖ 数据粒度与数据量的关系 ❖ 数据粒度与查询种类的关系
12.10.2020
10
2. 数据分割
❖ 数据分割是数据仓库中的另一个重要概念。 ❖ 它是指将数据分布到各自的物理单元中,以便能分
别独立处理,提高数据分析效率。 ❖ 数据分割后的数据单元称为分片。 ❖ 数据分割的标准可以根据实际情况来确定,通常选
择:按日期、地域、业务领域等来进行。 ❖ 一般而言,分割标准总应包括日期项,它十分自然
而且分割均匀。
12.10.2020
11
2. 数据分割(续)
❖ 数据分割的方法 ➢ 垂直分割:垂直分割就是把一个表垂直分成两部分。
❖ 如果数据含有时标,对新插入或更新的数据记录, 在记录中加更新时的时标。
❖ 如果数据部含有时标,需要对源数据库的数据模式 加以修改,加上时标字段。
12.10.2020
15
2. DELTA文件
❖ 由应用生成的文件,用来记录应用所改变的数据内 容。
➢ 优点:效率较高,避免了扫描整个数据库。 ➢ 缺点:需要修改程序代码。
这种类型的分割有助于把一大堆列分成两个独立的 表,这两个表之间通过一个关键字段相关联。 ➢ 水平分割:水平分割就是把表按行分成两部分。这 种类型的分割被用来存储与用户联系紧密的本地重 要数据,从而减少网络查询。
12.10.2020
12
2. 数据分割(续)
❖ 一个简单的分割例子。
12.10.2020
数据仓库与数据挖掘
Data Warehouse and Data Mining
12.10.2020
1
数据仓库与数据挖掘
Data Warehouse and Data Mining
第三章 数据仓库中的数据及组织
12.10.2020
2
3.1 数据仓库中的数据组织
❖ 数据仓库中存储两类数据:业务数据和元数据。 ❖ 业务数据,分为: ➢ 细节数据 ➢ 综合数据
12.10.2020
7
1. 数据粒度(续)
❖ 不同的情况组织数据的粒度会不同。 如: ❖ 电信通话 ➢ 细节数据:记录每一次通话情况。 ➢ 轻度综合数据:记录顾客每天的通话情况。 ➢ 高度综合数据:记录顾客每月的通话情况。
12.10.2020
8
1. 数据粒度(续)
❖ 超市购物 ➢ 细节数据:记录顾客每一次购物细节。 ➢ 轻度综合数据:记录每个顾客每次的购物金额,或
有关元数据在本章稍后再述
12.10.2020
3
3.1 数据仓库中的数据组织(续)
❖ 数据仓库中存储的数据
元 数 据
12.10.2020
高度综合级
后备数据 后备数据 后备数据
轻度综合级 当前细节级 早期细节级
4
3.1 数据仓库中的数据组织(续)
❖ 源数据经过抽取、转换后,首先进入当前细节级, 再根据具体需要进行进一步的综合,从而进入轻度 综合级乃至高度综合级。
2000~2010电话呼 叫明细情况信息
12.10.2020
6
1. 数据粒度
❖ 数据粒度是数据仓库的重要概念。存在两种形式, 之一: ➢ 粒度是对数据仓库中数据的综合程度高低的一个度
量。 ➢ 粒度越小,细节程度越高,综合程度越低。 ➢ 在数据仓库中多重粒度是必不可少的。 之二: ➢ 样本数据库,其粒度是根据采样率的高低来划分的。
13
3.2 数据仓库中数据的追加
如何定期向数据仓库中追加数据也是一项十分重 要的技术。
当数据仓库的数据初装完成以后,再向数据仓库 输入(导入)数据的过程称为数据追加。
如何能够确切地感知究竟哪些数据是在上一次追 加过程以后新生成的,这项工作称为变化数据的捕捉。
常用途径:
12.10.2020
14
1. 时标法
12.10.2020
18
3.3 数据仓库中的元数据
❖ 传统数据库中为了说明数据引入了数据字典的概念。 ❖ 数据字典是描述数据的数据。
什么是元数据?
12.10.2020
19
3.3.1 元数据的定义
❖ 元数据:是用来描述数据的数据。它描述和定位数 据组件、它们的来源及它们在数据仓库进程中的活
动;关于数据和操作的相关描述(输入、计算和输 出)。元数据可用文件存在元数据库中。
❖ 老化的数据进入早期细节级。
12.10.2020
5
3.1 数据仓库中的数据组织(续)
❖ 数据组织的实例
高度综合级 轻度综合级 当前细节级
早期细节级 后备数据 后备数据 后备数据
2011~2013每“月”
电话呼叫情况信息 数 2011~2013每“天” 据 电话呼叫情况信息 仓 2011~2013每个电 库 话呼叫情况信息 层
12.10.2020
16
3. 前后快照文件的方法
❖ 在上次抽取数据库数据到数据仓库之后及本次将抽 取数据库数据之前,对数据库分别做一次快照,然 后比较两幅快照的不同。
➢ 缺点:需要占用大量资源,影响系统性能。
12.10.2020
17
4. 日志文件
❖ 优点:提取的变化数据只局限于日志文件,不需扫 描整个数据库。
12.10.2020
22
3.3.2 元数据的分类
❖ 元数据可以按多种方式分类: ➢ 按用户分类 ➢ 按来源的正式程度分类 ➢ 按功能分类
12.10.2020
23
1. 按使用元数据的用户分类
❖ 按使用元数据的用户分类:
➢ 技术元数据:是关于数据仓库系统技术细节的描述 数据,是数据仓库开发人员和管理人员需要使用的 重要信息。主要包括数据仓库结构的描述等,主要 用户是技术人员。
❖ 其主要目标是提供数据资源的全面指南,使得数据 仓库管理员和开发人员可以方便地了解数据仓库中
有什么数据?数据在什么地方?它们来源于哪里,
以及数据仓库系统中是如何利用这些数据?如何管
理这些数据?
12.10.2020
20
3.3.1 元数据的定义(续)
❖ 要有效的管理数据仓库,必须设计一个描述能力强、 内容完善的元数据。
12.10.2020
21
Hale Waihona Puke 3.3.1 元数据的定义(续)
❖ 与元数据产生、存储有关的工具: ➢ 数据抽取工具:完成ETL操作。 ➢ 前端展现工具:实现把关系表映射成与业务相关的
事实表和维表来支持多维业务视图,进行多维分析。 ➢ 建模工具:提供更高层次的、与特定业务相关的语
义。 ➢ 元数据存储工具:用于将元数据存储在专门的数据
每种商品每一天的销售数据。 ➢ 高度综合数据:记录每个顾客每月或每年的购物金
额,或每种商品每月或每年的销售数据。
12.10.2020
9
1. 数据粒度(续)
❖ 数据粒度与数据量的关系 ❖ 数据粒度与查询种类的关系
12.10.2020
10
2. 数据分割
❖ 数据分割是数据仓库中的另一个重要概念。 ❖ 它是指将数据分布到各自的物理单元中,以便能分
别独立处理,提高数据分析效率。 ❖ 数据分割后的数据单元称为分片。 ❖ 数据分割的标准可以根据实际情况来确定,通常选
择:按日期、地域、业务领域等来进行。 ❖ 一般而言,分割标准总应包括日期项,它十分自然
而且分割均匀。
12.10.2020
11
2. 数据分割(续)
❖ 数据分割的方法 ➢ 垂直分割:垂直分割就是把一个表垂直分成两部分。
❖ 如果数据含有时标,对新插入或更新的数据记录, 在记录中加更新时的时标。
❖ 如果数据部含有时标,需要对源数据库的数据模式 加以修改,加上时标字段。
12.10.2020
15
2. DELTA文件
❖ 由应用生成的文件,用来记录应用所改变的数据内 容。
➢ 优点:效率较高,避免了扫描整个数据库。 ➢ 缺点:需要修改程序代码。
这种类型的分割有助于把一大堆列分成两个独立的 表,这两个表之间通过一个关键字段相关联。 ➢ 水平分割:水平分割就是把表按行分成两部分。这 种类型的分割被用来存储与用户联系紧密的本地重 要数据,从而减少网络查询。
12.10.2020
12
2. 数据分割(续)
❖ 一个简单的分割例子。
12.10.2020
数据仓库与数据挖掘
Data Warehouse and Data Mining
12.10.2020
1
数据仓库与数据挖掘
Data Warehouse and Data Mining
第三章 数据仓库中的数据及组织
12.10.2020
2
3.1 数据仓库中的数据组织
❖ 数据仓库中存储两类数据:业务数据和元数据。 ❖ 业务数据,分为: ➢ 细节数据 ➢ 综合数据
12.10.2020
7
1. 数据粒度(续)
❖ 不同的情况组织数据的粒度会不同。 如: ❖ 电信通话 ➢ 细节数据:记录每一次通话情况。 ➢ 轻度综合数据:记录顾客每天的通话情况。 ➢ 高度综合数据:记录顾客每月的通话情况。
12.10.2020
8
1. 数据粒度(续)
❖ 超市购物 ➢ 细节数据:记录顾客每一次购物细节。 ➢ 轻度综合数据:记录每个顾客每次的购物金额,或
有关元数据在本章稍后再述
12.10.2020
3
3.1 数据仓库中的数据组织(续)
❖ 数据仓库中存储的数据
元 数 据
12.10.2020
高度综合级
后备数据 后备数据 后备数据
轻度综合级 当前细节级 早期细节级
4
3.1 数据仓库中的数据组织(续)
❖ 源数据经过抽取、转换后,首先进入当前细节级, 再根据具体需要进行进一步的综合,从而进入轻度 综合级乃至高度综合级。
2000~2010电话呼 叫明细情况信息
12.10.2020
6
1. 数据粒度
❖ 数据粒度是数据仓库的重要概念。存在两种形式, 之一: ➢ 粒度是对数据仓库中数据的综合程度高低的一个度
量。 ➢ 粒度越小,细节程度越高,综合程度越低。 ➢ 在数据仓库中多重粒度是必不可少的。 之二: ➢ 样本数据库,其粒度是根据采样率的高低来划分的。
13
3.2 数据仓库中数据的追加
如何定期向数据仓库中追加数据也是一项十分重 要的技术。
当数据仓库的数据初装完成以后,再向数据仓库 输入(导入)数据的过程称为数据追加。
如何能够确切地感知究竟哪些数据是在上一次追 加过程以后新生成的,这项工作称为变化数据的捕捉。
常用途径:
12.10.2020
14
1. 时标法
12.10.2020
18
3.3 数据仓库中的元数据
❖ 传统数据库中为了说明数据引入了数据字典的概念。 ❖ 数据字典是描述数据的数据。
什么是元数据?
12.10.2020
19
3.3.1 元数据的定义
❖ 元数据:是用来描述数据的数据。它描述和定位数 据组件、它们的来源及它们在数据仓库进程中的活
动;关于数据和操作的相关描述(输入、计算和输 出)。元数据可用文件存在元数据库中。
❖ 老化的数据进入早期细节级。
12.10.2020
5
3.1 数据仓库中的数据组织(续)
❖ 数据组织的实例
高度综合级 轻度综合级 当前细节级
早期细节级 后备数据 后备数据 后备数据
2011~2013每“月”
电话呼叫情况信息 数 2011~2013每“天” 据 电话呼叫情况信息 仓 2011~2013每个电 库 话呼叫情况信息 层
12.10.2020
16
3. 前后快照文件的方法
❖ 在上次抽取数据库数据到数据仓库之后及本次将抽 取数据库数据之前,对数据库分别做一次快照,然 后比较两幅快照的不同。
➢ 缺点:需要占用大量资源,影响系统性能。
12.10.2020
17
4. 日志文件
❖ 优点:提取的变化数据只局限于日志文件,不需扫 描整个数据库。