第1章数据仓库的概念与体系结构
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
有分析价值的数据进行存储。针对这些数据建立分析模 型,从中挖掘出符合规律的知识并用于未来的预测和决 策中。
2020/11/26
数据仓库与数据挖掘
2
背景2
基于web的应用越来越普及,各种网站积累了大量的 点击流数据
访问者的访问时间、IP地址、经常访问的页面和内容、 在网页上停留的时间等;
客户的交易、付款、产品利润、查询等数据
数据仓库与数据挖掘
第1章 数据仓库的概 念与体系结构
2020/11/26
1
背景1
企业信息化程度越来越高,产生的历史数据越来越多 常用的数据处理方法:
将已失效的历史数据简单删除,减少磁盘空间占用 对历史数据通过介质进行备份后删除,可按需查看 建立一个数据仓库系统,对业务系统及其他档案系统中
技术元数据:DW设计和管理人员使用,包括:数据源信息、数 据转换的描述、DW内对象和数据结构的定义、数据清理和数据 更新时使用的规则;源数据到目的数据映射表、用户访问权限、 数据备份和导入、信息发布历史记录
业务元数据:从单位业务的角度描述DW的元数据,如业务主题 描述,即业务主题包含的数据、查询和报表等信息
✓ DW中数据应使用一致的命名规则、格式、 编码结构和相关特性来定义
2020/11/26
数据仓库与数据挖掘
6
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
✓ 操作型数据库中的数据通常实时更新
✓ DW中数据主要用于决策分析,对数据的操 作主要是数据查询和少量定期更新
14
1.3 数据仓库的技术、方法与产品
数据仓库技术是为了有效的把操作型数据集成到统一的环境中, 以提供决策性数据访问的各种技术和模型的总称。
联机事务处理(OLTP):Online Transaction Processing 联机分析处理(OLAP):Online Analytical Processing
apБайду номын сангаасlication-oriented
current, up-to-date detailed, flat relational isolated read/write index/hash on prim. key short, simple transaction
tens
thousands
100MB-GB
2020/11/26
数据仓库与数据挖掘
10
1.1 数据仓库的概念、特点与组成
数据仓库的组成3-3:
4访问工具:如数据查询和报表工具、应用开发工具、数据挖掘
工具和数据分析工具等
5数据集市(Data Marts):为特定的应用目的,从DW中独
立出来的一部分数据,也称部门数据或主题数据。DW实施过程一般 可从一个部门的数据集市着手,再逐步用几个数据集市组成一个完 整的数据仓库。
“A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.”—W. H. Inmon [Inm96]
transaction throughput
OLAP knowledge worker decision support subject-oriented historical, summarized, multidimensional integrated, consolidated lots of scans
维表和事实表通过关系(PK和FK)联系在一起,组成星型模式。对于 层次复杂的维,为避免冗余数据,可采用多个表来描述这种维度,实际 上是对星型模式的扩展,称为“雪花型模式”
MOLAP: HOLAP:
2020/11/26
数据仓库与数据挖掘
20
Example of Star Schema
time
time_key day day_of_the_week month quarter year
2020/11/26
数据仓库与数据挖掘
17
OLTP vs. OLAP
users function DB design data
access
unit of work # records accessed #users DB size metric
OLTP
clerk, IT professional
day to day operations
2020/11/26
数据仓库与数据挖掘
12
1.2 数据挖掘的概念与方法
数据挖掘的方法:
直接数据挖掘:利用可用数据建立一个模型,使用这
个模型对剩余的数据进行描述,如Classification、 Estimation和Prediction等
间接数据挖掘:没有选出某一具体的变量并用模型进
行描述,而是在所有变量中建立起某种关系,如相关性 分析、关联规则(Association Rule)、聚类(Clustering)、 描述和可视化(Description and visualization)及复杂数 据类型的挖掘,如文本、网页、图形图像、音视频和空 间数据等
✓ 一个主题通常与多个操作型数据库相关
2020/11/26
数据仓库与数据挖掘
5
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
✓ 操作型数据库之间相互独立,可能异构
✓ DW中数据对原有分散的数据库数据作抽 取、清理的基础上,经过系统的加工、汇总 和整理得到,常见来源:关系数据库、一般 文件和联机事务记录。
6数据仓库管理:包括安全与权限的管理、数据更新的跟踪、数
据质量的检查、元数据的管理与更新、数据仓库使用状态的检测与 审计、数据复制和删除、数据分割与分发、数据备份与恢复、数据 存储管理等。
7信息发布系统:把DW中数据发布给不同的地点或用户。当前
最流行的是基于Web的方式。
2020/11/26
数据仓库与数据挖掘
多维分析:指对以“维”形式组织起来的数据采取切片(Slice)、切 块(Dice)、钻取(Drill Down,Roll Up)和旋转(Pivot)等
钻取改变维的层次、变化分析的粒度;切片和切块是在一部分维上选定 值后,度量值在剩余维上的分布,如果剩余维有两个则是切片,如果有 三个则是切块;旋转是变换维的方向,即在表格中重新安排维的放置, 如行列互换。
2020/11/26
数据仓库与数据挖掘
13
1.2 数据挖掘的概念与方法
数据仓库与数据挖掘的关系
若将数据仓库(Data Warehouse)比作矿井,那么 数据挖掘(Data Mining)就是深入矿井采矿的工作
数据挖掘是从数据仓库中找出有用信息的一种过程与 技术
2020/11/26
数据仓库与数据挖掘
✓ DW中数据通常包含较久远的历史数据, 因此总包含一个时间维,便于研究趋势和变 化
2020/11/26
数据仓库与数据挖掘
8
1.1 数据仓库的概念、特点与组成
数据仓库的组成3-1:
1数据仓库数据库:DW核心,存放数据,提供海量
数据支持和快速检索
2数据抽取工具:把数据从各种数据环境抽取出来,
进行必要的转化、整理,再存放到DW中。可运用高级语 言编写的程序、操作系统脚本或批命令脚本、SQL脚本 等方式访问不同的数据环境,通常包括:
branch
branch_key branch_name branch_type
2020/11/26
Measures
Sales Fact Table time_key item_key branch_key
2020/11/26
数据仓库与数据挖掘
19
1.3 数据仓库的技术、方法与产品
OLAP根据其存储数据的方式可分为三类:
ROLAP:
Relational OLAP,基于关系数据库的OLAP,以关系数据库为核心,以 关系型结构进行多维数据的表示和存储。
ROLAP将多维数据集的多维结构划分为两类表:事实表(存储度量数 据和维关键字)和维表(针对每个维使用一个或多个表来存放维的层次、 成员类别等维的描述信息)。
11
1.2 数据挖掘的概念与方法
数据挖掘的概念
数据挖掘(Data Mining),就是从大量数据中获取有效 的、新颖的、潜在有用的、最终可理解的模式的非平凡 过程,简单的说,数据挖掘就是从大量数据中提取或 “挖掘”知识,又被称为数据库中的知识发现 (Knowledge Discovery in Database, KDD)
✓ 不需要事务处理、恢复和并发控制机制
✓ 数据加载到数据仓库后,作为数据档案相 对稳定
2020/11/26
数据仓库与数据挖掘
7
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
✓ 操作型数据库主要关心某一个时间段内的 数据
✓ DW中记录了一段时间的数据,对单位发 展历程和未来趋势做出定量分析和预测
将数据整合到数据仓库 通过分析可以进一步了解访问者的行为偏好,发现带
普遍性的行为规律,改进页面内容和风格
2020/11/26
数据仓库与数据挖掘
3
1.1 数据仓库的概念、特点与组成
数据仓库的概念
数据仓库就是一个面向主题的(Subject Oriented)、 集成的(Integrate)、相对稳定的(Non-Volatile)、 反映历史变化(Time Variant)的数据集合,通常用于 辅助决策支持
2020/11/26
数据仓库与数据挖掘
15
1.3 数据仓库的技术、方法与产品
OLTP:
传统关系型数据库管理系统的主要任务。 日常操作:购物(purchasing)、库存(inventory)、制造
(manufacturing)、银行(banking)、工资(payroll)、注 册(registration)、记账(accounting)等。
2020/11/26
数据仓库与数据挖掘
4
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
✓ 操作型数据库中的数据针对事务处理任务, 各业务系统之间各自分离
✓ DW关注决策者的数据建模与分析,而不 是组织机构的日常操作和事务处理。
✓ DW中数据按照一定的主题进行组织,如 顾客、供应商、产品和销售来组织。
complex query millions hundreds 100GB-TB query throughput, response
2020/11/26
2020年11月26日星期四
数据仓库与数据挖掘
Data Mining: Concepts and Techniques
18
18
1.3 数据仓库的技术、方法与产品
删除对决策分析没有意义的数据 转换到统一的数据名称和定义 计算统计和衍生数据 填补缺失数据 统一不同的数据定义方式
2020/11/26
数据仓库与数据挖掘
9
1.1 数据仓库的概念、特点与组成
数据仓库的组成3-2:
3元数据:是描述DW内数据的结构和建立方法的数据。
是DW运行和维护的核心内容。分为技术元数据与业务元 数据:
联机分析处理(OLAP)相关概念:
多维数据集:DW的子集构造,并组织成一个由一组维度和度量值定义 的多维结构。
维度(Dimension):是OLAP核心,即人们观察世界的角度,通过把 一个实体的一些重要属性定义为维,用户能对不同维属性上的数据进行 比较研究。如时间、地区和产品就是维。
度量值:也称度量指标,是多维数据集中的一组数值,基于多维数据集 的事实数据表中的一列,是最终用户浏览多维数据集时重点查看的数值 数据,也是所分析的多维数据集的中心值。如销售量、成本值和费用支 出等
2020/11/26
数据仓库与数据挖掘
16
1.3 数据仓库的技术、方法与产品
OLAP:
➢ 数据仓库系统的主要任务。 ➢ 数据分析和决策。
OLTP和OLAP的比较
➢ 用户和系统的面向性:面向顾客 vs. 面向市场; ➢ 数据内容:当前的 + 详细的 vs. 历史的 + 统一的; ➢ 数据库设计:ER + 应用 vs. 星形(雪花)+ 面向主题 ➢ 视图:当前的 + 局部组织的 vs. 进化的 + 集成的; ➢ 访问模式:更新的 vs. 只读但复杂的询问。
2020/11/26
数据仓库与数据挖掘
2
背景2
基于web的应用越来越普及,各种网站积累了大量的 点击流数据
访问者的访问时间、IP地址、经常访问的页面和内容、 在网页上停留的时间等;
客户的交易、付款、产品利润、查询等数据
数据仓库与数据挖掘
第1章 数据仓库的概 念与体系结构
2020/11/26
1
背景1
企业信息化程度越来越高,产生的历史数据越来越多 常用的数据处理方法:
将已失效的历史数据简单删除,减少磁盘空间占用 对历史数据通过介质进行备份后删除,可按需查看 建立一个数据仓库系统,对业务系统及其他档案系统中
技术元数据:DW设计和管理人员使用,包括:数据源信息、数 据转换的描述、DW内对象和数据结构的定义、数据清理和数据 更新时使用的规则;源数据到目的数据映射表、用户访问权限、 数据备份和导入、信息发布历史记录
业务元数据:从单位业务的角度描述DW的元数据,如业务主题 描述,即业务主题包含的数据、查询和报表等信息
✓ DW中数据应使用一致的命名规则、格式、 编码结构和相关特性来定义
2020/11/26
数据仓库与数据挖掘
6
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
✓ 操作型数据库中的数据通常实时更新
✓ DW中数据主要用于决策分析,对数据的操 作主要是数据查询和少量定期更新
14
1.3 数据仓库的技术、方法与产品
数据仓库技术是为了有效的把操作型数据集成到统一的环境中, 以提供决策性数据访问的各种技术和模型的总称。
联机事务处理(OLTP):Online Transaction Processing 联机分析处理(OLAP):Online Analytical Processing
apБайду номын сангаасlication-oriented
current, up-to-date detailed, flat relational isolated read/write index/hash on prim. key short, simple transaction
tens
thousands
100MB-GB
2020/11/26
数据仓库与数据挖掘
10
1.1 数据仓库的概念、特点与组成
数据仓库的组成3-3:
4访问工具:如数据查询和报表工具、应用开发工具、数据挖掘
工具和数据分析工具等
5数据集市(Data Marts):为特定的应用目的,从DW中独
立出来的一部分数据,也称部门数据或主题数据。DW实施过程一般 可从一个部门的数据集市着手,再逐步用几个数据集市组成一个完 整的数据仓库。
“A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.”—W. H. Inmon [Inm96]
transaction throughput
OLAP knowledge worker decision support subject-oriented historical, summarized, multidimensional integrated, consolidated lots of scans
维表和事实表通过关系(PK和FK)联系在一起,组成星型模式。对于 层次复杂的维,为避免冗余数据,可采用多个表来描述这种维度,实际 上是对星型模式的扩展,称为“雪花型模式”
MOLAP: HOLAP:
2020/11/26
数据仓库与数据挖掘
20
Example of Star Schema
time
time_key day day_of_the_week month quarter year
2020/11/26
数据仓库与数据挖掘
17
OLTP vs. OLAP
users function DB design data
access
unit of work # records accessed #users DB size metric
OLTP
clerk, IT professional
day to day operations
2020/11/26
数据仓库与数据挖掘
12
1.2 数据挖掘的概念与方法
数据挖掘的方法:
直接数据挖掘:利用可用数据建立一个模型,使用这
个模型对剩余的数据进行描述,如Classification、 Estimation和Prediction等
间接数据挖掘:没有选出某一具体的变量并用模型进
行描述,而是在所有变量中建立起某种关系,如相关性 分析、关联规则(Association Rule)、聚类(Clustering)、 描述和可视化(Description and visualization)及复杂数 据类型的挖掘,如文本、网页、图形图像、音视频和空 间数据等
✓ 一个主题通常与多个操作型数据库相关
2020/11/26
数据仓库与数据挖掘
5
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
✓ 操作型数据库之间相互独立,可能异构
✓ DW中数据对原有分散的数据库数据作抽 取、清理的基础上,经过系统的加工、汇总 和整理得到,常见来源:关系数据库、一般 文件和联机事务记录。
6数据仓库管理:包括安全与权限的管理、数据更新的跟踪、数
据质量的检查、元数据的管理与更新、数据仓库使用状态的检测与 审计、数据复制和删除、数据分割与分发、数据备份与恢复、数据 存储管理等。
7信息发布系统:把DW中数据发布给不同的地点或用户。当前
最流行的是基于Web的方式。
2020/11/26
数据仓库与数据挖掘
多维分析:指对以“维”形式组织起来的数据采取切片(Slice)、切 块(Dice)、钻取(Drill Down,Roll Up)和旋转(Pivot)等
钻取改变维的层次、变化分析的粒度;切片和切块是在一部分维上选定 值后,度量值在剩余维上的分布,如果剩余维有两个则是切片,如果有 三个则是切块;旋转是变换维的方向,即在表格中重新安排维的放置, 如行列互换。
2020/11/26
数据仓库与数据挖掘
13
1.2 数据挖掘的概念与方法
数据仓库与数据挖掘的关系
若将数据仓库(Data Warehouse)比作矿井,那么 数据挖掘(Data Mining)就是深入矿井采矿的工作
数据挖掘是从数据仓库中找出有用信息的一种过程与 技术
2020/11/26
数据仓库与数据挖掘
✓ DW中数据通常包含较久远的历史数据, 因此总包含一个时间维,便于研究趋势和变 化
2020/11/26
数据仓库与数据挖掘
8
1.1 数据仓库的概念、特点与组成
数据仓库的组成3-1:
1数据仓库数据库:DW核心,存放数据,提供海量
数据支持和快速检索
2数据抽取工具:把数据从各种数据环境抽取出来,
进行必要的转化、整理,再存放到DW中。可运用高级语 言编写的程序、操作系统脚本或批命令脚本、SQL脚本 等方式访问不同的数据环境,通常包括:
branch
branch_key branch_name branch_type
2020/11/26
Measures
Sales Fact Table time_key item_key branch_key
2020/11/26
数据仓库与数据挖掘
19
1.3 数据仓库的技术、方法与产品
OLAP根据其存储数据的方式可分为三类:
ROLAP:
Relational OLAP,基于关系数据库的OLAP,以关系数据库为核心,以 关系型结构进行多维数据的表示和存储。
ROLAP将多维数据集的多维结构划分为两类表:事实表(存储度量数 据和维关键字)和维表(针对每个维使用一个或多个表来存放维的层次、 成员类别等维的描述信息)。
11
1.2 数据挖掘的概念与方法
数据挖掘的概念
数据挖掘(Data Mining),就是从大量数据中获取有效 的、新颖的、潜在有用的、最终可理解的模式的非平凡 过程,简单的说,数据挖掘就是从大量数据中提取或 “挖掘”知识,又被称为数据库中的知识发现 (Knowledge Discovery in Database, KDD)
✓ 不需要事务处理、恢复和并发控制机制
✓ 数据加载到数据仓库后,作为数据档案相 对稳定
2020/11/26
数据仓库与数据挖掘
7
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
✓ 操作型数据库主要关心某一个时间段内的 数据
✓ DW中记录了一段时间的数据,对单位发 展历程和未来趋势做出定量分析和预测
将数据整合到数据仓库 通过分析可以进一步了解访问者的行为偏好,发现带
普遍性的行为规律,改进页面内容和风格
2020/11/26
数据仓库与数据挖掘
3
1.1 数据仓库的概念、特点与组成
数据仓库的概念
数据仓库就是一个面向主题的(Subject Oriented)、 集成的(Integrate)、相对稳定的(Non-Volatile)、 反映历史变化(Time Variant)的数据集合,通常用于 辅助决策支持
2020/11/26
数据仓库与数据挖掘
15
1.3 数据仓库的技术、方法与产品
OLTP:
传统关系型数据库管理系统的主要任务。 日常操作:购物(purchasing)、库存(inventory)、制造
(manufacturing)、银行(banking)、工资(payroll)、注 册(registration)、记账(accounting)等。
2020/11/26
数据仓库与数据挖掘
4
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
✓ 操作型数据库中的数据针对事务处理任务, 各业务系统之间各自分离
✓ DW关注决策者的数据建模与分析,而不 是组织机构的日常操作和事务处理。
✓ DW中数据按照一定的主题进行组织,如 顾客、供应商、产品和销售来组织。
complex query millions hundreds 100GB-TB query throughput, response
2020/11/26
2020年11月26日星期四
数据仓库与数据挖掘
Data Mining: Concepts and Techniques
18
18
1.3 数据仓库的技术、方法与产品
删除对决策分析没有意义的数据 转换到统一的数据名称和定义 计算统计和衍生数据 填补缺失数据 统一不同的数据定义方式
2020/11/26
数据仓库与数据挖掘
9
1.1 数据仓库的概念、特点与组成
数据仓库的组成3-2:
3元数据:是描述DW内数据的结构和建立方法的数据。
是DW运行和维护的核心内容。分为技术元数据与业务元 数据:
联机分析处理(OLAP)相关概念:
多维数据集:DW的子集构造,并组织成一个由一组维度和度量值定义 的多维结构。
维度(Dimension):是OLAP核心,即人们观察世界的角度,通过把 一个实体的一些重要属性定义为维,用户能对不同维属性上的数据进行 比较研究。如时间、地区和产品就是维。
度量值:也称度量指标,是多维数据集中的一组数值,基于多维数据集 的事实数据表中的一列,是最终用户浏览多维数据集时重点查看的数值 数据,也是所分析的多维数据集的中心值。如销售量、成本值和费用支 出等
2020/11/26
数据仓库与数据挖掘
16
1.3 数据仓库的技术、方法与产品
OLAP:
➢ 数据仓库系统的主要任务。 ➢ 数据分析和决策。
OLTP和OLAP的比较
➢ 用户和系统的面向性:面向顾客 vs. 面向市场; ➢ 数据内容:当前的 + 详细的 vs. 历史的 + 统一的; ➢ 数据库设计:ER + 应用 vs. 星形(雪花)+ 面向主题 ➢ 视图:当前的 + 局部组织的 vs. 进化的 + 集成的; ➢ 访问模式:更新的 vs. 只读但复杂的询问。