数据仓库与数据挖掘技术 第2章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
把数据分散到各自小的物理单元中去 任何给定的单元属于一个分割 数据分割后的数据单元称为分片 分割后的单元具有灵活性,能够实现重构、 索引、顺序扫描、重组、恢复、监控等
2011-11-15
44
数据分割
2011-11-15
45
2011-11-15
46
数据仓库中数据组织
简单堆积结构 轮转综合数据存储 简单直接文件 连续组织
——是数据仓库的分析中首要解决的问题 是数据仓库的分析中首要解决的问题
2011-11-15
2
图2.1 数据仓库的需求分析模型
2011-11-15 3
2、影响数据仓库成功的因素有哪些? 影响数据仓库成功的因素有哪些?
2011-11-15
4
影响因素
数据存储的组织方式,决定了数据的可获取性与有 用性,进而决定了数据的价值。 数据仓库的数据库结构有以下要求:(P44表2.1) 反映静态数据 存储历史数据 在时间上是可见的、明确的 数据的粒度是详细的可导出的汇总 定期的、计划的更新 支持的任务是不可预期的 对数据库的灵活性要求高
是为一些事件的发生而产生的 事件的类型
随机发生的离散活动 在规定时间点
事件触发快照,其基本结构由四个部分组成
键码(Key) 时间单元(描述事件已发生或捕捉数据的时间) 只和关键码相关的初始数据 与关键码无直接关系的二次数据
2011-11-15 53
课堂练习
充分认识数据仓库中几个关键术语,说明它 们的概念与意义 ETL 元数据 粒度 数据分割 快照 轮转综合数据存储
2011-11-15
31
ETL(提取—转换 加载) (提取 转换 加载) 转换—加载
数据的提取—转换—加载(ETL)是用来实现异构数据源的 数据集成,即完成数据的抓取/抽取、清洗、转换、加载与索 引等数据调和工作。 ETL是数据仓库系统中最重要的处理工具之一,它的主要任 务是建立、维护数据仓库,通过与操作型数据源的映像关系 执行数据提取—转换—加载的任务。其中涉及各种各样的技 术和处理,比如,数据清洗及其准备结构的设计和处理、映 像技术和方法、粒度的考虑,以及数据的提取、转换、追加、 加载作业控制等一系列问题。
2011-11-15
37
4、数据仓库的逻辑结构是怎样的? 数据仓库的逻辑结构是怎样的?
2011-11-15
38
数据仓库的粒度
• 粒度是指数据仓库的数据单位中保存数据细
化或综合程度的级别。
2011-11-15
39
数据仓库的粒度
粒度 粒度越小,细节程度越高,综合程度越低,回答查询的 种类就越多反之,粒度的增大将会提高查询效率,但同 时也造成回答细节问题能力的下降。 低粒度级(高细节级) 高粒度级(低细节级) 例如:电讯公司数据仓库中,保存一个顾客一个月内每 个电话的细节——高细节级,低粒度级,假设有200个记 录,包含本月内200个电话的任何信息;保存一个顾客一 个月内每天电话的汇总——轻度综合,较高粒度级,只 有30或31条记录,只能回答汇总查询的问题。保存一个 顾客一个月内的电话的综合——低细节级,高粒度级, 只有一条记录。
2011-11-15
16
(4)建设数据仓库的协调与阻力分析 )
2011-11-15
17
(5)开发项目计划制定 )
2011-11-15
18
(6)创建数据仓库所使用的关键资源 )
人才
业务分析员
确定和定义目的和目标用户群 确定满足组织战略性商业目标
数据体系结构设计师
数据的采集、转换、分配和加载 定义数据模型
第二章 数据仓库的分析
主要内容
1. 2. 3. 4. 5.
如何建立数据仓库的需求模型? 影响数据仓库成功的因素有哪些? 数据仓库开发各阶段的任务是什么? 数据仓库的基本体系结构是怎样的? 数据仓库的逻辑结构是怎样的?
2011-11-15
1
如何建立数据仓库的需求模型? 1、如何建立数据仓库的需求模型?
2011-11-15 5
2011-11-15
6
2011-11-15
7
3、数据仓库开发各阶段的任务是什么? 数据仓库开发各阶段的任务是什么?
2011-11-15
8
传统的操作型系统的生命周期
System Development Life Cycle
SDLC系统开发生命周期 系统开发生命周期 需求驱动的开发生命周期 需求驱动的开发生命周期
2011-11-15 40
轻度综合数据
2011-11-15
41
数据仓库的粒度
双重粒度
指轻度综合数据和真实细节数据级(最低粒度级)
大部分的分析数据是针对被压缩的、存取效率高的轻 度粒度级数据进行的。 需要分析更低的细节数据时才访问最低粒度级数据。
2011-11-15
42
2011-11-15
43
数据仓库中的数据分割
数 据 仓 数 据 仓 库
数据
库 的源系统 体 或数据库中 系 到 结构
2011-11-15
29
数据仓库体系结构
2011-11-15
30
数据分级
Data Staging 提取,转化,净化,加载 数据仓库不直接存储事务数据,提取时必 须将事务数据进行转换成数据仓库的数据 结构和内部格式,为了保证数据的品质, 还要对数据进行净化,将净化后的数据加 载到数据仓库中。
2011-11-15
35
数据仓库数据库
是整个数据仓库环境的核心,是数据存放的 地方,提供对数据的支持和快速检索的支持 相对于操纵型数据库来说,其突出的特点是 对海量数据的支持和快速的检索技术。 包含
明细数据和汇总数据
2011-11-15
36
查询工具
查询工具通常包括一个用于向数据库提出问 题的最终用户接口,此接口位于联机分析处 理OLAP的程序中。
2011-11-15
21
数据驱动方法
数据源:连续的数据源 次序:自顶向下 优点:每一个阶段在技术上都很简单,只涉 及一个文件或数据库类型映射到数据仓库数 据库之中,每个附加数据源只有在其前面的 附加数据源处理完之后才添加。 缺点:数据资源不能利落地映射到商业查询 中。
2011-11-15 22
应用驱动方法
2011-11-15 54
2011-11-15
26
4、数据仓库的基本体系结构是怎样的? 数据仓库的基本体系结构是怎样的?
2011-11-15
27
2011-11-15
28
数据仓库基本体系结构
用户通过 SQL查询语 建立为决策支持服 不同源系统中的数 言、分析工 务的数据库,即数 据在加载到数据仓 具或数据挖 据仓库,它通常会 库之前需要被转换 掘工具访问 同时包括详细的和 和集成数据仓库 概括的数据
信息系统服务人员 最终用户支持人员 领导和管理人员 项目领导 项目经理
硬件 软件 2011-11-15
19
2.数据仓库的其他阶段 数据仓库的其他阶段
2011-11-15
20
数据仓库的系统分析
系统分析的目标是了解当前实际是如何工作的,以 使得系统的操作可在将来得到改善。 原型法 注意:不能与其所有可操作数据源相连,数据仍 然需要做数据净化、传送等工作 开发方法 数据驱动法 应用驱动法
用户需求分析 可行性研究 用户的认可 建设数据仓库的协调与阻力分析 开发项目计划制定 关键资源管理
2011-11-15
12
(1)用户需求分析内容 )
用户如何处理其事务 如何衡量用户的工作表现 用户需要什么属性(在信息方面) 应用于这些属性的业务层次结构是什么 用户现在使用什么数据,以及需要什么数据 用户需要什么水平的细节或汇总数据
数据源:来自几个操作系统的数据 次序:自顶向下 优点:在第一阶段就提供有用的信息 缺点:到达这一阶段要花费较长的时间、并 且需要的活动很多很复杂
2011-11-15
23
数据仓库系统设计
重点:设计数据仓库的元素,即数据库和数 据分析
如何选择数据库体系结构 按照哪种系统结构设计 如何安排数据库 定义数据如何使用所有的数据源都被映射传送到 数据仓库 描述数据仓库何时及时如何更新并回答程序员遇 到的无数多个”我该怎么办”
提取 清洗 集结地 操作型 系统
2011-11-15
加载与索引
转换 数据仓 库
32
拒绝数据的信息 有关拒绝数据的信息
元数据
元数据Metadata
“有关数据的数据” “数据仓库的元数据是要解决何人在何时何地为 了什么原因及怎样使用数据仓库的问题”。 可对 数据仓库中的各种数据进行详细的描述与说明, 说明每个数据的上下文关系,使每个数据具有符 合现实的真实含义,使最终用户了解这些数据之 间的关系。 作用: 通过元数据进行数据仓库的管理; 通过元数据来使用数据仓库。
简单堆积与轮转综合的比较
2011-11-15
50
简单直接文件组织
把数据从操作型环境拖入数据仓库环境中, 无任何累积,以较长时间为单位的 它是间隔一定时间的操作型数据的一个快照
2011-11-15
51
连续数据组织
依据两个或更多的简单直接文件快照进行合 并创建或追加的
2011-11-15
52
快照
20ห้องสมุดไป่ตู้1-11-15 34
元数据为访问数据仓库提供了一个信息目录 数据仓库中都有些什么数据 这些数据是怎么得到的 谁在管辖 怎么访问这些数据 其他更多的信息 可通过查询工具得知元数据的有关资料 元数据是数据仓库运行和维护的中心,数据仓库服 务器必须利用元数据来存储和更新数据,用户必须 通过元数据来了解和访问数据。
2011-11-15
47
简单堆积结构
从操作型环境中取出每天的事务数据 根据主题来综合成数据仓库记录
2011-11-15
48
轮转综合数据存储
只有在轮转综合文件中的数据才能被输入到不同的结构形式 中,而操作型数据到数据仓库环境中的数据处理方法简单的 堆积结构相同。
2011-11-15
方式:每天进行数据综合, 方式:每天进行数据综合,每 周累加, 周累加,月底将每周的数据加 到一起, 到一起,并放于第一个每月响 应的数据位置处, 应的数据位置处,然后每周数 据位置清零。到了年底, 据位置清零。到了年底,将每 月数据累加, 月数据累加,放入第一个年度 响应的数据位置处, 响应的数据位置处,然后每月 49 数据位置清零。 数据位置清零。
2011-11-15 24
数据仓库的测试
适用于顺序测试
确保对源文件提取记录及字段的正确性 证明传送和净化工作正常,对比元数据,检查数 据仓库内容以确保整个加载过程有效,可能要测 试有关已知谁的回答的分析。
增强维护,增强用户支持
2011-11-15
25
思考
查阅赛迪网,阅读和比较不同的数据仓库的 解决方案。明确数据驱动法与应用驱动法两 种方法在数据仓库实施中的不同表现。
2011-11-15 33
技术元数据:用于对数据仓库进行管理的元数据 是数据仓库的设计和管理人员用于数据仓库开发 和日常管理数据仓库时使用的元数据。它包括数 据源信息、数据转换的描述、数据仓库对象和数 据结构的定义、数据清理和数据更新时采用的规 则、源数据到目的数据的映射、用户访问权限、 数据备份历史纪录、数据导入历史纪录、信息发 布历史纪录等。 商业元数据:帮助使用数据仓库的元数据 从商业业务的角度描述了数据仓库中的数据。它 包括业务主题的描述,以及对所包含的数据、查 询、报表的描述,等等。
2011-11-15
9
数据仓库的生命周期CLDS 数据仓库的生命周期
CLDS数据驱动的开发生命周期(SDLC的逆序) 实现数据仓库 集成数据 检验偏差 针对数据编程 设计DSS系统 分析结果和 理解需求 参见P45图2.5
2011-11-15 10
2011-11-15
11
1.数据仓库计划与准备阶段 数据仓库计划与准备阶段
2011-11-15
13
2011-11-15
14
(2)可行性研究 )
三个重要分析 技术可行性 操作可行性 经济可行性
2011-11-15
15
(3)用户认可(User buy in) )用户认可( )
重要因素
用户大力支持不可少,其与上层的支持是不同的 不能完全改变决策方式,只能改变决策信息的获 取方法,改进用户获取信息的方法 数据仓库必须经常集成其中应用软件的数据,理 解用户的看法
2011-11-15
44
数据分割
2011-11-15
45
2011-11-15
46
数据仓库中数据组织
简单堆积结构 轮转综合数据存储 简单直接文件 连续组织
——是数据仓库的分析中首要解决的问题 是数据仓库的分析中首要解决的问题
2011-11-15
2
图2.1 数据仓库的需求分析模型
2011-11-15 3
2、影响数据仓库成功的因素有哪些? 影响数据仓库成功的因素有哪些?
2011-11-15
4
影响因素
数据存储的组织方式,决定了数据的可获取性与有 用性,进而决定了数据的价值。 数据仓库的数据库结构有以下要求:(P44表2.1) 反映静态数据 存储历史数据 在时间上是可见的、明确的 数据的粒度是详细的可导出的汇总 定期的、计划的更新 支持的任务是不可预期的 对数据库的灵活性要求高
是为一些事件的发生而产生的 事件的类型
随机发生的离散活动 在规定时间点
事件触发快照,其基本结构由四个部分组成
键码(Key) 时间单元(描述事件已发生或捕捉数据的时间) 只和关键码相关的初始数据 与关键码无直接关系的二次数据
2011-11-15 53
课堂练习
充分认识数据仓库中几个关键术语,说明它 们的概念与意义 ETL 元数据 粒度 数据分割 快照 轮转综合数据存储
2011-11-15
31
ETL(提取—转换 加载) (提取 转换 加载) 转换—加载
数据的提取—转换—加载(ETL)是用来实现异构数据源的 数据集成,即完成数据的抓取/抽取、清洗、转换、加载与索 引等数据调和工作。 ETL是数据仓库系统中最重要的处理工具之一,它的主要任 务是建立、维护数据仓库,通过与操作型数据源的映像关系 执行数据提取—转换—加载的任务。其中涉及各种各样的技 术和处理,比如,数据清洗及其准备结构的设计和处理、映 像技术和方法、粒度的考虑,以及数据的提取、转换、追加、 加载作业控制等一系列问题。
2011-11-15
37
4、数据仓库的逻辑结构是怎样的? 数据仓库的逻辑结构是怎样的?
2011-11-15
38
数据仓库的粒度
• 粒度是指数据仓库的数据单位中保存数据细
化或综合程度的级别。
2011-11-15
39
数据仓库的粒度
粒度 粒度越小,细节程度越高,综合程度越低,回答查询的 种类就越多反之,粒度的增大将会提高查询效率,但同 时也造成回答细节问题能力的下降。 低粒度级(高细节级) 高粒度级(低细节级) 例如:电讯公司数据仓库中,保存一个顾客一个月内每 个电话的细节——高细节级,低粒度级,假设有200个记 录,包含本月内200个电话的任何信息;保存一个顾客一 个月内每天电话的汇总——轻度综合,较高粒度级,只 有30或31条记录,只能回答汇总查询的问题。保存一个 顾客一个月内的电话的综合——低细节级,高粒度级, 只有一条记录。
2011-11-15
16
(4)建设数据仓库的协调与阻力分析 )
2011-11-15
17
(5)开发项目计划制定 )
2011-11-15
18
(6)创建数据仓库所使用的关键资源 )
人才
业务分析员
确定和定义目的和目标用户群 确定满足组织战略性商业目标
数据体系结构设计师
数据的采集、转换、分配和加载 定义数据模型
第二章 数据仓库的分析
主要内容
1. 2. 3. 4. 5.
如何建立数据仓库的需求模型? 影响数据仓库成功的因素有哪些? 数据仓库开发各阶段的任务是什么? 数据仓库的基本体系结构是怎样的? 数据仓库的逻辑结构是怎样的?
2011-11-15
1
如何建立数据仓库的需求模型? 1、如何建立数据仓库的需求模型?
2011-11-15 5
2011-11-15
6
2011-11-15
7
3、数据仓库开发各阶段的任务是什么? 数据仓库开发各阶段的任务是什么?
2011-11-15
8
传统的操作型系统的生命周期
System Development Life Cycle
SDLC系统开发生命周期 系统开发生命周期 需求驱动的开发生命周期 需求驱动的开发生命周期
2011-11-15 40
轻度综合数据
2011-11-15
41
数据仓库的粒度
双重粒度
指轻度综合数据和真实细节数据级(最低粒度级)
大部分的分析数据是针对被压缩的、存取效率高的轻 度粒度级数据进行的。 需要分析更低的细节数据时才访问最低粒度级数据。
2011-11-15
42
2011-11-15
43
数据仓库中的数据分割
数 据 仓 数 据 仓 库
数据
库 的源系统 体 或数据库中 系 到 结构
2011-11-15
29
数据仓库体系结构
2011-11-15
30
数据分级
Data Staging 提取,转化,净化,加载 数据仓库不直接存储事务数据,提取时必 须将事务数据进行转换成数据仓库的数据 结构和内部格式,为了保证数据的品质, 还要对数据进行净化,将净化后的数据加 载到数据仓库中。
2011-11-15
35
数据仓库数据库
是整个数据仓库环境的核心,是数据存放的 地方,提供对数据的支持和快速检索的支持 相对于操纵型数据库来说,其突出的特点是 对海量数据的支持和快速的检索技术。 包含
明细数据和汇总数据
2011-11-15
36
查询工具
查询工具通常包括一个用于向数据库提出问 题的最终用户接口,此接口位于联机分析处 理OLAP的程序中。
2011-11-15
21
数据驱动方法
数据源:连续的数据源 次序:自顶向下 优点:每一个阶段在技术上都很简单,只涉 及一个文件或数据库类型映射到数据仓库数 据库之中,每个附加数据源只有在其前面的 附加数据源处理完之后才添加。 缺点:数据资源不能利落地映射到商业查询 中。
2011-11-15 22
应用驱动方法
2011-11-15 54
2011-11-15
26
4、数据仓库的基本体系结构是怎样的? 数据仓库的基本体系结构是怎样的?
2011-11-15
27
2011-11-15
28
数据仓库基本体系结构
用户通过 SQL查询语 建立为决策支持服 不同源系统中的数 言、分析工 务的数据库,即数 据在加载到数据仓 具或数据挖 据仓库,它通常会 库之前需要被转换 掘工具访问 同时包括详细的和 和集成数据仓库 概括的数据
信息系统服务人员 最终用户支持人员 领导和管理人员 项目领导 项目经理
硬件 软件 2011-11-15
19
2.数据仓库的其他阶段 数据仓库的其他阶段
2011-11-15
20
数据仓库的系统分析
系统分析的目标是了解当前实际是如何工作的,以 使得系统的操作可在将来得到改善。 原型法 注意:不能与其所有可操作数据源相连,数据仍 然需要做数据净化、传送等工作 开发方法 数据驱动法 应用驱动法
用户需求分析 可行性研究 用户的认可 建设数据仓库的协调与阻力分析 开发项目计划制定 关键资源管理
2011-11-15
12
(1)用户需求分析内容 )
用户如何处理其事务 如何衡量用户的工作表现 用户需要什么属性(在信息方面) 应用于这些属性的业务层次结构是什么 用户现在使用什么数据,以及需要什么数据 用户需要什么水平的细节或汇总数据
数据源:来自几个操作系统的数据 次序:自顶向下 优点:在第一阶段就提供有用的信息 缺点:到达这一阶段要花费较长的时间、并 且需要的活动很多很复杂
2011-11-15
23
数据仓库系统设计
重点:设计数据仓库的元素,即数据库和数 据分析
如何选择数据库体系结构 按照哪种系统结构设计 如何安排数据库 定义数据如何使用所有的数据源都被映射传送到 数据仓库 描述数据仓库何时及时如何更新并回答程序员遇 到的无数多个”我该怎么办”
提取 清洗 集结地 操作型 系统
2011-11-15
加载与索引
转换 数据仓 库
32
拒绝数据的信息 有关拒绝数据的信息
元数据
元数据Metadata
“有关数据的数据” “数据仓库的元数据是要解决何人在何时何地为 了什么原因及怎样使用数据仓库的问题”。 可对 数据仓库中的各种数据进行详细的描述与说明, 说明每个数据的上下文关系,使每个数据具有符 合现实的真实含义,使最终用户了解这些数据之 间的关系。 作用: 通过元数据进行数据仓库的管理; 通过元数据来使用数据仓库。
简单堆积与轮转综合的比较
2011-11-15
50
简单直接文件组织
把数据从操作型环境拖入数据仓库环境中, 无任何累积,以较长时间为单位的 它是间隔一定时间的操作型数据的一个快照
2011-11-15
51
连续数据组织
依据两个或更多的简单直接文件快照进行合 并创建或追加的
2011-11-15
52
快照
20ห้องสมุดไป่ตู้1-11-15 34
元数据为访问数据仓库提供了一个信息目录 数据仓库中都有些什么数据 这些数据是怎么得到的 谁在管辖 怎么访问这些数据 其他更多的信息 可通过查询工具得知元数据的有关资料 元数据是数据仓库运行和维护的中心,数据仓库服 务器必须利用元数据来存储和更新数据,用户必须 通过元数据来了解和访问数据。
2011-11-15
47
简单堆积结构
从操作型环境中取出每天的事务数据 根据主题来综合成数据仓库记录
2011-11-15
48
轮转综合数据存储
只有在轮转综合文件中的数据才能被输入到不同的结构形式 中,而操作型数据到数据仓库环境中的数据处理方法简单的 堆积结构相同。
2011-11-15
方式:每天进行数据综合, 方式:每天进行数据综合,每 周累加, 周累加,月底将每周的数据加 到一起, 到一起,并放于第一个每月响 应的数据位置处, 应的数据位置处,然后每周数 据位置清零。到了年底, 据位置清零。到了年底,将每 月数据累加, 月数据累加,放入第一个年度 响应的数据位置处, 响应的数据位置处,然后每月 49 数据位置清零。 数据位置清零。
2011-11-15 24
数据仓库的测试
适用于顺序测试
确保对源文件提取记录及字段的正确性 证明传送和净化工作正常,对比元数据,检查数 据仓库内容以确保整个加载过程有效,可能要测 试有关已知谁的回答的分析。
增强维护,增强用户支持
2011-11-15
25
思考
查阅赛迪网,阅读和比较不同的数据仓库的 解决方案。明确数据驱动法与应用驱动法两 种方法在数据仓库实施中的不同表现。
2011-11-15 33
技术元数据:用于对数据仓库进行管理的元数据 是数据仓库的设计和管理人员用于数据仓库开发 和日常管理数据仓库时使用的元数据。它包括数 据源信息、数据转换的描述、数据仓库对象和数 据结构的定义、数据清理和数据更新时采用的规 则、源数据到目的数据的映射、用户访问权限、 数据备份历史纪录、数据导入历史纪录、信息发 布历史纪录等。 商业元数据:帮助使用数据仓库的元数据 从商业业务的角度描述了数据仓库中的数据。它 包括业务主题的描述,以及对所包含的数据、查 询、报表的描述,等等。
2011-11-15
9
数据仓库的生命周期CLDS 数据仓库的生命周期
CLDS数据驱动的开发生命周期(SDLC的逆序) 实现数据仓库 集成数据 检验偏差 针对数据编程 设计DSS系统 分析结果和 理解需求 参见P45图2.5
2011-11-15 10
2011-11-15
11
1.数据仓库计划与准备阶段 数据仓库计划与准备阶段
2011-11-15
13
2011-11-15
14
(2)可行性研究 )
三个重要分析 技术可行性 操作可行性 经济可行性
2011-11-15
15
(3)用户认可(User buy in) )用户认可( )
重要因素
用户大力支持不可少,其与上层的支持是不同的 不能完全改变决策方式,只能改变决策信息的获 取方法,改进用户获取信息的方法 数据仓库必须经常集成其中应用软件的数据,理 解用户的看法