数据仓库中的数据及组织资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与数据挖掘
Data Warehouse and Data Mining
五邑大学计算机学院
何国辉
2018/7/31
1
数据仓库与数据挖掘
Data Warehouse and Data Mining
第三章
2018/7/31
数据仓库中的数据及组织
2
3.1 数据仓库中的数据组织
数据仓库中存储两类数据:业务数据和元数据。 业务数据,分为: 细节数据 综合数据
超市购物 细节数据:记录顾客每一次购物细节。
轻度综合数据:记录每个顾客每次的购物金额,或
每种商品每一天的销售数据。 高度综合数据:记录每个顾客每月或每年的购物金 额,或每种商品每月或每年的销售数据。
2018/7/31
9
1. 数据粒度(续)
数据粒度与数据量的关系 数据粒度与查询种类的关系
综合级乃至高度综合级。
老化的数据进入早期细节级。
2018/7/31
5
3.1 数据仓库中的数据组织(续)
数据组织的实例
2011~2013每“月” 电话呼叫情况信息
高度综合级
轻度综合级
2011~2013每“天” 电话呼叫情况信息
2011~2013每个电 话呼叫情况信息
当前细节级 早期细节级
数 据 仓 库 层
仓库管理员和开发人员可以方便地了解数据仓库中
有什么数据?数据在什么地方?它们来源于哪里, 以及数据仓库系统中是如何利用这些数据?如何管
2018/7/31
理这些数据?
20
3.3.1 元数据的定义(续)
要有效的管理数据仓库,必须设计一个描述能力强、 内容完善的元数据。
2018/7/31
21
3.3.1 元数据的定义(续)
2018/7/31 24
2. 按来源的正式程度分类
按来源的正式程度分类: 正式元数据:是指经过认真讨论并由企业决策者同
意了的元数据。
非正式元数据:通常是指由公司的政策、指导方针 和常识组成的,人所皆知的信息。
2018/7/31
25
3. 按功能分类
按功能分类: 数据源元数据 ETL规则元数据 ODS元数据和DW元数据 报表元数据
MDC)和OMG组织的相关元数据标准。
2018/7/31 27
1. MDC的OIM标准
背景 MDC成立于1995年。 致力于建立于厂商无关、不依赖于具体技术的企业 元数据管理标准的非营利技术联盟。有150多个会 员。
提出了开放信息模型(Open Information Model, OIM)。
后备数据 后备数据 后备数据
2000~2010电话呼 叫明细情况信息
2018/7/31
6
1. 数据粒度
数据粒度是数据仓库的重要概念。存在两种形式, 之一:
粒度是对数据仓库中数据的综合程度高低的一个度
量。 粒度越小,细节程度越高,综合程度越低。 在数据仓库中多重粒度是必不可少的。 之二:
与数据仓库、商业工程、知识管理等5个领域。 目前MDC与OMG组织已经合并,今后所有的工具 都将遵循统一的CWM标准。
2018/7/31
32
下课了。。。
休息一会儿。。。
2018/7/31
33
2018/7/31
10
2. 数据分割
数据分割是数据仓库中的另一个重要概念。 它是指将数据分布到各自的物理单元中,以便能分
别独立处理,提高数据分析效率。
数据分割后的数据单元称为分片。 数据分割的标准可以根据实际情况来确定,通常选 择:按日期、地域、业务领域等来进行。 一般而言,分割标准总应包括日期项,它十分自然
1999年7月接受微软的建议,将OIM作为元数据标 准。
2018/7/31 28
1. MDC的OIM标准(续)
OIM标准的目的 通过公共的元数据信息来支持不同工具和系统之
间数据的共享和重用。
它涉及信息系统的各个阶段。 采用UML描述。
2018/7/31
29
2. OMG组织的CWM标准
加过程以后新生成的,这项工作称为变化数据的捕捉。
常用途径:
2018/7/31
14
1. 时标法
如果数据含有时标,对新插入或更新的数据记录, 在记录中加更新时的时标。 如果数据部含有时标,需要对源数据库的数据模式 加以修改,加上时标字段。
2018/7/31
15
2. DELTA文件
由应用生成的文件,用来记录应用所改变的数据内 容。 优点:效率较高,避免了扫描整个数据库。 缺点:需要修改程序代码。
与元数据产生、存储有关的工具: 数据抽取工具:完成ETL操作。 前端展现工具:实现把关系表映射成与业务相关的 事实表和维表来支持多维业务视图,进行多维分析。 建模工具:提供更高层次的、与特定业务相关的语 义。 元数据存储工具:用于将元数据存储在专门的数据 库中。
2018/7/31 22
接口数据文件格式元数据
商业元数据
2018/7/31
26
3.3.3 元数据管理的标准化
元数据在数据仓库系统中占有十分重要的地位,但 是目前工业界的各种数据仓库管理和分析工具却常
常使用不同的元数据标准,使得元数据管理、不同
系统之间的迁移、数据交换变得困难。 迫切需要建立一种统一的标准,使得不同数据仓库 和商务智能系统之间可以相互交换元数据。 从而产生了基于元数据联盟(Meta Data Coalition,
样本数据库,其粒度是根据采样率的高低来划分的。
2018/7/31 7
1. 数据粒度(续)
不同的情况组织数据的粒度会不同。 如:
电信通话
细节数据:记录每一次通话情况。 轻度综合数据:记录顾客每天的通话情况。 高度综合数据:记录顾客每月的通话情况。
2018/7/31
8
1. 数据粒度(续)
有关元数据在本章稍后再述
2018/7/31
3
3.1 数据仓库中的数据组织(续)
数据仓库中存储的数据
高度综合级
元 数 据
轻度综合级
当前细节级
后备数据 后备数据 后备数据
早期细节级
2018/7/31
4
Байду номын сангаас
3.1 数据仓库中的数据组织(续)
源数据经过抽取、转换后,首先进入当前细节级, 再根据具体需要进行进一步的综合,从而进入轻度
而且分割均匀。
2018/7/31 11
2. 数据分割(续)
数据分割的方法 垂直分割:垂直分割就是把一个表垂直分成两部分。 这种类型的分割有助于把一大堆列分成两个独立的 表,这两个表之间通过一个关键字段相关联。 水平分割:水平分割就是把表按行分成两部分。这 种类型的分割被用来存储与用户联系紧密的本地重 要数据,从而减少网络查询。
2018/7/31 30
2. OMG组织的CWM标准(续)
CWM标准的目的 异构环境下,帮助不同的数据仓库工具、平台和元
数据知识库进行元数据交换。
2018/7/31
31
3. CWM标准与OIM标准之间的关系
CWM专门为数据仓库元数据而制定的一套标准, 只限于数据仓库领域。
OIM包括:分析与设计模型、对象与组件、数据库
2018/7/31
18
3.3 数据仓库中的元数据
传统数据库中为了说明数据引入了数据字典的概念。 数据字典是描述数据的数据。
什么是元数据?
2018/7/31
19
3.3.1 元数据的定义
元数据:是用来描述数据的数据。它描述和定位数 据组件、它们的来源及它们在数据仓库进程中的活 动;关于数据和操作的相关描述(输入、计算和输 出)。元数据可用文件存在元数据库中。 其主要目标是提供数据资源的全面指南,使得数据
2018/7/31
16
3. 前后快照文件的方法
在上次抽取数据库数据到数据仓库之后及本次将抽 取数据库数据之前,对数据库分别做一次快照,然 后比较两幅快照的不同。 缺点:需要占用大量资源,影响系统性能。
2018/7/31
17
4. 日志文件
优点:提取的变化数据只局限于日志文件,不需扫 描整个数据库。
2018/7/31
12
2. 数据分割(续)
一个简单的分割例子。
年份 2008 2009
健康保险 分片1 分片4
生命保险 分片2 分片5
事故保险 分片3 分片6
2010
分片7
分片8
分片9
2018/7/31
13
3.2 数据仓库中数据的追加
如何定期向数据仓库中追加数据也是一项十分重 要的技术。 当数据仓库的数据初装完成以后,再向数据仓库 输入(导入)数据的过程称为数据追加。 如何能够确切地感知究竟哪些数据是在上一次追
3.3.2 元数据的分类
元数据可以按多种方式分类: 按用户分类 按来源的正式程度分类 按功能分类
2018/7/31
23
1. 按使用元数据的用户分类
按使用元数据的用户分类: 技术元数据:是关于数据仓库系统技术细节的描述 数据,是数据仓库开发人员和管理人员需要使用的 重要信息。主要包括数据仓库结构的描述等,主要 用户是技术人员。 业务元数据:从业务角度描述数据仓库中的数据, 它提供了介于使用者和实际系统之间的语义层定义, 使得不懂计算机技术的业务人员也能够理解数据仓 库中的数据。主要用户是商务人员。
背景 对象管理组织(英文Object Management Group,
缩写为OMG),是一个国际协会,开始的目的是
为分布式面向对象系统建立标准,现在致力于建立 对程序、系统 和 业务流程的建模标准,以及基于
模型的标准。
有500多个会员。 提出了公共仓库元模型(Common Warehouse Metamodel,CWM)。
相关文档
最新文档