数据仓库中的数据及组织

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2020/8/17
21
3.3.1 元数据的定义(续)
❖ 与元数据产生、存储有关的工具: ➢ 数据抽取工具:完成ETL操作。 ➢ 前端展现工具:实现把关系表映射成与业务相关的
事实表和维表来支持多维业务视图,进行多维分析。 ➢ 建模工具:提供更高层次的、与特定业务相关的语
义。 ➢ 元数据存储工具:用于将元数据存储在专门的数据
2020/8/17
16
ቤተ መጻሕፍቲ ባይዱ
3. 前后快照文件的方法
❖ 在上次抽取数据库数据到数据仓库之后及本次将抽 取数据库数据之前,对数据库分别做一次快照,然 后比较两幅快照的不同。
➢ 缺点:需要占用大量资源,影响系统性能。
2020/8/17
17
4. 日志文件
❖ 优点:提取的变化数据只局限于日志文件,不需扫 描整个数据库。
库中。
2020/8/17
22
3.3.2 元数据的分类
❖ 元数据可以按多种方式分类: ➢ 按用户分类 ➢ 按来源的正式程度分类 ➢ 按功能分类
2020/8/17
23
1. 按使用元数据的用户分类
❖ 按使用元数据的用户分类:
常用途径:
2020/8/17
14
1. 时标法
❖ 如果数据含有时标,对新插入或更新的数据记录, 在记录中加更新时的时标。
❖ 如果数据部含有时标,需要对源数据库的数据模式 加以修改,加上时标字段。
2020/8/17
15
2. DELTA文件
❖ 由应用生成的文件,用来记录应用所改变的数据内 容。
➢ 优点:效率较高,避免了扫描整个数据库。 ➢ 缺点:需要修改程序代码。
2020/8/17
18
3.3 数据仓库中的元数据
❖ 传统数据库中为了说明数据引入了数据字典的概念。 ❖ 数据字典是描述数据的数据。
什么是元数据?
2020/8/17
19
3.3.1 元数据的定义
❖ 元数据:是用来描述数据的数据。它描述和定位数 据组件、它们的来源及它们在数据仓库进程中的活
动;关于数据和操作的相关描述(输入、计算和输 出)。元数据可用文件存在元数据库中。
❖ 其主要目标是提供数据资源的全面指南,使得数据 仓库管理员和开发人员可以方便地了解数据仓库中
有什么数据?数据在什么地方?它们来源于哪里,
以及数据仓库系统中是如何利用这些数据?如何管
理这些数据?
2020/8/17
20
3.3.1 元数据的定义(续)
❖ 要有效的管理数据仓库,必须设计一个描述能力强、 内容完善的元数据。
❖ 老化的数据进入早期细节级。
2020/8/17
5
3.1 数据仓库中的数据组织(续)
❖ 数据组织的实例
高度综合级 轻度综合级 当前细节级
早期细节级 后备数据 后备数据 后备数据
2011~2013每“月”
电话呼叫情况信息 数 2011~2013每“天” 据 电话呼叫情况信息 仓 2011~2013每个电 库 话呼叫情况信息 层
健康保险 分片1 分片4 分片7
生命保险 分片2 分片5 分片8
事故保险 分片3 分片6 分片9
2020/8/17
13
3.2 数据仓库中数据的追加
如何定期向数据仓库中追加数据也是一项十分重 要的技术。
当数据仓库的数据初装完成以后,再向数据仓库 输入(导入)数据的过程称为数据追加。
如何能够确切地感知究竟哪些数据是在上一次追 加过程以后新生成的,这项工作称为变化数据的捕捉。
数据仓库与数据挖掘
Data Warehouse and Data Mining
五邑大学计算机学院
何国辉
2020/8/17
1
数据仓库与数据挖掘
Data Warehouse and Data Mining
第三章 数据仓库中的数据及组织
2020/8/17
2
3.1 数据仓库中的数据组织
❖ 数据仓库中存储两类数据:业务数据和元数据。 ❖ 业务数据,分为: ➢ 细节数据 ➢ 综合数据
这种类型的分割有助于把一大堆列分成两个独立的 表,这两个表之间通过一个关键字段相关联。 ➢ 水平分割:水平分割就是把表按行分成两部分。这 种类型的分割被用来存储与用户联系紧密的本地重 要数据,从而减少网络查询。
2020/8/17
12
2. 数据分割(续)
❖ 一个简单的分割例子。
年份 2008 2009 2010
2020/8/17
7
1. 数据粒度(续)
❖ 不同的情况组织数据的粒度会不同。 如: ❖ 电信通话 ➢ 细节数据:记录每一次通话情况。 ➢ 轻度综合数据:记录顾客每天的通话情况。 ➢ 高度综合数据:记录顾客每月的通话情况。
2020/8/17
8
1. 数据粒度(续)
❖ 超市购物 ➢ 细节数据:记录顾客每一次购物细节。 ➢ 轻度综合数据:记录每个顾客每次的购物金额,或
有关元数据在本章稍后再述
2020/8/17
3
3.1 数据仓库中的数据组织(续)
❖ 数据仓库中存储的数据
元 数 据
2020/8/17
高度综合级
后备数据 后备数据 后备数据
轻度综合级 当前细节级 早期细节级
4
3.1 数据仓库中的数据组织(续)
❖ 源数据经过抽取、转换后,首先进入当前细节级, 再根据具体需要进行进一步的综合,从而进入轻度 综合级乃至高度综合级。
2000~2010电话呼 叫明细情况信息
2020/8/17
6
1. 数据粒度
❖ 数据粒度是数据仓库的重要概念。存在两种形式, 之一: ➢ 粒度是对数据仓库中数据的综合程度高低的一个度
量。 ➢ 粒度越小,细节程度越高,综合程度越低。 ➢ 在数据仓库中多重粒度是必不可少的。 之二: ➢ 样本数据库,其粒度是根据采样率的高低来划分的。
别独立处理,提高数据分析效率。 ❖ 数据分割后的数据单元称为分片。 ❖ 数据分割的标准可以根据实际情况来确定,通常选
择:按日期、地域、业务领域等来进行。 ❖ 一般而言,分割标准总应包括日期项,它十分自然
而且分割均匀。
2020/8/17
11
2. 数据分割(续)
❖ 数据分割的方法 ➢ 垂直分割:垂直分割就是把一个表垂直分成两部分。
每种商品每一天的销售数据。 ➢ 高度综合数据:记录每个顾客每月或每年的购物金
额,或每种商品每月或每年的销售数据。
2020/8/17
9
1. 数据粒度(续)
❖ 数据粒度与数据量的关系 ❖ 数据粒度与查询种类的关系
2020/8/17
10
2. 数据分割
❖ 数据分割是数据仓库中的另一个重要概念。 ❖ 它是指将数据分布到各自的物理单元中,以便能分
相关文档
最新文档