数据仓库的数据获取与管理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常有些不规则的数据或数据关系让人摸不着头脑。
5?
一些有用的工具正在不断改进以促进 转换过程 ?
的自动化, 包括复杂问题 , 如隐藏的数据、传统标准
的缺乏及不统一的关键数据 。
?
提取数据是数据仓库成功的关键。在提取过程
3.1
中, 数据会被格式化 , 并分发给需要从操作环境中共
数 据
享数据的资源。元数据的工作是定义和解释数据资
个数据属性而不考虑该属性的背景或与它相关的其
他信息。
?
数
? 数据类型转换
据
变
最常见的简单变换是转换一个数据元的类型。
换 ?
当应用程序存储某个类型的数据只在该应用程序的 3.1
背景下有意义 , 在企业水平上却没有意义时 , 就常常 ?
要求进行这类变换。
这类转换可通过编码Leabharlann Baidu序中的简单程序逻辑
或者运用数据仓库数据变换工具完成。
期和时间格式之间迅速进行简单转换的设施 , 而在
手工编码上下的功夫要少得多。 ?
? 字段解码
11 ? ?
简单地说 , 数据一般不应该以编码的格式放在
数据仓库中。在业务数据库中建立代码是为了节省
数据库存储空间。虽然人不理解这些代码 , 但这并 ?
数
不是大问题 , 因为与那些代码的交互作用是由应用 据
?
⑶ 数据具有完整性和不冗余
7? ?
数据应该是完整的 , 对不同的需求 , 都能获得所
需要的数据。更新数据时不会由于多用户同时使用
数据而发生冲突和丢失。由于业务需要所出现的数
? 数
据冗余也应该尽量减少。
据 质
量
⑷ 数据是集成的和一致的
?
3.1
数据是从多个部门和多个平台集成而来。数
?
据的集成将减少冗余数据 , 保持数据的一致性 , 减少
Data Stage 等。
6?
? 数据质量
?
数据质量制约着决策用户能否制定正确的决策 ;
? 查数据质量的标准
?
⑴ 数据是准确的
数
据
数据必须保证它的准确性。 如姓名、地址对 质
量
营销部门必须正确。
?
3.1
⑵ 数据符合它的类型要求和取值要求
?
定义了字段类型后 , 所有记录都应该有类型 (如
字符型、实数型等 ) 。数据在该字段的取值应在指 定的范围内, 如性别只有 “男” 或 “女”。
接口处理等 , 实现数据共享。数据应该在形式逻辑
上与内容上是一致的。 ?
8?
⑸ 数据是及时的 ,遵循业务规则 ,满足业务要求 ?
对不同时间要求的数据 (如按月) 能按时提供 ,
达到及时性要求。数据要遵循业务规则 , 如贷款余
?
额不能是负数 。对不同部门均能提供所需的数据。 数
据
? 按数据质量标准净化和清洁数据
第3章 数据仓库的数据获取与管理
1? ?
1. 对数据仓库的数据组织有一文的认识 , 明确数 据仓库数据的抽取、集成过程握粒度、分割和 数据追加等概念。
教 2. 能够全面理解数据库体系化环境的概念。 学 3.
要
求
第3章 数据仓库的数据获取与管理
2? ?
教 学
3.1
数 据 获 取
1. 2. 3. 4. 5. 6. 数 数数 数 聚 装 据 据据 据 集 载 质 变清 集 和 数 量 换理 成 概 据
证数据从传统的存储到数据仓库存储的 同步策略。
数 据
同步策略应当把重点放在转换语言的标准化、
仓 库
数据移动平台、通信策略和支持策略方面。
的 数
数据仓库与操作数据存储器之间的同步过程能
据 获
够采取不同的结构。
取 ?
除寻找自动化转换工具之外 , 还应估计数据转换
的复杂性。大多数传统的数据存储方法缺乏标准 , 常
括
结 束
内
1. 概述
2.2
容
数 据
2. 脏数据的 产生和管理
管 3. 休数据眠
理 4. 原数据管理
1. 服务水平
2.3 系
2. 性能监督
统 3. 存储器管理
管 4. 网络管理
理 5. 安全管理
3?
3.1 数据仓库的数据获取
?
数据仓库中的数据是集成了各个异构信息源中
?
的数据形成的。而数据库中的数据真正要存储在数
?
? 日期/时间格式的转换
10 ? ?
因为大多数业务环境都有许多不同的日期和时
间类型 , 所以几乎每个数据仓库的实现都必须将日
期和时间变换成标准的仓库格式 , 这可以通过手工
? 数
程序编码来完成。
据 变
换
它能把一个日期或时间字段拆成几个子部分 , ?
然后再将它们拼成想要的字段。
3.1 ?
然而市场上的大多数据变换工具只提供了日
3.1
据仓库中, 还必须经过抽取、转换和装载的一个过程 ,
数 据
该过程即 ETL (Extraction, Transform Load) 过程。
仓 库
的
数据仓库中的数据来自于多种业务数据源 , 这
数 据
些数据源可能是在不同的硬件平台上 , 使用不同的操
获 取
作系统, 因而数据以不同的格式存在不同的数据库中。 ?
变
程序管理的。这些程序在必要的时候会成为破解那 换
?
些值的代码。
3.1
在数据仓库环境中 , 情况就大不一样了。因为 ?
用户可能来自公司的各部门 , 所以仓库的所有用户
不可能都有足够的背景知识和培训 , 使他们能够理
解在业务数据库中使用的编码值。
?
12 ?
因此, 业务系统和外部数据中的编码值在存入 ?
数据仓库之前 , 应该转换为经过解码的、易于理解
的相应值。
一方面, 我们想把编码值充分扩展 , 使它们为最 ?
大多数的用户理解;
数 据
变
另一方面 , 把一个值扩展得太多要占用额外的 换
如何向数据仓库中加载这些数量大、种类多的数据 ,
已成为建立数据仓库所面临的 一个关键问题 。
4?
在数据迁移的过程中 , 通常需要将操作 数据转 ?
换成另一种格式 , 以更加适用于数据仓库设计。在大
多数情况下, 转换是将数据汇总 , 以使它更有意义。
?
在转换过程中 , 确保能找出一种最好的方法以保 3.1
质 量
?
数据具有高质量时 , 它才是一种资产 , 错误的数 3.1
据会导致错误的决策。 例如, 地址的错误造成找不 ?
到顾客;向没有孩子的夫妇推荐学生用具 , 会造成
不好的影响 。数据在进入数据仓库前 , 必须按照数 据质量标准进行净化和清洁。
9?
? 数据变换
?
数据变换中最简单的形式是变换一次,改变一
仓 库
源和数据标准。因此 , 在操作数据上执行的转换过程
的 数
应该用元数据中定义的标准数据格式放置数据。
据 获
经过一段时间的发展 , 人们最终认识到 ETL 工具的
取 ?
重要性, 于是相关的 ETL 工具也纷纷出台 , 其中比较
著名的是 IBM 的 Visual Warehouse, Ardent 公司的