第2章数据仓库的数据存储与处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
等数据集成工作
第2章数据仓库的数据存储与处理
2.3.1 ETL的目标
ETL过程的目标:为决策支持应用提供一个单一的、 权威的数据源。
数据具有的特点:
详细的 历史的 规范化的
可以理解的 即时的 质量可控制的
第2章数据仓库的数据存储与处理
2.3.1 ETL的目标
操作性数据的特点:
即时的,而非历史的 规范程度不一,依赖于数据来源 限制在特定的应用范围 质量较差,例如不一致等
周期数据不仅保留当前的最新数据,而且保留历史 数据。作为每条记录,都有一个日期时间戳表示其发 生日期。如下表。
简化的销售日报表(周期数据类型)
商品编号 商品名称 A001 A品牌方便面 B002 B品牌衣服
日销售量 15 50
销售日期 2008-7-25 2008-7-25
1天后简化简化的销售日报表(周期数据类型)
缺点:复杂的信息过滤和集成处理,竞争资源
数据仓库-更新驱动
将来自多个异种源的信息预先集成,并存储在数据仓库中, 供直接查询和分析
高性能
11
第2章数据仓库的数据存储与处理
传统的异种数据库集成:
转换/集成 查询



子结果/子查询 .......


数据仓库: 更新驱动
Biblioteka Baidu
查询
查询
数据归集



.......
源文件或者源数据库 协调 数据仓库
第2章数据仓库的数据存储与处理
2.3.3数据清洗(Scrub/Cleaning)
定义:使用模式识别和其他技术将原始数据转换和移到数据 仓库之前来升级原始数据质量的技术。
为数据解码 重新格式化、改变数据类型 增加时间戳
度量单位转换 为表的每一行产生主码 找到缺失数据
用箱平均值平滑 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29
用箱边界平滑 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34
第2章数据仓库的数据存储与处理
如何处理噪声数据(续)
2、聚类 将联系松散的数据当作孤立点,监测并且去除
孤立点。聚类集合之外的点即为孤立点。
金额 帐户余额
7000 193000(S1) 5000 143000 (S2)
第2章数据仓库的数据存储与处理
2.2.2 、当前数据与周期数据
当前数据只保留当前的最新数据,现存的最新记录
将改变以前记录中的内容;即历史数据将被破坏。如
下表。
简化的库存表(当前数据类型)
商品编号 商品名称 A001 A品牌方便面 B002 B品牌衣服
1)空缺值

数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值。
第2章数据仓库的数据存储与处理
2.3.3数据清洗(Scrub/Cleaning)
1)空缺值(续)
引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据因为得不到重视而没有被输入 对数据的改变没有进行日志记载(不能恢复)
空缺值要经过推断而补上
19
第2章数据仓库的数据存储与处理
如何处理空缺值
忽略元组:假定挖掘任务设计为分类或描述时,缺少类标号 的元组通常被忽略。元组中属性缺少值比较多时,挖掘算法 的效果非常差。
人工填写空缺值:工作量大,可行性低 使用一个全局常量填充空缺值:比如使用unknown或-∞ 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值:使用Bayesian公式或判定树等
现有库存量 更新日期
100
2008-7-25
200
2008-7-25
1天后简化的库存表(当前数据类型)
商品编号 商品名称
现有库存量 更新日期
A001 B002 C003
A品牌方便面 85
B品牌衣服
210
C品牌矿泉水 300
2008-7-26 2008-7-26 2008-7-26
第2章数据仓库的数据存储与处理
技术元数据
数据仓库结构的描述。如仓库模式、视图、维、层次结 构、导出数据的定义,以及数据集市的位置和内容 业务系统、数据仓库和数据集市的体系结构和模式 汇总用的算法 由操作环境到数据仓库的映射
第2章数据仓库的数据存储与处理
业务元数据
从业务角度描述数据仓库的数据
操作元数据:包括数据血统(data lineage,即数 据来源)、数据类别(currency of data),对象名, 属性名等
第2章数据仓库的数据存储与处理
数据平滑的分箱方法
price的排序后数据:4,8,15,21,21,24,25,28,34
划分为(等深的)箱 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34
平均值平滑-箱中每个值被平均值替 换 中值平滑-箱中每个值被中值(排序 后出现次数最多的值)替换 边界平滑-最小最大值视为边界,箱 中每个值被靠近的边界值替换
数据
源数据 元数据
第2章数据仓库的数据存储与处理
操作型 (元)数据
数据仓库 数据集市 (元)数据 (元)数据
other
sources
Metadata
Monitor &
Integrator
Operational
DBs
Extract Transform Load Refresh
Data Warehouse
商品编号 商品名称
A001 B002 C003 A001
A品牌方便面 B品牌衣服 C品牌矿泉水 A品牌方便面
日销售量 销售日期
15
2008-7-25
50
2008-7-25
30
2008-7-26
25
2008-7-26
第2章数据仓库的数据存储与处理
2.2.3 数据仓库中的元数据
元数据就是定义数据的数据,也就是说明数据仓库对象的数 据.可以分成技术元数据与业务元数据。
第2章数据仓库的数据存储与处理
第2章数据仓库的数据存 储与处理
2020/11/25
第2章数据仓库的数据存储与处理
主要内容
2.1 数据仓库的三层数据结构 2.2 数据仓库的数据特征 2.3 数据仓库的数据ETL过程 2.4 多维数据模型
第2章数据仓库的数据存储与处理
2.1 数据仓库的三层数据结构
数据集市 中的数据
数据仓库 中的数据
第2章数据仓库的数据存储与处理
数据变换——规范化
※ 最小-最大规范化:对原始数据进行线性变换,使得数据 落在new_ maxA,new_minA区间内。
maxA,minA :属性A的最大与最小值 new_ maxA,new_minA:属性A变换后区间的最大与最小
值 例:(一般映射到[0,1]区间)工资在700~12000之间, 则工资7830规范化后为:
V’=(7830-700)/(12000-700)*(1-0)+0=0.7430
第2章数据仓库的数据存储与处理
数据变换——规范化
※ z-score规范化:基于属性A的平均值和标准差规范化。
※ 小数定标规范化:通过移动属性A的小数点位置进行规 范化。
其中j是使得max(|v‘|)<1的最小整数。
33
第2章数据仓库的数据存储与处理
如何处理噪声数据(续)
3、回归 通过让数据适应回归函数来平滑数据(线性回
归或多线性回归)。
y
Y1
Y1’
y=x+1
X1
x
25
第2章数据仓库的数据存储与处理
如何处理噪声数据(续)
4、计算机和人工检查结合 计算机检测可疑数据,然后对它们进行人工判
断。
26
第2章数据仓库的数据存储与处理
OLAP Server
Analysis
Serve
Query Reports
Data mining
数据源
Data Marts
数据仓库服务器
OLAP服务器 前端工具 第2章数据仓库的数据存储与处理
2.2 数据仓库的数据特征
2.2.1、状态数据与事件数据
描述对象的状态即为状态数据,描述对象发生的事件即为事 件数据,两者关系为: 状态数据事件数据状态数据
例如:银行取款事件K 帐户A余额S1 银行取款事件K 帐户A余额S2
上述数据(含状态数据和事件数据)均可以存储在数据库中。如:
事件数据: 日期 2010.2.20
帐户 取款标示 取款金额
43472
1
50000
状态数据: 帐户
43472 43472
日期
存/取
………
2010.1.25 存款
2010.2.20 取款


12
第2章数据仓库的数据存储与处理
2.3 数据仓库的数据ETL过程
ETL概念
数据ETL是用来实现异构数据源的数据集成,即 完成数据的如下工作:
抓取/抽取(Capture/Extract) 清洗(Scrub or data cleansing) 转换(Transform) 装载与索引(Load and Index)
访问数据的原则和数据的来源 商务元数据:商务术语和定义、数据拥有者信息 系统所提供的分析方法和公式、报表等信息
第2章数据仓库的数据存储与处理
Table
表2-3 元数据举例
逻辑名 定义
学生姓名 学校的主要成员,主要进行学习任务
物理存储 建立日期 最后更新日期 更新周期 表逻辑程序名
Student.table(数据库表) 2006年9月13日 2007年9月13日 每月
如:工资、基本工资、加班工资 28 第2章数据仓库的数据存储与处理
相关分析:讨论两个属性的相关性。
RA,B =
Σ[(A-A平)(B-B平)] (n-1) σA σB
其中A平、B平分别是A、B的平均值;σA 、σB分别 是A、B的标准差。
A平= ΣA/n σA= SQRT[Σ(A- A平)2/(n-1)]
第2章数据仓库的数据存储与处理
2)数据变换
平滑:去除数据中的噪声。如分箱、聚类、回归。 聚集:对数据进行聚集和汇总,数据立方体的构建。 数据概化:沿概念分层向上汇总。 规范化:将数据按比例缩放,使之落入一个小的特定区间。
最小-最大规范化 z-score规范化 小数定标规范化 属性构造 通过现有属性构造新的属性,并添加到属性集中。
第2章数据仓库的数据存储与处理
2.3.2数据的ETL过程描述
第2章数据仓库的数据存储与处理
2.3.3数据抽取(Capture/Extract)
定义:从源文件或者源数据库获取相关数据用于填充数 据仓库,称为数据抽取。
静态抽取 增量抽取 注意事项: 数据命名的透明度 业务规则的完整性与准确性数据 数据格式:跨数据源的统一数据格式 可以使用SELECT FROM ...... INTO ......语句实现
基于推断的方法确定。
第2章数据仓库的数据存储与处理
2)噪声数据
噪声:一个测量变量中的随机错误或偏差。 引起不正确属性值的原因:
数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致
第2章数据仓库的数据存储与处理
处理噪声数据方法
1、分箱(binning) 先排序数据,并将他们分到等深(宽)的箱中 然后对每箱使用平均值平滑、中值平滑和边界平 滑等方法
2.3.4数据转换(Transform)
定义:将数据从源操作型业务系统的格式转换到企业数据 仓 库的数据格式。 两种类型的数据转换
记录级-选择、连接、规范化和聚集 字段级-单字段和多字段
单字段转换的基本方法:算法和查找表
注意:连接的复杂性。 1)不是关系情形 2)不同域情形 3)源数据有错误情形
第2章数据仓库的数据存储与处理
STUDENT(程序名称)
第2章数据仓库的数据存储与处理
2.3 数据仓库的数据ETL过程
传统的异种数据库集成-查询驱动
在多个异种数据库上建立包装程序(wrappers)和中介程序 (mediators )
查询驱动方法——当从客户端传过来一个查询时,首先使用 元数据字典将查询转换成相应异种数据库上的查询;然后,将 这些查询映射和发送到局部查询处理器;局部查询集成为全局 回答。
如果RA ,B 〉0,则A和B是正相关的;该值越大, 则A涵盖B的可能性越大。
如果A,B相关性大,分析时就可以删除其中 一个。
第2章数据仓库的数据存储与处理
1)数据集成(续)
○ 检测并解决数据值的冲突 不同的数据表示,不同的度量等等。 例如: 对现实世界中的同一实体,来自不同数据源的属性 值可能是不同的(如价格的单位:元、千元)。
2.3.4数据转换(Transform)
1)数据集成
数据集成:将多个数据源中的数据整合到一个一致的数据存 储(如数据仓库)中。
○ 模式集成-实体识别问题 匹配来自不同数据源的现实世界的实体,比如:
A.cust-id=B.customer_no? ○冗余问题
同一属性在不同的数据库中会有不同的字段名;一个 属性可以由另外的属性导出,即两个属性是相关的。
相关文档
最新文档