数据仓库及ETL介绍

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Current_St Historical_S
ate
tate
NY
CA
NY
IL
NY
NY
Start_Date
01-Jan2000
22-Dec2004
04-Feb2008
End_Date
21-Dec2004
03-Feb2008
31-Dec2009
Current_ Flag N
N
Y
2020/2/24 Inspur group
3
1、数据仓库
数据仓库是一个: ➢ 面向主题的(Subject Oriented) ➢ 集成的(Integrate) ➢ 相对稳定的(Non-Volatile) ➢ 反映历史变化(Time Variant) 的数据集合
4
1、数据仓库的特点
➢ 面向主题的(Subject Oriented)
数据是面向应用程序事务的,而数据仓库中数据的是按商业主题存放 的,商业主题会随着企业的不同而不同。
2020/2/24 Inspur group
14
缓慢变化维
original
Supplier_Key 123
Supplier_Code ABC
Supplier_Name Supplier_State Acme Supply Co CA
Now
Supplier_Key 123
Supplier_Code ABC
Supplier_Name Acme Supply Co
Supplier_State IL
2020/2/24 Inspur group
15
缓慢变化维处理方式
Type 0: retain original
Type 1: overwrite
Type 2: add new row
Type 3: add new attribute
124
ABC
Acme & Johnson Supply Co
IL
2020/2/24 Inspur group
18
Type 6
Supplier_K Supplier_Co
ey
de
123
ABC
124
ABC
125
ABC
Supplier_Na me
Acme Supply Co
Acme Supply Co
Acme Supply Co
7
主题与主题域
2020/2/24 Inspur group
8
维度建模
维度建模:
其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。
维度表:
维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事 实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数 据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特 性的层次结构。
单击此处编辑母版标题样式
单击此处数编据辑仓母版库文及本样E式TL介绍
2020/2/24 Inspur group
1
目录
基础概念 ETL系统介绍 Informatica 组件详解 Informatica KB介绍
2
1、数据仓库
数据仓库是一个: ➢ 面向主题的(Subject Oriented) ➢ 集成的(Integrate) ➢ 相对稳定的(Non-Volatile) ➢ 反映历史变化(Time Variant) 的数据集合
6
主题与主题域
主题与主题域:
财务: 资金筹集、资金配置、资本结构、现金创造、现金管理 资产质量、盈利能力、债务风险、成本、费用、差旅 人力资源: 人员、薪酬、职位、员工关怀、人员流动、技能提升 资产:固定资产、资产使用、资产维护、折旧、残值 经营分析: 流量、生产保障、精细化管理、运营效率、设施效率
建模四步骤:
2020/2/24 Inspur group
21
总线架构
2020/2/24 Inspur group
22
数据仓库架构
2020/2/24 Inspur group
23
快速判断数据仓库水平
➢ 有没有带缓慢变化维度一致性维度 ➢ 有没有跨层取数的现象
2020/2/24 Inspur group
2020/2/24 Inspur group
13
星形模型缺点
Benefits:
Simpler queries Simplified business reporting logic Query performance gains Expansibility
Disadvantages
redundancy data Harder Complex Queries
34
管理ETL环境
➢子系统34--元数据知识库管理器
技术元数据 业务元数据 运行元数据
35
Informatica整体架构
36
36
两个服务器端和五个客户端组件
服务器端
Repository Server Informatca Server
客户端
Repository Manager Designer Workflow Manager Workflow Monitor Repository Server Administration Console
30
数据的清洗和一致化
子系统7--重复数据删除系统 子系统8--一致化系统 子系统9--向呈现层交付数据 子系统9--缓慢变化维管理器 子系统10--代理键生成器 子系统11--层次管理器
2020/2/24 Inspur group
31
数据的清洗和一致化
子系统12--专用维度管理器
➢ 日期/时间维 ➢ 杂项维 ➢ 微型维(视图维度) ➢ 小型静态维 ➢ 用户维护的维度
24
ETL 34个子系统
抽取
在ETL环境中从源系统收集原始数据并且在任何对数据的重要重构发生之前都将数据 写入磁盘。子系统1到子系统3都支持抽取过程。
清洗和一致化
通过ETL系统中的一系列处理步骤发送源数据,这些步骤提高了从源系统接收数据的 质量,并且对两个或多个源系统中的数据进行了合并,创建并强化了一致性维度和 一致性度量。子系统4到子系统8描述了支持清洗和一致化过程所需的架构。
➢ 审计列 ➢ 定时抽取 ➢ 完全差异比较 ➢ 数据库日志刮取 ➢ 消息队列监视
27
27
抽取
子系统3--抽取系统
➢ 文件 ➢ FTP ➢ WEB SERVICE ➢ 数据库 ➢ 接口
28
28
数据的清洗和一致化
子系统4--数据清洗系统
➢ 对数据质量问题的早期诊断和鉴别分类:
完整性、一致性、准确性、及时性
25
ETL 34个子系统
提交
从物理上将数据组织和装载到呈现服务器的目标维度模型中。子系统 9到子系统21提供了若干种将数据提交到服务器上的功能。
管理
用一致的方式来管理ETL环境中的相关系统和过程。子系统22到子系 统34都描述了支持ETL系统现行管理所需的组件。
26
抽取
子系统1--数据探查
子系统2--变化数据捕捉系统
19
代理主键
代理主键:
维度建模理论中,维表里使用原业务中的主键作为主键就是业务 键(Business Key);建立新的主键就是代理键(Surrogate Key)
为什么使用代理主键:
性能 主键重复
2020/2/24 Inspur group
20
一致性维度
一致性维度:
当不同的维度表的属性具有相同列名和领域内容时,称 维度表具有一致性。利用一致性维度属性与每个事实表关联, 可将来自不同事实表的信息合并到同一报表中。
➢ 让源系统和集成工作提供更优质的数据 ➢ 具有为ETL过程中遇到的数据错误提供特定描述的功能 ➢ 具有能够随着时间推移捕捉所有数据质量错误和度量数据质量的框架 ➢ 对最终数据的质量可信度进行度量的附加功能
29
数据的清洗和一致化
子系统5--错误事件模式 子系统6--审计维装配器
2020/2/24 Inspur group
监控workflow和session,生成工作日志及报告。 Repository Server Administration Console
Repository的建立与维护
38
38
INFA安装配置
依赖:Oracle DB2 或SQL SERVER的DBA权限 安装配置过程:
• 点击Server软件包 setup.exe 完成安装 • 登录控制台创建RS,IS,把RS由独占模式改为普通模式 • 点击Client软件包setup.exe • 配置连接信息,连接到服务器端
事实表:
在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。
2020/2/24 Inspur group
9
维度建模
简单的说: 1、事实表就是你要关注的内容; 2、维表就是你观察该事务的角度,是从哪个角度去观察这个内容的。
2020/2/24 Inspur group
10
星形模型与雪花模型
Type 4: add history table
Type 6: hybrid
2020/2/24 Inspur group
16
Type 2 & TYPE 3
Supplier_Ke Supplier_Co Supplier_N
y
de
ame
Supplier_St ate
ห้องสมุดไป่ตู้
Start_Date
End_Date
子系统13--事实表构建器
➢ 事务处理粒度事实表装载器
➢ 周期快照事实表装载器
➢ 累积快照事实表装载器
2020/2/24 Inspur group
32
数据的清洗和一致化
子系统14--代理键管道 子系统15--多值维度桥接表构建器 子系统16--延迟到达数据处理器 子系统17--维度管理系统 子系统18--事实提供系统 子系统19--聚集构建器 子系统20--OLAP多维数据集构建器 子系统21--数据传播管理器
37
37
五个客户端组件的作用
Repository Manager 元数据资料库,依赖分析,安全性管理等。 Designer 定义源和目标数据结构,设计转换规则,生成ETL映射。 Workflow Manager 合理地实现复杂的ETL工作流,基于时间或事件的作业调 度。 Workflow Monitor
ate
NULL
Current_Supplier_State
123
ABC
Acme Supply Co
CA
22-Dec2004
IL
2020/2/24 Inspur group
17
Type 4: add history table
Supplier_key
Supplier_Code
Supplier_Nam e
123
ABC
Acme Supply Co
CA
01-Jan2000
21-Dec2004
124
Supplier_ Key
ABC
Supplier_C ode
Acme Supply Co
IL
Supplier_Na Original_Supplier
me
_State
22-Dec-
2004
Effective_D
2020/2/24 Inspur group
33
管理ETL环境
➢ 子系统22--作业调度器 ➢ 子系统23--备份系统 ➢ 子系统24--恢复和重启系统 ➢ 子系统25--版本控制系统 ➢ 子系统26--版本迁移系统 ➢ 子系统27--工作流监视器 ➢ 子系统28--排序系统? ➢ 子系统29--沿袭和依赖分析器 ➢ 子系统30--问题自动调整系统 ➢ 子系统31--并行/管道系统 ➢ 子系统32--安全系统 ➢ 子系统33--合规性管理器
➢ 反映历史变化(Time Variant)
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某
一时点到目前的各个阶段的信。
5
主题与主题域
主题
面向主题的数据组织方式,就是在较高层次上对分析对象数据 的一个完整并且一致的描述,能刻画各个分析对象所涉及的企
业各项数据,以及数据之间的联系。
主题域
主题域是对某个主题进行分析后确定的主题的边界
Supplier_State
Create_Date
123
ABC
Acme Supply Co
CA
14-June-2003
124
ABC
Supplier_key
Acme & Johnson Supplier_SCuopdpely Co
IL Supplier_Name
22-Dec-2004 Supplier_State
➢ 集成的(Integrate)
在将不同来源的数据存入数据仓库中之前,必须把这些不同的数据元 素标准化,对数据进行清洗、转换等集成操作。
➢ 相对稳定的(Non-Volatile)
一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是 数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只 需要定期的加载、刷新。
2020/2/24 Inspur group
11
雪花模型
2020/2/24 Inspur group
12
星形模型与雪花模型
星形模型
一种使用关系数据库实现多维分析空间的模式,称为星型模式。星 型模式的基本形式必须实现多维空间(常常被称为方块),以使用关系 数据库的基本功能。
雪花模式
不管什么原因,当星型模式的维度需要进行规范化时,星型模式就 演进为雪花模式。
相关文档
最新文档