数据仓库 Chapter 12 数据抽取、转换和装载

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Chapter 12 数据抽取、转换和装载
• Contents
• • • • • ETL概览 数据抽取 数据转换 数据装载 ETL总结
ETL概览
• Contents
• • • • 最重要和最具有挑战性 耗时而且费劲 ETL的需求和步骤 关键因素
ETL概览
• ETL最重要和最具有挑战性(战略分析:事实表、维度表?从哪 里来?)
数据抽取
• Contents
• 数据源确认 • 数据抽取技术 • 技术的评估
数据抽取
• 来自百度文库据源确认
• Key factor :是否可以提供数据仓库需要的值? • 图:数据源确认的过程(Next Page)
数据源 数据源确认过程
• 列出对事实表进行分析所 需要的每一个数据项或事实
客户 • 从所有维度中列出每一个 维度属性 • 对于每个目标数据项,找 出源系统和源数据项 • 如果一个数据元素有多个 来源,选择最好的来源
• • • • • • • • • 源系统彼此悬殊,种类多样 通常需要应付多个平台上的不同操作系统 很多源数据都是陈旧的应用系统采用的是过时的技术 通常,取值不断变化的历史数据不会被保存在操作型系统中,而历 史信息对于数据仓库又至关重要。 很多旧系统中的数据质量各不相同,需要花很多时间进行处理 源系统的结构随着时间会发生变化,因为新的商业条件不断出现。 ETL功能也必须相应的调整 源系统之间普遍缺乏一致性。在不同的源系统中,相同的数据可能 会用不同的形式来代表 即使在不同的源系统中已经发现了不一致的数据,也缺乏解决方法, 这使不一致的问题更严重 大多数源系统的数据格式和类型对用户没有实际的含义,而且很多 展现方式使模糊而晦涩的。
数据抽取
• 从源操作系统中捕获数据
• 静态数据
• 一般用于在数据仓库初始装载的时候进行 • 是相关数据源在某个时刻的快照 • 静态数据的抽取包括
• 当前值的抽取 • 周期性数据的抽取 • 每个时间点的值的获取
ETL概览
• 关键因素
• 与数据抽取转换复杂性相关的因素
• Key Factors : 源系统巨大的差异性
• • • • • 硬件平台 OS DBMS Protocol 遗留的旧系统
• 与数据装载相关的因素
• 时间很长 • 增量转载中的特殊问题
• 如何捕获源系统的变化 • 时间窗口的选择 • 源系统 • DW系统
• 数据抽取的一些要点:
• 数据源确认:确认数据的源系统和结构 • 抽取方法:针对每个数据源,定义抽取过程是人工抽取还是基于 工具的抽取(工具自己编写的还是购买的) • 抽取频率:对于每个数据源,确定数据抽取的频率,每天、每星 期、每季度等等 • 时间窗口:对于每个数据源,表示出抽取过程进行的时间窗口 • 工作顺序:决定抽取任务中某项工作是否必须等到前面工作成功 完成,才能开始 • 异常处理:决定如何处理无法完成抽取的输入记录
目标
产品数据
订单处理
客户
运输渠道数据
产品
部署数据
运输合同
• 确认一个目标字段的多个 源字段,建立合并规则
•确认多个目标字段的一个 源字段,建立分离规则
时间数据
出货跟踪
•确认默认值
存货管理 •检查缺失值的源数据
订单量度
数据抽取
• 数据抽取技术
• 源系统中的数据是依赖时间变化的 • 在数据仓库中不能忽略历史信息
Chapter 12 数据抽取、转换和装载
• 目标:
• • • • • 广泛了解ETL的功能 检查数据抽取功能(挑战、技术、评估和应用) 数据转换功能的任务和类型 理解数据整合和合并的意义 认识数据装载功能的重要性,了解将数据应用到数 据仓库的主要方法 • 理解为何说ETL非常重要、耗时和艰巨的任务
• • • • • • • • 将几个数据源结构组合成数据仓库目标数据库中的行 将一个源数据结构分成若干个结构放入目标数据库中的若干行 从源系统数据字典和目录中读取数据 从多种文件结构中读取数据,包括平面文件、索引文件、旧系统 数据库 装载大量原子事实表的细节 为大量聚集表或事实表做聚集 将数据从源系统平台上的一种格式转换成目标平台上的另一个格 式 将晦涩的数值改变成对用户有意义的值
Chapter 12 ETL
Data warehouse is a subject oriented, integrated, non-volatile and time variant collection of data in support of management’s decision.
是什么造成了源操作 系统中的数据与数据 仓库中的信息的不 同???
• 如何从源系统中捕获历史数据?
• Answers Rely on : 数据如何存储在源系统中的。
• 源系统中的数据如何保存?
• 当前值
• 存储的值是代表当前属性的值,可能会改变,但何时改变则 无法预知。为保存历史变化的DW在这类系统中抽取数据很 棘手。
• 周期性的状态
• 例如随时间变化的政策(利率等) • 变化的数据存储在源系统中,为DW而进行的抽取容易
Chapter 12 数据抽取、转换和装载
• Contents
• • • • • ETL概览 数据抽取 数据转换 数据装载 ETL总结
数据抽取
• 两个因素增加了E工作的复杂度
• 从很多不同的系统中E数据 • 增量装载
• 有效的数据抽取对于数据仓库成功的实施不言而喻, Pay Attention To It
ETL概览
• 耗时而且费劲
• 50%~70%的时间花费在ETL上
• 抽取: what? where? when? • 转换:How?定义结构、缺失值补充、格式转换 • 装载:Long Time(Including测试)
• 面对变化的数据
• 时间窗口的选择
• 源系统 • DW
事实表的ETL
ETL概览
•ETL的需求和步骤
维度表的ETL 为所有的数据装载编写规程
组织数据缓存区域和检测工具 为聚集表制定计划
决定数据转换和清洗规则
建立全面的数据抽取规则 准备从源到目标数据元素的的数据映像关系 决定所有的数据源,包括内部和外部 决定数据仓库中需要的所有的目标数据 ETL处理过程的主要步骤
ETL概览
ETL过程涉及的各个方面:
相关文档
最新文档