数据整合培训.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
www.fenet.com.cn
数据整合方法论-设计方法
分层设计图例
国结业务 系统
国结非汇款部分
国结汇款100部分
柜台业务 系统
柜台汇款部分(文本)
数据源
www.fenet.com.cn
DW
原始数 据层
事 实 数 据
通过时间戳获得增量 的事实数据
维 表 数 据
每日更新的维表
相关信息
转换数 据层
E
T+L
Datastage/Power Center
➢ 先抽取再统一,最后进行数据转换和装载
数据抽取
代码、数据结构、业务术语统一
清洗、转换、装载
E Datastage/ Power Center
www.fenet.com.cn
Integration
Datastage/ Power Center
T+L
OA
XML
File
File
Informix
Flat File
File
数据源
数据整合方法论-设计方法
架构设计 流程设计
流程设计 模块设计
流程设计指的是关于数据处理流程的设计,通常有
2种设计思路:
➢ 分层设计
分层设计是指将数据处理的流程细分,将共性归类,形成数据处理 的几个层次
➢ 按业务流程设计
按业务流程设计是指将数据处理流程与业务流程相对应,即面向业 务流程进行设计
数据原 始层
数据转 换层
应用数 据层
数据整合方法论-设计方法
按业务流程设计图例
车险理赔进度分析
报案表
核赔表
赔案主档
报案原始表
赔案号、保单号、 报案时间、报案状 态、维度信息
通过险种码 取车险记录
获取报案, 注销状态
核赔原始表
赔案原始表
注销标志、 维度信息
赔案号、保单号、上
报时间、批复日期、 核赔标志、维度信息
基本功能 Datastage高级功能
www.fenet.com.cn
数据整合方法论-设计方法
架构设计 架构设计
流程设计 模块设计
前端分析平台
最终用户 应用服务器
分析模型 明晰数据
OLAP
数
数据集市
据
星型模型
中
心
企业级数据仓库
www.fenet.com.cn
临时存储区
SQL
Oracle
DB2
DataStage处理过程
Insert/ Replcace
明细数 据层
对原始层表进行处理,增 加各种维信息字段,并去
掉大多数不必要的字段
明细表总表,可用于透明访问。每天增 量的数据Append进去
Insert/Append
Insert/ Replace
DataStage处理过程 增量明细数据表,可用于透明访问
设计注意事项(一)
取数规则、数据转换规则
取数规则的设计要求双方技术人员参与,数据转换规则的 设计除要求双方技术人员参与,还需要业务人员参与。
这2个规则是后续设计的基础,为了避免在后续过程中因 规则改变导致重新修改结构的情况发生,这个步骤应给与足够 的重视。
脏数据处理规则
脏数据即不符合业务逻辑、不适合做业务分析的数据,因 此,在设计过程中应确定脏数据处理的原则,避免系统中存 在的脏数据给分析决策带来误导。
Administrator Manager Director design
基本功能 Datastage高级功能
www.fenet.com.cn
数据整合方法论
成熟的方法论
▪ 多年的积累,成熟的经验 ▪ 以方法论为核心指导原则
正确的数据质量评估方法 论
▪ 数据质量暴露
▪ 数据质量评估
赔案号、保单号、立
案时间、结案时间、 注销标志、维度信息
通过险种码 取车险记录
通过险种码 取车险记录
获取申请核赔、 已核赔状态
获取立案、结 案、撤案状态
www.fenet.com.cn
车险理赔进度明细表
数据直接 从源到目标
数据整合方法论-设计方法
架构设计 模块设计
流程设计 模块设计
模块功能
Datastage/ Power Center
主题
数据整合方法论
主流方法简介 设计方法论 实施方法论
Ascential Data Integration Solution Datastage组件
Administrator Manager Director design
▪ 数据质量对策
数据整合
完善的元数据管理
▪ 数据源元数据管理 ▪ 数据中心元数据管理 ▪ 应用元数据管理
www.fenet.com.cn
统一的标准化方法论
▪ 模型标准化 ▪ 代码统一 ▪ 数据结构统一 ▪ 业务术语统一
主题
数据整合方法论
主流方法 设计方法论 实施方法论
Ascential Data Integration Solution Datastage组件
数据整合培训
郑 斌 高级顾问
培训时间安排
时间
培训内容
7-6 上午 7-6 下午 7-7 上午
数据整合方法论
Ascential Data Integration Solution 结合地税的实际情况讨论ETL规划 预习Datastage组件及其功能 Datastage组件及基本功能
7-7 下午 练习
Administrator Manager Director design
基本功能 Datastage高级功能
www.fenet.com.cn
数据整合方法论-主流方法
主流方法简介
➢ 先统一再ETL
代码、数据结构、业务术语统一
Integration DB2 II
数据抽取
清洗、转换、装载
7-8 上午 7-8 下午
Datastage高级功能 练习
wwwΒιβλιοθήκη Baidufenet.com.cn
培训形式 讲解为主
讲解为主 讨论 看资料、答疑 讲解为主
练习为主 操作为主 练习为主
主题
数据整合方法论
主流方法简介 设计方法论 实施方法论
Ascential Data Integration Solution Datastage组件
www.fenet.com.cn
数据整合方法论-设计方法
高质量的数据是指那些符合业务需求的、反应客观事实的数据。衡量数 据质量可在以下几个方面进行:
➢ 维度处理 ➢ 业务数据处理 ➢ 脏数据处理 ➢ 数据备份及日志处理 ➢ 流程处理(流程调度与控制) ➢ 历史/增量数据处理
模块复用性
➢ 公共业务数据 ➢ 公共系统参数 ➢ 公共转换过程
模块处理性能
➢ 整合工具调优 ➢ 转换过程优化 ➢ 数据库性能调优
www.fenet.com.cn
数据整合方法论-设计方法