【推荐】数据质量管理解决方案57
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【推荐】 数据质 量管理 解决方 案57
【推荐】 数据质 量管理 解决方 案57
场景分析:一致性校验
• 存在问题 – 某ODS系统中,发现ETL过程后对公活期表在ODM层与FDM层的记录数 不一致,为保证系统ETL过程运行正确,需要对系统中对公活期表数据由 ODM层至FDM层过程增加一致性校验。
• 解决方案 – 数据质量管理系统中提供了规范的一致性校验规则来检核系统中ETL过程 中数据记录数不一致的问题。通过对系统ODM层及FDM层对公活期表主 键增加一致性COUNT校验规则,得到ODM层与FDM层不一致记录数。
通过元数据 进行数据管理
通过企业标准数据 架构进行数据管理
•每个系统都是分离的数据管理 •非标准的独立的数据管理
•企业集成数据管理 •标准化元数据管理
目录
• 数据质量管理概述 • 数据质量问题解决之道 • 数据质量管理产品简介 • 产品实施案例及场景分享
【推荐】 数据质 量管理 解决方 案57
数据质量问题解决之道
【推荐】 数据质 量管理 解决方 案57
产品实施案例及场景分享
——场景分析:业务平衡性校验
• 存在问题 – 某ODS系统中,发现ETL过程后存在FDM层总账科目余额与SDM层明细 科目汇总余额不一致,为保证系统业务规则运行正确,需要在系统增加 相关业务的平衡校验。
• 解决方案 – 为进行系统业务的平衡性校验,可使用数据质量系统中一致性校验规则 进行检测,通过对FDM层总账科目余额与SDM层明细科目汇总余额字段 设置一致性SUM校验规则,得到过程中数据差额。
【推荐】 数据质 量管理 解决方 案57
数据质量管理关键点
• 制定规范的数据质量度量标准 • 建立有效的数据质量监管体系 • 建立完善的数据质量管理制度 • 高质量的数据来源于数据标准、数
据分析、检验以及管理制度的综合 作用
【推荐】 数据质 量管理 解决方 案57
11
【推荐】 数据质 量管理 解决方 案57
数据质量管理方法论
数据质量 提升周期
评估
10步流程
1.定义业 务需求 和方法
2.分析信 息环境
3.评估数 据质量
4.评估业 务影响
认知
5.识别根 本原因
6.制定提 升方案
行动
7.预防未 来数据 错误
8.发现及 纠正当 前数据 错误
Leabharlann Baidu
9.实施监 督控制
10.沟通行动和结果
【推荐】 数据质 量管理 解决方 案57
【推荐】 数据质 量管理 解决方 案57
【推荐】 数据质 量管理 解决方 案57
场景分析:主外键校验
• 存在问题 – 某ODS系统中,对公客户财务信息表中存在出资币种、注册资本币别等 币种描述信息,其信息来自系统中的币种代码表。为了保证系统中对应 关系的正确,需要对系统中对公客户财务信息表与币种代码表关联关系 进行主外键校验。
制
度
度执行
培训
培训制度
培训计 划
培训内 容
培训资 金
培训时 间
管理
责任心
责任人 工作优 目标 先级
管理问题域
优先级高 优先级中 优先级低
数据质量管理概述
——数据质量度量规则
指数据刷新、修改和 提取等操作的及时性 和快速性
及时性
完整性
主要包括实体不缺失、属 性不缺失、记录不缺失和 字段值不缺失四个方面
传输技术 不可靠
数据传递
信息问题域
接口数据获取
取数时点
过程中失真 数据源不当 不同步
调度机制
数据加载算法
完整性 一致性 唯一性
数据清洗算法 数据转换算法
数据获取 展示周期
展示工具 展示方式
硬件平台 软件平台
度量 数据装载
业务元数据 准确性 合法性
元数据
数据使用
数据备份恢复
维护验证机制
数据存储能力 人为调整数据
场景分析:拉链表交叉链、断链校验
• 存在问题 – 某ODS系统中,为保证拉链表数据结构正确,需要对表增加拉链表交叉 链和断链校验。
• 解决方案 – 为进行系统中拉链表交叉链、断链检验,数据质量系统提供自定义校验 规则进行检测,通对表定义自定义查询语句,得到存在交叉链、断链的 记录数。
【推荐】 数据质 量管理 解决方 案57
数据质量管理解决方案
目录
• 数据质量管理概述 • 数据质量问题解决之道 • 数据质量管理产品简介 • 产品实施案例及场景分享
数据质量管理概述
——数据质量问题域
全领域的导致数据质量问题的原因识别
技术问题域
数据校验 规则不当
默认值使 用不当
数据创建
数据创 建延迟
文件传输方式出错 网络传输过程
及时性
唯一性
指主键唯一和候选键唯一 两个方面
主要包括格式、类型 和业务规则的有效性
合法性
一致性
指统一数据来源、统一存 储和统一数据口径
精确性
指计量误差、度量单位等 方面的精确程度
数据质量管理产品简介
——数据质量成熟度模型
阶段1 初始级
阶段2 定义级
阶段3 管理级
阶段4 优化级
通过数据库 进行数据管理
通过模型管理 进行数据管理
场景分析:唯一性校验
• 存在问题 – 某ODS系统中,对私客户主题中的客户信息不允许重复,客户身份证号 字段可以作为客户唯一的标识,为了保证系统中客户信息的正确,需要 对系统中客户基本信息表增加唯一性校验。
• 解决方案 – 数据质量管理系统中提供了规范的唯一性校验规则来检核系统中数据唯 一性问题,通过对系统中某个表中的一个或者多个联合字段进行唯一检 查,得到该表中不唯一记录的数量及记录显示字段明细。
• 解决方案 – 数据质量管理系统中提供了规范的主外键校验规则来检核系统中数据关 联关系不对应的问题。通过对系统中主表定义主外键校验规则并关联对 应外键字段的附表及字段,得到系统关系中不对应的问题数量及主表中 的问题记录显示字段明细。
【推荐】 数据质 量管理 解决方 案57
【推荐】 数据质 量管理 解决方 案57
平台孤岛 安全管理
业务系统数据变化周期 变化频度
技术元数据
数据维护 数据维护
人为调整 数据流程
变更维 数据测 错误数据维
护流程 试流程 护流程 数据清洗
流程
调度流 程
数据使用
稽核流程
数据创建
稽核传递
流程问题域
数据加 载流程
实体数据刷新周期
数据质量问题
数据装载
数据转 换流程
激励
反馈渠道 反馈机 奖惩制 奖惩制
数据质量管理策略 数据质量管理方法论 数据质量管理关键点
【推荐】 数据质 量管理 解决方 案57
【推荐】 数据质 量管理 解决方 案57
数据质量管理概述
——数据质量管理策略
质量问题报警
质量检核运行
质量问题分析
数据质量指标
问题管理流程
【推荐】 数据质 量管理 解决方 案57
管理策略
【推荐】 数据质 量管理 解决方 案57
【推荐】 数据质 量管理 解决方 案57
场景分析:一致性校验
• 存在问题 – 某ODS系统中,发现ETL过程后对公活期表在ODM层与FDM层的记录数 不一致,为保证系统ETL过程运行正确,需要对系统中对公活期表数据由 ODM层至FDM层过程增加一致性校验。
• 解决方案 – 数据质量管理系统中提供了规范的一致性校验规则来检核系统中ETL过程 中数据记录数不一致的问题。通过对系统ODM层及FDM层对公活期表主 键增加一致性COUNT校验规则,得到ODM层与FDM层不一致记录数。
通过元数据 进行数据管理
通过企业标准数据 架构进行数据管理
•每个系统都是分离的数据管理 •非标准的独立的数据管理
•企业集成数据管理 •标准化元数据管理
目录
• 数据质量管理概述 • 数据质量问题解决之道 • 数据质量管理产品简介 • 产品实施案例及场景分享
【推荐】 数据质 量管理 解决方 案57
数据质量问题解决之道
【推荐】 数据质 量管理 解决方 案57
产品实施案例及场景分享
——场景分析:业务平衡性校验
• 存在问题 – 某ODS系统中,发现ETL过程后存在FDM层总账科目余额与SDM层明细 科目汇总余额不一致,为保证系统业务规则运行正确,需要在系统增加 相关业务的平衡校验。
• 解决方案 – 为进行系统业务的平衡性校验,可使用数据质量系统中一致性校验规则 进行检测,通过对FDM层总账科目余额与SDM层明细科目汇总余额字段 设置一致性SUM校验规则,得到过程中数据差额。
【推荐】 数据质 量管理 解决方 案57
数据质量管理关键点
• 制定规范的数据质量度量标准 • 建立有效的数据质量监管体系 • 建立完善的数据质量管理制度 • 高质量的数据来源于数据标准、数
据分析、检验以及管理制度的综合 作用
【推荐】 数据质 量管理 解决方 案57
11
【推荐】 数据质 量管理 解决方 案57
数据质量管理方法论
数据质量 提升周期
评估
10步流程
1.定义业 务需求 和方法
2.分析信 息环境
3.评估数 据质量
4.评估业 务影响
认知
5.识别根 本原因
6.制定提 升方案
行动
7.预防未 来数据 错误
8.发现及 纠正当 前数据 错误
Leabharlann Baidu
9.实施监 督控制
10.沟通行动和结果
【推荐】 数据质 量管理 解决方 案57
【推荐】 数据质 量管理 解决方 案57
【推荐】 数据质 量管理 解决方 案57
场景分析:主外键校验
• 存在问题 – 某ODS系统中,对公客户财务信息表中存在出资币种、注册资本币别等 币种描述信息,其信息来自系统中的币种代码表。为了保证系统中对应 关系的正确,需要对系统中对公客户财务信息表与币种代码表关联关系 进行主外键校验。
制
度
度执行
培训
培训制度
培训计 划
培训内 容
培训资 金
培训时 间
管理
责任心
责任人 工作优 目标 先级
管理问题域
优先级高 优先级中 优先级低
数据质量管理概述
——数据质量度量规则
指数据刷新、修改和 提取等操作的及时性 和快速性
及时性
完整性
主要包括实体不缺失、属 性不缺失、记录不缺失和 字段值不缺失四个方面
传输技术 不可靠
数据传递
信息问题域
接口数据获取
取数时点
过程中失真 数据源不当 不同步
调度机制
数据加载算法
完整性 一致性 唯一性
数据清洗算法 数据转换算法
数据获取 展示周期
展示工具 展示方式
硬件平台 软件平台
度量 数据装载
业务元数据 准确性 合法性
元数据
数据使用
数据备份恢复
维护验证机制
数据存储能力 人为调整数据
场景分析:拉链表交叉链、断链校验
• 存在问题 – 某ODS系统中,为保证拉链表数据结构正确,需要对表增加拉链表交叉 链和断链校验。
• 解决方案 – 为进行系统中拉链表交叉链、断链检验,数据质量系统提供自定义校验 规则进行检测,通对表定义自定义查询语句,得到存在交叉链、断链的 记录数。
【推荐】 数据质 量管理 解决方 案57
数据质量管理解决方案
目录
• 数据质量管理概述 • 数据质量问题解决之道 • 数据质量管理产品简介 • 产品实施案例及场景分享
数据质量管理概述
——数据质量问题域
全领域的导致数据质量问题的原因识别
技术问题域
数据校验 规则不当
默认值使 用不当
数据创建
数据创 建延迟
文件传输方式出错 网络传输过程
及时性
唯一性
指主键唯一和候选键唯一 两个方面
主要包括格式、类型 和业务规则的有效性
合法性
一致性
指统一数据来源、统一存 储和统一数据口径
精确性
指计量误差、度量单位等 方面的精确程度
数据质量管理产品简介
——数据质量成熟度模型
阶段1 初始级
阶段2 定义级
阶段3 管理级
阶段4 优化级
通过数据库 进行数据管理
通过模型管理 进行数据管理
场景分析:唯一性校验
• 存在问题 – 某ODS系统中,对私客户主题中的客户信息不允许重复,客户身份证号 字段可以作为客户唯一的标识,为了保证系统中客户信息的正确,需要 对系统中客户基本信息表增加唯一性校验。
• 解决方案 – 数据质量管理系统中提供了规范的唯一性校验规则来检核系统中数据唯 一性问题,通过对系统中某个表中的一个或者多个联合字段进行唯一检 查,得到该表中不唯一记录的数量及记录显示字段明细。
• 解决方案 – 数据质量管理系统中提供了规范的主外键校验规则来检核系统中数据关 联关系不对应的问题。通过对系统中主表定义主外键校验规则并关联对 应外键字段的附表及字段,得到系统关系中不对应的问题数量及主表中 的问题记录显示字段明细。
【推荐】 数据质 量管理 解决方 案57
【推荐】 数据质 量管理 解决方 案57
平台孤岛 安全管理
业务系统数据变化周期 变化频度
技术元数据
数据维护 数据维护
人为调整 数据流程
变更维 数据测 错误数据维
护流程 试流程 护流程 数据清洗
流程
调度流 程
数据使用
稽核流程
数据创建
稽核传递
流程问题域
数据加 载流程
实体数据刷新周期
数据质量问题
数据装载
数据转 换流程
激励
反馈渠道 反馈机 奖惩制 奖惩制
数据质量管理策略 数据质量管理方法论 数据质量管理关键点
【推荐】 数据质 量管理 解决方 案57
【推荐】 数据质 量管理 解决方 案57
数据质量管理概述
——数据质量管理策略
质量问题报警
质量检核运行
质量问题分析
数据质量指标
问题管理流程
【推荐】 数据质 量管理 解决方 案57
管理策略
【推荐】 数据质 量管理 解决方 案57