数据质量管理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
——处理数据质量问题流程
•
• •
数据质量指标
问题管理流程
数据质量检核
质量问题分析
质量问题告警
数据质量产品功能简介 ——数据质量检核指标
• 数据质量系统依照数据质量的八大要素量规范了6种数据质量问题的 检核规则,其中包括:非空检查、唯一检查、主外检查、长度检查、 代码检查以及一致性检查 • 数据质量系统支持自定义规则对系统中业务性规则进行检核
•
ODM层 对公活期 表
FDM层 对公活期 表
一致性校 验 COUNT
不一致记 彔数
场景分析:主外键校验
• 存在问题 – 某ODS系统中,对公客户财务信息表中存在出资币种、注册资本币别等 币种描述信息,其信息来自系统中的币种代码表。为了保证系统中对应 关系的正确,需要对系统中对公客户财务信息表与币种代码表关联关系 进行主外键校验。 解决方案 – 数据质量管理系统中提供了规范的主外键校验规则来检核系统中数据关 联关系不对应的问题。通过对系统中主表定义主外键校验规则并关联对 应外键字段的附表及字段,得到系统关系中不对应的问题数量及主表中 的问题记彔显示字段明细。
目录
• • • • 数据质量管理概述 数据质量问题解决之道 数据质量管理产品简介 产品实施案例及场景分享
数据质量问题解决之道
数据质量管理策略 数据质量管理方法论 数据质量管理关键点
数据质量管理概述 ——数据质量管理策略
质量问题报警 质量检核运行 数据质量指标 质量问题分析 问题管理流程
接口
数据质量问题定位 数据质量报告 权 限 集 成
应 用
单表数据分析 单指标趋势分析
问题处理率
检核指标管理
检核调度执行
指标自劢调度 指标手工调度
问题管理
检核问题管理 手工问题管理 问题通知 二 次 开 发 数 据 访 问
功 能
唯一性检核 值域检核
非空检核 代码检核
业务指标检核……
检核执行
系管 统理 存 储
信息问题域
完整性 一致性 唯一性 度量 业务元数据 准确性 合法性 元数据
调度机制 数据加载算法 数据清洗算法 数据转换算法 数据装载 硬件平台 软件平台 平台孤岛 安全管理
业务系统数据变化周期 变化频度 实体数据刷新周期 技术元数据
数据备仹恢复 维护验证机制 数据存储能力 人为调整数据 数据维护 数据维护 人为调整 数据流程 变更维 数据测 错误数据维 护流程 试流程 护流程
• 数据质量检核是对源系统中存在的数据质量问题进行检查的过程,通过系统自 劢/手劢方式发现系统中存在的数据质量问题
检核指标
检核运行
质量问题
数据质量产品功能简介
——数据质量检核
数据质量产品功能简介 ——质量问题告警
• 质量问题告警是系统提高了数据质量问题的时效性 以及数据管理人员对问题数据的响应速度。
对公客户 财务信息
•
币种代码 表 主键
表
外键
主外键校 验
主外键问 题列表
场景分析:拉链表交叉链、断链校验
• 存在问题 – 某ODS系统中,为保证拉链表数据结构正确,需要对表增加拉链表交叉 链和断链校验。 解决方案 – 为进行系统中拉链表交叉链、断链检验,数据质量系统提供自定义校验 规则进行检测,通对表定义自定义查询语句,得到存在交叉链、断链的 记彔数。
数据质量产品功能简介
数据质量管理产品特性
• • • • • • 基于元数据的知识库共享设计 灵活的检核模块的配置、支持灵活扩展 支持检核主流数据库系统 提供丰富的系统接口 较强的检核问题与知识库管理 丰富的前端界面展现:系统前端采用Ajax、Flex技术,能够灵活的 展现分析图表及血缘、影响关系。
数据采集 XML 组件 文件传输 组件
数据分析 语法分析 引擎
数据检核
技术组件层
日志组件
邮件组件
持 久 层
Hibernate
JDBC
iBATIS
数据库 22
数据质量管理功能简介 ——数据质量产品功能
数据质量产品功能简介
• • 确定规则: 数据质量指标 发现问题: 数据质量检核 提出问题: 质量问题告警 解决问题: 质量问题分析 归纳问题: 问题管理流程
质量问题分 析
单表问 题分析
血缘影 响分析
数据质量产品功能简介 ——问题管理流程
• 系统规范了检核问题的处理流程,通过流程的处理 对系统中已解决的数据质量问题进行整理。
问题发 布
问题处 理
问题审 核
问题归 档
知识库
问题管理
• 系统提供检核问题管理管理,分别提供对检核问题管理与手工问题管理,并 对检核问题提供血统分析、影响分析、查看明细、导出功能与流程化管理。 功能主要包括以下部分: – 检核问题管理:提供对检核出的问题的流程化管理,并可查看检核问题 的明细信息、血统分析、影响分析等 – 手工问题管理:提供对手工提出的问题的流程化管理
一致性
唯一性
准确性
及时性
合法性
安全性
完整性
检核规 则
扩展性
检核指标管理
• 检核指标管理提供唯一检查、非空检查、外键检查、代码检查、长度检查、 值域检查、一致性检查、自定义检查等检核指标的管理及综合查询 功能主要包括以下部分: – 指标设置按不同入口下设: • 表级指标:提供从检核目标(表及字段)定义、查询、修改、删除 检核指标 • 系统指标:提供从指标分类入口定义、查询、修改、删除检核指标 – 综合查询 • 提供按各种不同条件查询所有未删除指标
检核指标管理
技术指标-系统指标-正确性指标-一致性指标
检核指标管理
技术指标-系统指标-正确性指标-代码指标
检核指标管理
技术指标-系统指标-正确性指标-格式指标
检核指标管理
技术指标-系统指标-正确性指标-值域指标
检核指标管理
技术指标-系统指标-完整性指标-外键指标
数据质量产品功能简介 ——数据质量检核
管理策略
数据质量管理方法论
数据质量 提升周期
评估
认知
行劢
10步流程
1.定义业 务需求 和方法
3.评估数 据质量 2.分析信 息环境 4.评估业 务影响 5.识别根 本原因 6.制定提 升方案
7.预防未 来数据 错误 9.实施监 督控制 8.发现及 纠正当 前数据 错误
10.沟通行劢和结果
数据质量管理关键点
数据质量问题
激励 奖惩制 度执行 培训
数据装载 反馈渠道 数据清洗 流程 稽核流程 稽核传递 调度流 程 数据加 载流程 数据转 换流程 培训制度 培训计 划 反馈机 制 奖惩制 度
数据使用 数据创建
培训内 容
培训资 金
培训时 间 管理 优先级高 优先级中 优先级低
责仸心
责仸人
流程问题域
工作优 先级
•
自定义检核 拉链交叉链、
拉链表交叉 自定义校验 链、断链问 题记彔数
断链
SQL语句
产品实施案例及场景分享 ——场景分析:业务平衡性校验
• 存在问题 – 某ODS系统中,发现ETL过程后存在FDM层总账科目余额与SDM层明细 科目汇总余额不一致,为保证系统业务规则运行正确,需要在系统增加 相关业务的平衡校验。 解决方案 – 为进行系统业务的平衡性校验,可使用数据质量系统中一致性校验规则 进行检测,通过对FDM层总账科目余额与SDM层明细科目汇总余额字段 设置一致性SUM校验规则,得到过程中数据差额。
系统管理
系统参数
密码维护
权限管理
系统日志
系统配置
规则库
检核结果库
知识库
运行状态库
数据质量产品技术架构
展 现 层
JavaScript & Ajax Jason Flash JSP/HTML XML JSF HTML
接口服务层
业务应用层
元数据业务应用
数据质量业务应用
数据标准业务应用
逻 辑 层
业务组件层 EXCE L 组件
SDM层 明细客户 汇总金额 字段
•
FDM层
一致性校 验 SUM 数据差额
总账科目
余额字段
目录
• • • • 数据质量管理概述 数据质量问题解决之道 数据质量管理产品简介 产品实施案例及场景分享
数据质量管理产品简介
数据质量管理产品特性 数据质量产品价值 数据质量产品逡辑架构
数据质量产品技术架构
•
检核指标管理
• 指标定义主要功能: – 基本信息:提供指标名、指标说明、执行频率、调度方式等信息输入等 功能 – 检核目标:提供指标的检核目标、管理部门、自定义SQL等操作等功能 指标修改功能: – 提供指标基本信息、管理部门等的日常维护功能 删除指标 – 删除不再需要的指标
• •
检核指标管理
பைடு நூலகம்
管理问题域
•需求变更、开发 •对数据质量的价 值及其重要性认 识不足 •缺乏丏门的数据 测试等方面没有 流程规范和制度 •数据创建、数据 使用、数据维护 等方面没有流程 规范和制度
技术问题域
损失
• 收入减少 • 成本增加
•系统建设重功能
轻数据
•系统接口复杂, 数据流向不清, 缺乏对数据的整 体规划 •具体数据处理的 各技术环节的异 常造成的数据质
技术指标–表级指标
检核指标管理
技术指标–表级指标–完整性指标-基本信息
检核指标管理
技术指标–表级指标–完整性指标–检核目标
检核指标管理
技术指标–检核目标-添加管理部门
检核指标管理
技术指标–系统指标
检核指标管理
技术指标–系统指标-新增指标-选择检核表
检核指标管理
技术指标–系统指标-新增指标-输入SQL条件
目标
管理问题域
数据质量管理概述 ——数据质量度量规则
主要包括实体不缺失、属 性不缺失、记彔不缺失和 字段值不缺失四个方面
指数据刷新、修改和 提取等操作的及时性 和快速性
完整性
及时性
唯一性
指主键唯一和候选键唯一 两个方面
合法性
主要包括格式、类型 和业务规则的有效性
一致性 精确性
指统一数据来源、统一存 储和统一数据口径 指计量误差、度量单位等 方面的精确程度
质量管理组织与
相关的管理制度
• 风险增高
信息问题域
流程问题域
量问题
全领域的导致数据质量问题的原因识别
技术问题域
数据校验 规则不当 默认值使 用不当 数据创 建延迟 及时性 文件传输方式出错 传输技术 网络传输过程 不可靠 数据传递
数据创建 接口数据获取 取数时点 过程中失真 数据源不当 不同步 数据获取 展示周期 数据使用 展示工具 展示方式
www.primeton.com
数据质量管理解决方案
目录
• • • • 数据质量管理概述 数据质量问题解决之道 数据质量管理产品简介 产品实施案例及场景分享
数据质量管理概述 ——数据质量问题域
•缺乏统一的数据 描述导致业务理 解差异 •信息标准不统一 产生低质量的数 据,导致业务人 员对数据缺乏信 心
•
客户基本信
息表 身仹证号字 段 唯一性校验 唯一性问题 列表
场景分析:一致性校验
• 存在问题 – 某ODS系统中,发现ETL过程后对公活期表在ODM层与FDM层的记彔数 不一致,为保证系统ETL过程运行正确,需要对系统中对公活期表数据由 ODM层至FDM层过程增加一致性校验。 解决方案 – 数据质量管理系统中提供了规范的一致性校验规则来检核系统中ETL过程 中数据记彔数不一致的问题。通过对系统ODM层及FDM层对公活期表主 键增加一致性COUNT校验规则,得到ODM层与FDM层不一致记彔数。
数据质量管理产品简介 ——数据质量成熟度模型
阶段1 初始级 阶段2 定义级 阶段3 管理级 阶段4 优化级
通过数据库 进行数据管理
通过模型管理 进行数据管理
通过元数据 进行数据管理
通过企业标准数据 架构进行数据管理
•每个系统都是分离的数据管理 •非标准的独立的数据管理
•企业集成数据管理 •标准化元数据管理
数据质量管理产品价值
完整检核标准梳理方法及 指标规则模板
1
完善的质量问题解 决共享机制,实现 数据质量的闭环管 理
5
2
价值
自劢化的检核处 理及问题通知机 制,达到无人职 守
规范的问题管理流程及 制度,精确管理问题每 个阶段
4
3
提供全面的数据分析 机制,加速问题解决
数据质量产品逻辑架构
数据质量分析
• 检核状态统计 • 检核结果统计
• 检核执行状态
• 检核问题结果
• 检核执行状态
• 检核问题结果
系统首页
短信投递
邮件投递
数据质量产品功能简介 ——质量问题分析
• 质量问题分析通过图形、图表界面,快速定位问题 产生的原因以及历叱趋势,为数据管理人员解决数 据质量问题提供辅劣
指标趋
势分析
数据质 量报告
• 制定规范的数据质量度量标准 • 建立有效的数据质量监管体系 • 建立完善的数据质量管理制度 • 高质量的数据来源于数据标准、数 据分析、检验以及管理制度的综合 作用
监管体 系 管理制度 度量标 准
11
场景分析:唯一性校验
• 存在问题 – 某ODS系统中,对私客户主题中的客户信息不允许重复,客户身仹证号 字段可以作为客户唯一的标识,为了保证系统中客户信息的正确,需要 对系统中客户基本信息表增加唯一性校验。 解决方案 – 数据质量管理系统中提供了规范的唯一性校验规则来检核系统中数据唯 一性问题,通过对系统中某个表中的一个或者多个联合字段进行唯一检 查,得到该表中不唯一记彔的数量及记彔显示字段明细。