数据质量管理_数据仓库 ppt课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
处理/生成
检查通过?
本地网
生成数据 检查通过?
数据质量管理_数据仓库
过程-稽核方法1
在从分公司到省公司的ETL过程中,采取总量稽核与分量稽核方法来校
1
验环节之间的数据平衡关系
总量稽核
• 对两个相邻环节中,对数据的总量进行验证,总量 指标包括:总记录数,所有度量指标的总值等。
• 总量正确说明数据没有被丢弃,没有不符合装载逻 辑规则的脏数据存在。
数据质量管理_数据仓库
系统推广
咨询/服务
启动会议
培需
训求
集成测试
相分 关析
DISBP实施方法
人整
员理
终端用户培训
产品配置
模型设计/
需求评审
ETL策略/ 客户化应用/元数据
管理
终验
初验
模型开发
需求确认
★
★
★ 系统建设 ★
★
★
试点局上线
集成测试
过程-校验点
对数据的稽核应包括三个层面的KPIs检查校验,其中业务层面 对于数据质量保证更为重要,也更为复杂
数据质量管理_数据仓库
上传的内容 优惠用户清单 新业务资料 新业务资料的月基量 长途清单 零次户清单 本地智能网卡清单汇总 小灵通预付费清单汇总 省智能网清单
上传的时间计划 每月28日20点 每天22点 每月28日20点 每天22点 每月28日20点 每月28日20点 每月28日20点 每月28日20点
有效的组织机构 是管理机制的有
力支持
数据质量保障流程
按照制定的规范获 取相应的项目资源 、支撑工具以及制
定工作计划
启动
定义详细的过程、 数据、组织的划分 以及质量元素、标
准及测算方法。
项目范围定义 定义里程碑
定义
定义数据质量焦 点区域
识别已知的数据 质量问题
评估
评估基础框架结 构
对现存数据及业务环境进行评 估,以便识别项目对数据、过 程、系统以及组织架构所造成
• 总量不正确,则需要检查本环节装载日志中是否有 被抛弃的记录,如果没有数据丢失,则需要检查数 据运算逻辑规则。
• 总量稽核要对每个度量进行,才算完整的稽核
数据质量管理_数据仓库
分量稽核
• 分量稽核是指对相邻的两个环节中,在总量正确的 前提下,对数据分布情况的稽核,在这个过程中, 需要对每个维度上的分布的每个度量进行查询,如 果数据在每个维上的分布都正确,则在组合维查询 时数据也正确,可以保证多维分析的正确性。
数据稽核
•文件命名是否正确 操作指标稽核 •文件个数是否正常
•索引标识是否对应
技术指标稽核
•文件中记录行数是否正常 •文件大小是否正常
•文件中各类指标汇总值
业务指标稽核
是否异常波动 •根据历史经验和季节规
律进行时间序列分析-
-数据校验利器
•在系统中予 以固化,提 供自动异常 预警,使操 作人员可以 方便地进行 审核确认
实际文件大小 105186753 错误记录数 4 错误记录数 147
未加载文件数 1
稽核 -
平衡
平衡 平衡
数据质量管理_数据仓库
总量稽核
分量稽核
过程-稽核方法3
3
对比稽核
• 此稽核方法可以作为总量和分量稽核的辅助,即针对某 个度量而言在总量上或分量上的波动在设定的阙值内认 为数据时正常的,否则认为为异常,需要检查确认
管理-统一编码库
▪ 标准代码是指省公司统一各分公司的业务情况整理的标准的业务代码,内容是 代码、名称及代码分类。标准代码是数据源的主要业务代码,所有的分析都是 此代码组合的维度基础上,因此维护好代码也是保证数据质量的关键之一 建立的原则 维护的原则
▪ 分公司应该理解省公司编码有代表的实际业务内容,然后把本公司的业务对应 到省公司的标准代码上 建立的原则 维护的原则
EDW ETL
操作型数据整合环境
数据 数据质量 稽核 监控
ODS
ODS书籍
企业数据仓库
数据 集市
数据 集市
数据复制
EAI
ODS数据视图访问
ODS ETL
反馈
分析
数据
业务运作系统 BSS
CRM 计费 结算
OSS
资源 服务 综合 专业 管理 开通 网管 网管
MSS/ERP
人力 财务 工程 资源 管理 管理
准确性 及时性 一致性 唯一性和参考完备性 完整性 数据类型和值域
数据质量管理_数据仓库
数据质量归类
•业务规则 •统计口径
•处理数据超出了 用户忍耐 •结果过时
•不同数据源相同 实体数据不同
•已汇总数据与详 细数据的再汇总
不一致
数据质量的示例
重复属性 错误的值
错误的数据依赖
缺少数据
缺乏引用完整性
违反商务规则 多种数据源中缺乏数据对应
的影响。
建立业务环境,改 进现有数据的数据
质量。
制定工作计划
评估项目并获取 相应资源
描述当前数据使 用状况
确定关键数据质 量因素
评估关键数据
分析导致错误的 根本原因
清洗
预设处理环境
实现处理环境
清洗并纠正错 误数据
对结果进行评 估
风险评估、快速 启动项目
定义数据质量标 准
数工据具质支量持 管理_数据仓库
业务规则问题 生产系统的不同版本 各分公司市场政策的差异 同一产品、业务、套餐 在生产系统 业务处理规则 编码差异很大
数据质量管理_数据仓库
统计口径 各专业之间的指标体系及编码规则不一致
当企业的所有系统,包括业务系统、管理系统、EDA系统都结为一体的 时候,系统监控、 工作流、 数据流、 系统管理变成一个重要挑战
▪
阶段评估
质量保证 关键成功因素
KSF
3 •评估
质量保证KSF
▪ 规范
规范的流程
▪ 检查点
过程校验点和稽核点 异常处理措施
2 •过程
数据质量管理_数据仓库
过程-规范的流程
定义了用于构造一个完善的、满足业务功能的数据仓库系统 所不可缺少的步骤和任务。这是一组预定义好的、在整个数 据仓库项目中起指导作用的、可用多种方法管理的实施步骤
▪
标准
及时性、准确性、
一致性等
▪
考核
奖励、惩罚
▪
阶段评估
质量保证 关键成功因素
KSF
3 •评估
数据质量管理_数据仓库
质量保证KSF
在数据处理的流程上进行规范并设 置相应的控制点和稽核点 ▪ 规范的流程 ▪ 过程校验点和稽核点 ▪ 异常处理措施
2 •过程
负责经营分析系统与业务系统间的协调和工作落实 负责监督和参管与理质相量数应方据业案质务的量系评管统估理小建和组设方、案维制护定单位进行
主键重复 源数据和目标缺乏同步
错误的计算 没有理由的关联
错误的范围 稀少的实体解释 无标准的格式
数据质量管理_数据仓库
数据源问题 多个生产系统的数据源存在不一致现象 数据源本身存在脏数据噪声数据 数据存在人工操作 不同数据源由不同部门管理
原因分析
数据抽取时间点问题 由于生产系统的数据 是随生产而变化的, 在不同的时间点 进行数据抽取的数据 是不一致的
数据质量管理_数据仓库
全面负责经营分析系统的 建设和维护
领导数据质量管理员进行 数据质量管理工作
管理-数据上传计划
制定各个业务系统的数据上传内容计划,此计划需要业务系统相 应岗位人员认真执行:
上传的文件 JF_SERV_DISCT JF_SERV_PRODUCT JF_SERV_PRODUCT JF_TRUNK_TICKET JF_ZERO_LIST JF_CARD_SERV_ITEM JF_PHS_SERV_ITEM ZN_PROV_TICKET
月份 产品大类 [1]语音业务 [2]基础数据 [3]互联网 [4]网元出租 [5]其他产品 [9]未知 合计
08月 费用(万元)
44,527.80 961.50
4,361.30 1,513.40
8.6 -481.30 50,891.30
09月 费用(万元)
45,691.60 990.10
4,522.60 1,489.20
数据质量管理_数据仓库
过程-稽核点
由于各省数据情况复杂,因此数据在上传集团公司的过程中,应经过 多次稽核检验把关,才能各环节数据的质量
1
2
3
4
5
本地网生成并稽核 省公司进行稽核 省公司生成并稽核 集团进行稽核 集团进行处理并展现
省公司管控范围
集团公司管控范围
检查通过?
处理/稽核/展现
省公司
检查通过?
其他数据
EDW
客户 客户 客户 洞察 价值 流失
数据挖掘
数据质量管理_数据仓库
安
元 数 据 管 理
全 和 权 限 管
系 统 管 理
理
▪ 数据质量问题分析 ▪ 数据质量方法论 ▪ 质量保证成功因素 ▪ 案例分析
数据质量管理_数据仓库
目录
数据质量管理方法论
建立合理的数据管理机构、制定数据质量管理 机制、 落实人员执行责任、保障组织间高效的
数据仓库专题讲座 之
数据质量管理
数据质量管理_数据仓库
2005年9月
▪ 数据质量问题分析 ▪ 数据质量方法论 ▪ 质量保证成功因素 ▪ 案例分析
数据质量管理_数据仓库
目录
数据质量金字塔
•违反唯一性约束 •违反主外键关系
•丢失数据 •丢失数据包含的
属性信息
•数据超出值域范围 •数据类型不匹配 •数据日期格式错
客户关系管理
综综 合合 查报 询表
细客 分户 客户洞察
计 算
信 用 度
分客 析户
监渠 控道
分营 析销
估营 监销 控评
客户关怀 渠道管理 营销活动
绩效管理
KPI
决策支持
分收 析入
展业 分务 析发
经营分析
整合的前端报表查询和分析环境
数据复制
EAI
ODS数据反馈ETL
ODS/EDW数据视图访问
多维数据访问
▪ 鉴于系统建设情况(业务系统、经营分析系统),应该重点关注
管理、
过程 评估
1 •管理
数据质量管理_数据仓库
质量保证 关键成功因素
KSF
2
3 •评估
▪ 组织保证
设计岗位 明确岗位的要求和职责
▪ 制定标准
制定数据上传计划 制定统一编码库
1 •管理
制定数据质量的评测标准并按
所制定的标准对其进行考核:
上传文件大小
上传文件行数
19
4
文件入库
入库失败文件数
105186753 总记录数
7537834 正确记录数
1
7537834
75378பைடு நூலகம்0
ODS转换 分析加载
已转换文件数 19
转换处理耗时(分钟) 54
可加载文件数 19
总记录数 7537830 需加载文件数
16
正确记录数 7537683
已加载文件数 15
数据质量管理_数据仓库
在行政管理以及职能上设置相应的 人员、设立相应的岗位进行数据质 量管理,包含以下内容: ▪ 设计岗位; ▪ 明确岗位的要求和职责; ▪ 制定数据上传计划 ▪ 制定统一编码库
1 •管理
制定数据质量的评测标准并按
所制定的标准对其进行考核:
▪
标准
及时性、准确性、一致性等
▪
考核
奖励、惩罚
11.3 -432.10 52,272.70
增加 % 费用(万元)
2.61% 2.97% 3.70% -1.60% 30.99% 10.22% 2.71%
数据质量管理_数据仓库
逻辑规则 月租的次数是否为零 月租的时长是否为零 本地市话话计费时长应被60整除 长途通话计费时长应被6整除 本地市话费计费时长应大于通话时长 长途通话费计费时长应大于通话时长
• 在总量正确的基础之上,做分量稽核时只需要选择 任一度量进行稽核,可认为在其他度量上的分量正 确
过程-稽核方法2
2
列出整体的数据处理情况,包括入库和采集及分析与渠道系统的 使用
本地网:武汉本地网 计划上传总数:25 其中 : 已采集: 20 处理中:0 未上传:5 计划外:0
入库成功文件数
入库处理耗时(分钟)
编写和维护数据质量工作相关文档图,4-如1:数组据织质结构量图检测标准、控制流程; 定期组织相关力量对经营分析系统的业务和设计(包括数据模型设计)的
完备性进行评估,总结问题,及时发现影响数据质量的隐患; 定期、不定期地进行质量评估;
监控数据质量问题解决的整个流程; 数据质量相关知识的培训;
建立、维护数据质量问题解决的经验集
沟通、持续监控数据应用过程和领导强有力的 督促是保证企业数据质量的关键
严谨的过程定义 是数据质量保障
的基础
管理机制的保 障是数据质量
控制的关键
完善文档的建 立和维护是数 据质量保障各 个环节以及组 织之间沟通的
依据
数据质量管理_数据仓库
验证检查是数据保 障的督促和推动
有效的落实 是数据质量 保障的根本
的与经营分析系统数据质量问题有关的活动
主管副总
管理-岗位
经营分析系统项目组
为经营分析系统的数据质量管 理工作提供宏观方向指导,并
予以授权
业务系统 接口员
项目负责人 项目经理
经营分析 系统需求 使用单位
市场、网络 、客服、计 费、财务等
数据质量 管理员
经营分析系统 建设单位成员
经营分析系统 开发组
支持数据质量管理小组的 部门或系统间协调工作
改进
预设新的处理 实现新的处理 迁移至新的环 对结果进行评
环境
环境
境中
估
▪ 数据质量问题分析 ▪ 数据质量方法论 ▪ 质量保证成功因素 ▪ 案例分析
数据质量管理_数据仓库
目录
综述
▪ 按照现代质量观念,质量是一个过程而不是结果。
▪ 数据仓库的数据质量应当在整个数据仓库规划、设计、建设、维护中体现和实 现。