数据仓库专题讲座—数据质量管理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

集团公司管控范围 检查通过? 检查通过? 处理/稽核/ 处理/稽核/展现
省公司
检查通过? 检查通过? 处理/ 处理/生成 检查通过? 检查通过?
本地网
生成数据 检查通过? 检查通过?
过程-稽核方法1 过程-稽核方法1
在从分公司到省公司的ETL过程中, 在从分公司到省公司的ETL过程中,采取总量稽核与分量稽核方法来校 ETL过程中 验环节之间的数据平衡关系
过程- 过程-校验点
对数据的稽核应包括三个层面的KPIs检查校验, 对数据的稽核应包括三个层面的KPIs检查校验,其中业务层面 KPIs检查校验 对于数据质量保证更为重要, 对于数据质量保证更为重要,也更为复杂
•文件命名是否正确 操作指标稽核 •文件个数是否正常 •索引标识是否对应 •文件中记录行数是否正常 技术指标稽核 •文件大小是否正常 •文件中各类指标汇总值 是否异常波动 业务指标稽核 •根据历史经验和季节规 律进行时间序列分析- -数据校验利器 •在系统中予 以固化,提 供自动异常 预警,使操 作人员可以 方便地进行 审核确认
及时性 一致性 唯一性和参考完备性
•处理数据超出了 • 处理数据超出了 用户忍耐 •结果过时 结果过时
•数据超出值域范围 数据超出值域范围 •数据类型不匹配 数据类型不匹配 •数据日期格式错 数据日期格式错
完整性 数据类型和值域
•不同数据源相同 不同数据源相同 实体数据不同 •已汇总数据与详 已汇总数据与详 细数据的再汇总 不一致
过程-稽核方法2 过程-稽核方法2
2
列出整体的数据处理情况, 列出整体的数据处理情况,包括入库和采集及分析与渠道系统的 使用
本地网:武汉本地网 计划上传总数:25 其中 : 已采集: 20 处理中:0 未上传:5 计划外:0 wk.baidu.com库成功文件数 19
文件入库
入库处理耗时(分钟) 4
上传文件大小 105186753 总记录数 7537834
上传的内容
上传的时间计划 每月28日20点 每天22点 每月28日20点 每天22点 每月28日20点 每月28日20点 每月28日20点 每月28日20点
新业务资料的月基量 长途清单 零次户清单 本地智能网卡清单汇总 小灵通预付费清单汇总 省智能网清单
管理- 管理-统一编码库
标准代码是指省公司统一各分公司的业务情况整理的标准的业务代码, 标准代码是指省公司统一各分公司的业务情况整理的标准的业务代码,内容是 代码、名称及代码分类。标准代码是数据源的主要业务代码, 代码、名称及代码分类。标准代码是数据源的主要业务代码,所有的分析都是 此代码组合的维度基础上, 此代码组合的维度基础上,因此维护好代码也是保证数据质量的关键之一 建立的原则 维护的原则 分公司应该理解省公司编码有代表的实际业务内容, 分公司应该理解省公司编码有代表的实际业务内容,然后把本公司的业务对应 到省公司的标准代码上 建立的原则 维护的原则
2 3
•过程 过程
•评估 评估
过程- 过程-规范的流程
定义了用于构造一个完善的、 定义了用于构造一个完善的、满足业务功能的数据仓库系统 所不可缺少的步骤和任务。这是一组预定义好的、 所不可缺少的步骤和任务。这是一组预定义好的、在整个数 据仓库项目中起指导作用的、 据仓库项目中起指导作用的、可用多种方法管理的实施步骤
质量保证KSF 质量保证KSF
在行政管理以及职能上设置相应的 人员、设立相应的岗位进行数据质 量管理,包含以下内容: 设计岗位; 明确岗位的要求和职责; 制定数据上传计划 制定统一编码库
1
•管理 管理 规范
规范的流程
检查点
过程校验点和稽核点 异常处理措施
质量保证 关键成功因素 KSF
制定数据质量的评测标准并按 所制定的标准对其进行考核: 标准 及时性、准确性、 及时性、准确性、一致性等 考核 奖励、 奖励、惩罚 阶段评估
数据仓库专题讲座 之 数据质量管理
缪翀莺 2005年 2005年9月
目录
数据质量问题分析 数据质量方法论 质量保证成功因素 案例分析
数据质量归类
数据质量金字塔
• 违反唯一性约束 •违反主外键关系 违反主外键关系
• 业务规则 • 统计口径
准确性
• 丢失数据 •丢失数据包含的 丢失数据包含的 属性信息
08月 费用(万元) 44,527.80 961.50 4,361.30 1,513.40 8.6 -481.30 50,891.30
1
分量稽核
• 分量稽核是指对相邻的两个环节中,在总量正确的 前提下,对数据分布情况的稽核,在这个过程中, 需要对每个维度上的分布的每个度量进行查询,如 果数据在每个维上的分布都正确,则在组合维查询 时数据也正确,可以保证多维分析的正确性。 • 在总量正确的基础之上,做分量稽核时只需要选择 任一度量进行稽核,可认为在其他度量上的分量正 确
渠道管理
营销活动
经营分析 整合的前端报表查询和分析环境
数据复制
EAI
ODS数据反馈ETL
ODS/EDW数据视图访问
多维数据访问 元 数 据 管
安 全 和 权 限 理 理 管 理 管 统 系
数据整合环境
EDW ETL
数据 稽核 数据质量 监控
数据
数据 数据
数据复制
EAI
ODS数据视图访问
ODS ETL
反馈 分析 数据
EDW
系 BSS
CRM
OSS
管理 合 管 管
MSS/ERP
管理 管理
数据
客户 洞察
客户
客户
数据
目录
数据质量问题分析 数据质量方法论 质量保证成功因素 案例分析
数据质量管理方法论
建立合理的数据管理机构、制定数据质量管理 机制、 落实人员执行责任、保障组织间高效的 沟通、持续监控数据应用过程和领导强有力的 督促是保证企业数据质量的关键
启动 定义
项目范围定义
定义详细的过程、 数据、组织的划分 以及质量元素、标 准及测算方法。
对现存数据及业务环境进行评 估,以便识别项目对数据、过 程、系统以及组织架构所造成 的影响。
评估
定义数据质量焦 点区域 评估基础框架结 构 识别已知的数据 质量问题 评估关键数据 描述当前数据使 用状况 分析导致错误的 根本原因 确定关键数据质 量因素 预设处理环境
Copyright
© 2004, Oracle. All rights reserved.
数据质量的示例
重复属性
缺少数据
缺乏引用完整性
违反商务规则 错误的值 错误的数据依赖 主键重复
多种数据源中缺乏数据对应
源数据和目标缺乏同步
错误的计算 错误的范围 稀少的实体解释 没有理由的关联 无标准的格式
原因分析
统计口径 各专业之间的指标体系及编码规则不一致
的 系

系 管理系 系 数据 系 管理

客户关系管理
综 合 查 询 表 客户洞察 客户关怀 报 合 分 综 细 户 客 计 算 度 用 信
分 析 户
客 监 控
渠 道 析
分 销
营 监 控
估 销 评

绩效管理
KPI
决策支持
分 析 入 析 发 收 分 展 业 务
数据稽核
过程- 过程-稽核点
由于各省数据情况复杂,因此数据在上传集团公司的过程中, 由于各省数据情况复杂,因此数据在上传集团公司的过程中,应经过 多次稽核检验把关,才能各环节数据的质量 多次稽核检验把关,
1 2 3 4 5
本地网生成并稽核
省公司进行稽核
省公司管控范围
省公司生成并稽核
集团进行稽核
集团进行处理并展现
总量稽核
• 对两个相邻环节中,对数据的总量进行验证,总量 指标包括:总记录数,所有度量指标的总值等。 • 总量正确说明数据没有被丢弃,没有不符合装载逻 辑规则的脏数据存在。 • 总量不正确,则需要检查本环节装载日志中是否有 被抛弃的记录,如果没有数据丢失,则需要检查数 据运算逻辑规则。 • 总量稽核要对每个度量进行,才算完整的稽核
上传文件行数 7537834 正确记录数 7537830 正确记录数 7537683 已加载文件数 15
实际文件大小 105186753 错误记录数 4 错误记录数 147 未加载文件数 1
稽核 -
入库失败文件数 1 已转换文件数
ODS转换
平衡
转换处理耗时(分钟) 54 可加载文件数
总记录数 7537830 需加载文件数 16
综述
按照现代质量观念,质量是一个过程而不是结果。 按照现代质量观念,质量是一个过程而不是结果。 数据仓库的数据质量应当在整个数据仓库规划、设计、建设、 数据仓库的数据质量应当在整个数据仓库规划、设计、建设、维护中体现和实 现。 鉴于系统建设情况(业务系统、经营分析系统) 鉴于系统建设情况(业务系统、经营分析系统),应该重点关注 管理、 过程 1 •管理 管理 评估
2 3
•过程 过程
•评估 评估
管理- 管理-岗位
负责经营分析系统与业务系统间的协调和工作落实 参与质量方案的评估和方案制定 数据质量管理小组 负责监督和管理相应业务系统建设、维护单位进行 的与经营分析系统数据质量问题有关的活动
主管副总
为经营分析系统的数据质量管 理工作提供宏观方向指导,并 予以授权
经营分析系统项目组
项目负责人
经营分析 系统需求 使用单位 项目经理
业务系统 接口员
支持数据质量管理小组的 部门或系统间协调工作
市场、网络 、客服、计 费、财务等 数据质量 管理员 经营分析系统 建设单位成员 经营分析系统 开发组
编写和维护数据质量工作相关文档,如数据质量检测标准、控制流程; 定期组织相关力量对经营分析系统的业务和设计(包括数据模型设计)的 完备性进行评估,总结问题,及时发现影响数据质量的隐患; 定期、不定期地进行质量评估; 监控数据质量问题解决的整个流程; 数据质量相关知识的培训; 建立、维护数据质量问题解决的经验集
严谨的过程定义 是数据质量保障 的基础
有效的落实 是数据质量 保障的根本
管理机制的保 障是数据质量 控制的关键
完善文档的建 立和维护是数 据质量保障各 个环节以及组 织之间沟通的 依据
有效的组织机构 是管理机制的有 力支持
验证检查是数据保 障的督促和推动
数据质量保障流程
按照制定的规范获 取相应的项目资源、 支撑工具以及制定 工作计划
图4-1:组织结构图
全面负责经营分析系统的 建设和维护 领导数据质量管理员进行 数据质量管理工作
管理- 管理-数据上传计划
制定各个业务系统的数据上传内容计划, 制定各个业务系统的数据上传内容计划,此计划需要业务系统相 应岗位人员认真执行: 应岗位人员认真执行:
上传的文件 JF_SERV_DISCT JF_SERV_PRODUCT JF_SERV_PRODUCT JF_TRUNK_TICKET JF_ZERO_LIST JF_CARD_SERV_ITEM JF_PHS_SERV_ITEM ZN_PROV_TICKET 优惠用户清单 新业务资料
定义里程碑
建立业务环境,改 进现有数据的数据 质量。
制定工作计划
清洗
实现处理环境 清洗并纠正错 误数据 对结果进行评 估
评估项目并获取 相应资源
风险评估、快速 启动项目
改进
定义数据质量标 准 预设新的处理 环境 实现新的处理 环境 迁移至新的环 境中 对结果进行评 估
工具支持
目录
数据质量问题分析 数据质量方法论 质量保证成功因素 案例分析
数据源问题 多个生产系统的数据源存在不一致现象 数据源本身存在脏数据噪声数据 数据存在人工操作 不同数据源由不同部门管理 数据抽取时间点问题 由于生产系统的数据 是随生产而变化的, 是随生产而变化的, 在不同的时间点 进行数据抽取的数据 是不一致的
业务规则问题 生产系统的不同版本 各分公司市场政策的差异 同一产品、业务、 同一产品、业务、套餐 在生产系统 业务处理规则 编码差异很大
质量保证 关键成功因素 KSF
2 3
•评估 评估
质量保证KSF 质量保证KSF
组织保证
设计岗位 明确岗位的要求和职责
1
•管理 管理
制定标准
制定数据上传计划 制定统一编码库
质量保证 关键成功因素 KSF
制定数据质量的评测标准并按 所制定的标准对其进行考核: 标准 及时性、准确性、 及时性、准确性、 一致性等 考核 奖励、 奖励、惩罚 阶段评估 在数据处理的流程上进行规范并设 置相应的控制点和稽核点 规范的流程 过程校验点和稽核点 异常处理措施
19
平衡
分析加载
19
平衡
过程-稽核方法3 过程-稽核方法3
总量稽核 分量稽核 对比稽核
• 此稽核方法可以作为总量和分量稽核的辅助,即针对某 个度量而言在总量上或分量上的波动在设定的阙值内认 为数据时正常的,否则认为为异常,需要检查确认 3
月份 产品大类 [1]语音业务 [2]基础数据 [3]互联网 [4]网元出租 [5]其他产品 [9]未知 合计
相关文档
最新文档