数据质量管控
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据质量汇总日报
该报告依照每日各源系统数据交换评价指 标的平均值及当天的贴源数据、汇总数据 和数据集市质量检查结果汇总生成
数据质量汇总月报
该报告依照当月的日报结果,取各项指标 的平均值和数据统计的汇总值生成
Page 8
数据质量管理分析报告指标定义
指标分类 指标名称
接口传输及 时率 接口单元级 评价指标 接口传输完 整率 接口准确率
Page 6
检查规则执行服务检查点4.2
应用集市区业务性检查任务内容说明
任务类型 ETL阶段 ETL 任务 —— 业务型检查 汇总数据区->应用集市数据区
执行频率
执行方式 检查对象 检查内容 实现技术 成功阈值 异常处理 依赖任务
每日/月/季执行
由Task Automation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行 应用集市数据区的数据 业务逻辑检查:通过对若干个指标值的运算,来检验各个指标间潜在的平衡或其他比较关系 数值检查:主要是通过对单个指标值的监控来发现数据的异常、突变等情况 波动检查:通过对单个指标值一段时间内的数值变化情况来检查数据的波动、变化情况 一致性检查:通过对两个指标按某几个维度展开后的增减幅度来发现数据的波动、变化情况 SQL 90%记录通过检查 未通过检查的记录存入指定错误明细表 汇总数据区数据处理完成
云数据推送平台接口文件级规范性检查任务说明
任务类型 ETL阶段 执行频率 执行方式 检查对象 检查内容 实现技术 成功阈值 依赖任务 触发任务 ETL 任务 —— 技术型检查 云数据推送平台->金融数据交换平台NAS存储指定目录 每日执行 由Task Automation工作流引擎根据工作流定义统一调度,在ETL 服务器上执行 云数据推送平台按照接口规范导出的业务系统每日增量数据文件和控制文件 接口文件是否存在,接口文件名称是否正确,接口文件是否通过MD5校验 Linux脚本语言,Perl或Python 所有规则通过检查 N/A 数据加载
任务类型 ETL 任务 —— 明细日报生成
ETL阶段 分析报告生成阶段 由Task Automation工作流引擎根据工作流定义统一调度,在数据质量管理元数 据库上执行
执行频率 每日 执行方式
评价对象 数据质量检查点1、2对应的检查任务执行结果 评价指标 接口传输及时率、接口传输完整率、接口准确率 实现技术 MySQL SQL命令 依赖任务 ETL处理完成 触发任务 数据质量汇总日报生成任务
数据质量管理平台技术架构
数据质量管 理平台以元 信息模型为 核心,由规 则配置管理 模块、检查 执行模块、 分析报告生 成模块和分 析报告展现 模块四部分 构成。 整个数据质 量检查过程 以ETL任务 的形式统一 调度执行。
数据质量管理系统元模型包含检查规则、 检查执行结果、分析报告,模型作为一个 独立的Schema部署在决策分析报表平台的 数据库
数据质量检查规则配置模块作为Java Web应用部署在金融数据平台Tomcat 集群上,数据质量管理员通过统一的 Web服务访问,实现检查规则的维护
数据质量检查规则执行模块作为多个ETL任 务部署在金融数据平台ETL服务器上,由 Automation工作流调度服务统一调度运行, 实现各个数据区技术和业务数据质量检查
Page 1
数据质量检查执行服务
数据质量管理 的规则执行服 务作为ETL任 务部署在ETL 服务器上 在整个数据处 理过程中,设 置4类检查点 在不同的检查 点由Task Automation 工作流统一调 度执行 检查结果统一 存入数据质量 管理资料库
1
2
3
4
Page 2
检查规则执行服务检查点1
Page 3
检查规则执行服务检查点2
临时区数据技术性检查任务说明
任务类型
ETL阶段 执行频率
ETL 任务 —— 技术型检查
临时数据区->贴源整合数据区 每日执行
执行方式
检查对象 检查内容 实现技术
由Task Automation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行
云数据推送平台按照接口规范导出的业务系统每日增量数据 日期、时间格式检查;主键唯一型检查;外键参照完整型检查;关键字段取值完整 性检查 Hive SQL
数据质量分析报告展现模块作为Java Web应用部署在金融数据平台Tomcat 集群上,用户通过统一的Web服务访问, 实现日报、月报的浏览、下载等功能
数据质量分析报告生成模块作为一个ETL任 务部署在决策分析报表平台ETL服务器上, 由Automation工作流调度服务统一调度运 行,按照每日、每月生成各数据区数据质 量检查报告
Page 11
分析报告生成服务:数据质量汇总月报
任务内容说明
任务类型 ETL 任务 —— 汇总月报生成
ETL阶段
执行频率 执行方式 评价对象 评价指标 实现技术 依赖任务 触发任务
分析报告生成阶段
每月月初 由Task Automation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上 执行 当月所有数据质量检查点对应的检查任务执行结果 记录正确率 MySQL SQL命令 数据质量汇总日报生成任务 N/A
Page 12
数据质量管理元信息库
采用MySQL数据库,存储数据质量检查规则、数据质量检查结果、数据质量检查报告
检查规则 检查规则唯一号 检查规则简单描述 检查规则类型 检查对象标识 检查规则生效标志 检查规则是否保存结果标志 Relationship_4 检查频度 ET L 任务 检查对象 对象标识 数据区 数据对象 阈值 Integer Variable characters (32) Variable characters (32) Integer (D) Identifier_1 ... <pi> Inheritance_1 <pi> Characters (8) Variable characters (2048) Characters (2) Integer Characters (1) Characters (1) Characters (2) Variable characters (32) <M> Relationship_2 (D) 检查结果 检查规则执行ID <pi> 检查规则唯一号 执行日期 开始执行时间 结束执行时间 结果编码 结果描述 结果值 Identifier_1 ... <pi> Integer Characters (8) Date T imestamp T imestamp Characters (4) Variable characters (4096) Integer <M> <M>
触发任务
N/A
Page 7
数据质量管理分析报告生成服务
分析报告生成服务是部署在ETL服务 器上的ETL任务,按照任务流程被 Task Automation统一调度执行, 生成以下三类报告:
源系统数据交换质量日报
该报告汇总了报告生成当天源系统的数据 接口校验结果,包括针对每个接口单元的 表及记录级校验错误的统计数据和指标日 平均值
Relationship_3 (D) 检查结果明细 检查规则执行ID <ai> 记录序号 记录内容1 记录内容1 Identifier_1 ... <aiቤተ መጻሕፍቲ ባይዱ> Integer Integer Variable characters (4000) Variable characters (4000) <M>
指标说明
指在最后截止时间前完成上传的接口单元数量与 时限内要求上传的接口单元数的比率。 指在数据质量日报告生成之前,成功上传的接口 单元数量与要求上传的接口单元数量的比率。 指与接口校验内容描述一致的接口单元数量与要 求上传的接口单元数量的比率。 正确的记录数与全部记录数的比值。每条记录只 要违反任一条检查规则(例如:主键唯一、业务 规则等),就被计入错误日志。每个接口单元的 最大允许出错阈值由数据质量检查规则确定。计 算公式如下: 当Ec<Emax时:记录正确率= 当Ec>=Emax时:记录正确率=0 说明: Ec—出错记录数 Et—记录总数 Emax—最大允许出错阈值
成功阈值
异常处理 依赖任务 触发任务
90%记录通过检查
未通过检查的记录存入指定错误明细表 接口文件级规范性检查任务 贴源数据整合任务
Page 4
检查规则执行服务检查点3
汇总区业务性检查任务内容说明
任务类型 ETL阶段 执行频率 执行方式 检查对象 检查内容 实现技术 成功阈值 ETL 任务 —— 业务型检查 贴源整合数据区->汇总数据区 每日/月/季执行 由Task Automation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行 汇总数据区的数据 业务逻辑检查:通过对若干个汇总值/指标值的运算,来检验各个汇总值/指标间潜在 的平衡或其他比较关系 Hive SQL 90%记录通过检查
异常处理
依赖任务 触发任务
未通过检查的记录存入指定错误明细表
贴源整合数据区数据处理完成 集市数据区应用数据生成
Page 5
检查规则执行服务检查点4.1
应用集市区技术性检查任务内容说明
任务类型 ETL阶段 执行频率 执行方式 检查对象 检查内容 实现技术 成功阈值 异常处理 依赖任务 触发任务 ETL 任务 —— 业务型检查 汇总数据区->应用集市数据区 每日/月/季执行 由Task Automation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行 应用集市数据区的数据 主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查 SQL 90%记录通过检查 未通过检查的记录存入指定错误明细表 汇总数据区数据处理完成 N/A
Page 10
分析报告生成服务:数据质量汇总日报
数据质量汇总日报生成任务内容说明
任务类型 ETL 任务 —— 汇总日报生成
ETL阶段
执行频率 执行方式 评价对象 评价指标 实现技术 依赖任务 触发任务
分析报告生成阶段
每日 由Task Automation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上 执行 数据质量检查点2、3、4对应的检查任务执行结果 记录正确率 MySQL SQL命令 源系统数据交换质量日报生成 数据质量汇总月报生成任务
源系统数据交换质量日报 源系统数据交换质量日报标识 源系统数据交换质量日报日期 源系统名称 接口名称 传输及时标志 传输完整标志 数据日期准确标志 名称规范标志 记录数准确标志 数据格式出错的记录数 违反数据值域的记录数 违反主键唯一性的记录数 违反参照完整性的记录数 出错记录数 记录准确率 Identifier_1 <pi> ... 源系统数据交换质量汇总日报 源系统数据交换质量汇总日报标识 源系统数据交换质量汇总日报日期 源系统名称 规定时限内实际上传接口单元数 成功上传接口单元数量 数据日期不准确的接口单元数量 接口名称不准确的接口单元数量 接口记录数不准确的接口单元数量 达到最大报错阙值的接口单元数 Integer Date Variable characters (32) Integer Integer Integer Integer Integer Integer ODS 数据质量日报 ODS 数据质量日报标识 ODS 数据质量日报日期 表名称 违反主键唯一性的记录数 违反参照完整性的记录数 违反业务规则的记录数 出错记录数 记录准确率 Integer Variable characters (32) Variable characters (32) Variable characters (32) Short integer Short integer Short integer Short integer Short integer Integer Integer Integer Integer Integer Decimal (18,2)
对应报告
《源系统数据交换质量日报 (XX系统)》 《源系统数据交换质量日报 (XX系统)》 《源系统数据交换质量日报 (XX系统)》
记录级评价 指标
记录正确率
《源系统数据交换质量日报 (XX系统)》 《数据质量汇总日报》 《数据质量汇总月报》
Page 9
分析报告生成服务:源系统数据交换质量日报
明细报告生成任务内容说明