元数据管理与数据质量平台
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1.1数据质量管理架构
数据质量问题一直是困扰数据仓库发挥积极作用的重要因素,在数据仓库建设之初就应当从战略角度对数据质量体系进行规划。
1.1.1.1 数据质量基础定义
1.1.1.1.1完整性
数据的完整性:为实现业务目的而设计组织的数据模型是否完全,是否覆盖各个方面。例如:对一个业务,一个客户,一个产品,一个营销活动,一个客户的性质等进行缺失考察。例如,客户名称有姓无名等,客户档案是否齐全,是否客户所有业务都包含在内等。
完整性破缺主要发生在实体或对象的属性上和整个数据缺失两种情况。
完整性列表:
1.1.1.1.2有效性
指数据包含了一个有效的数据格式或值
1.1.1.1.3一致性
数据的一致性是一个长期的困难。建立数据仓库的核心目的之一也是争取解决这个问题。一致性定义为各个系统数据的统一,定义为数据仓库系统内数据定义的统一。
一致性还表现在定义和口径的一致性。
1.1.1.1.4唯一性
唯一性定义为系统数据定义的唯一性。由于数据仓库技术不一定受第三范式约束,可能具有相当的冗余,但数据冗余不能违
反定义的唯一性原则。对于哪些既存在于关系数据库又在多维数据库中表现的数据和指标要特别注意,因为极容易由于生成的时间差造成不一致。唯一性至少应当向系统的用户说明最终的数据评判标准,数据的冗余和评判应当是元数据管理的重要内容。
1.1.1.1.5正确性
数据正确是决策的关键,数据不正确,数据仓库项目就等于失败。但数据的正确性难以通过自身检查。应该对重要数据和重要统计设立正确性检查。主要方法是:
➢数据自身统计检验
➢纵向对比检验
➢数据间按逻辑交叉检验
➢横向对比校验
主要检查的内容:
1.1.1.1.6准确性
数据的正确性基础上才有意义讨论准确性。准确性包括精度和近似规则。
精度:系统定义的数据必须满足的精确性要求。例如,客户生日,可以精确到年,或月,或日;全局收入统计或许到万元即可,也许到角分。
1.1.1.1.7可用性
数据的可用性不是一个简单数据质量问题,而是系统质量问题,所有质量因素都可能影响到可用性。数据的可用性主要体现在使用的效率上
1.1.1.1.8时效性
1.1.1.1.9清晰性
数据的清晰性考验系统元数据的精度。元数据必须清晰定义每一个数据的来龙去脉。必须没有歧义。
1.1.1.1.10充足性
数据的充足性定义在保证数据正确性和准确性基础上是否能对主要业务专题提供足够的数据进行足够精度的分析需求。例如,
进行时间序列分析通常需要至少36个连续时间单位的数据,是否能够提供这个时间序列。
数据积累是否足够广泛,例如设计上虽然包含了足够宽广的业务领域,但
每项业务的数据是否真的收集到了足够多,
数据积累是否足够时间,充足性的特殊情况,是否收集了足够时间长度的
数据
元数据和字典数据的充足性,描述性是否足够
1.1.1.2 数据质量保证框架
1.1.1.
2.1战略
战略–从企业战略方向主动的考虑数据质量状况。
战略的意义:
➢提供了战略上的、可操作的数据质量保障方向
➢识别企业数据的关键因素
➢指明数据质量的范围
战略的范围:
➢策略:包含以下方面的内容,
✧任务定义
✧与业务的关系
✧切入点
✧约束条件
✧可行性
➢关键方法:包含以下方面,
✧方向
✧使规范化
✧保障策略被顺利执行的手段
➢变更管理:为了适应企业变更而采取相应的数据质量管理变更机制
1.1.1.
2.2组织
组织–为了达成企业的数据质量目标,从企业行政管理以及职能设置上进行考虑。
组织指的是如何组织相应的人员、设立相应的数据质量机构对数据质量进行管理,包含以下方面:
➢组织机构规划
➢人员及其职责设计
➢制定考核制度
1.1.1.
2.3管理
管理–对于企业中元数据以及业务规则的维护上予以管理
管理包含以下范畴:
➢定义完整的元数据集
➢定义无二义性、易于理解的业务规则
➢建立一个健壮的、高可扩展的数据模型
1.1.1.
2.4架构
架构–从整体上(数据、应用程序、技术架构)对改进数据质量予以考虑
架构的建立应从以下方面进行考虑:
➢数据架构
➢应用程序架构
➢基础架构
1.1.1.
2.5过程
过程–过程的改进
过程关注的是数据质量管理的过程,应从以下方面进行考虑:
➢数据质量管理的实施过程
➢过程控制点以及控制路线
➢(错误或异常的)补救措施
1.1.1.
2.6验证
验证–定义数据质量的评测标准并按所制定的标准对其进行验证,只有确立相应标准,数据质量的控制才具有现实意义。
验证包含以下内容:
1.1.1.
2.6.1 数据的重要程度,可以从以下方面进行判
断:
✧对日常操作的影响
✧对一般业务的影响
✧对财务上的影响
✧对客户服务的影响
✧对决策的影响
1.1.1.
2.6.2 数据质量维度--数据质量问题域汇总
1.1.1.
2.7沟通
沟通–关注使用数据信息的相关责任者之间的沟通,要充分关注数据质质量组织机构中的员工、不同的团体以及单位之间的相互沟通。
1.1.1.
2.8执行
执行–指组织中的每个成员都应改遵守数据质量管理所制定的要求、决定。
1.1.1.3 数据质量持续改进过程
➢发起–按照制定的规范获取相应的项目资源、支撑工