数据质量与信息质量课件.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据质量和信息质量的区别
(1)数据质量和信息质量所要解决问题的侧重点不同
数据质量和信息质量的区别
(2)数据质量和信息质量关注的对象不同
数据质量是面向系统的,信息质量的研究对象范围更广泛,不仅包括数 据质量的内容,还注重信息的内容特征。
(3)数据质量和信息质量所反映的质量观念不同
数据质量:符合性 数据生产者→数据管理者→信息用户”,是一种任务驱动的管理方 式。 信息质量:适用性 “信息用户→信息管理者→数据生产者”,将用户的质量要 求传递到“数据生产者”。
数据与信息区别
数据是信息的载体,信息是加工后的数 据。
数据本身对我们来说并没有实际的 意义,但通过处理、分析、解读、综合之 后,就会获得可理解的、有价值的信息。
数据质量与信息质量
来源
早期 技术角度 准确性 依附产品质量 至今 基于数据库的 有效的测量、 分析和改进
数 据 质 量
20世纪70年代 大批量数据 数据库技术
数据质量提高技术
数据清洗
数据清洗主要研究如何检测 并消除数据中的错误和不一致, 以提高数据质量。
数据重复对象检测、确实数据处理、 异常数据检验、逻辑错误检验、不一致 数据处理等。
(一)重复对象检验
主要研究两个方面:1、关系数据库数据的重复记录检验。2、XML重复元素检测。
(二)缺失数据处理
主要处理方法: 1、单一填补法(平均值、中间数填补法、回归填补法、最大期望填补法) 2、多重填补法 (趋势得分法、PMM)
数据质量和信息质量主要研究的内容
数据质量的研究主要围绕两个方面展开: (1)数据质量的评估和监控 (2)从技术的角度如何保证和提高数据质量。
数据质量和信息质量的评价及其改进方法
数据/信息质量评价包括数据、相关业务记录和报告 系统以及涉及到收集、存储和使用组织数据或信息的业 务流程。 数据/信息质量的评价技术主要有三种: 1数据/信息质量调查 2可量化数据/信息质量指标 3数据/信息完整性评价。
数据质量的评估和监控
数据质量评估的核心在于如何具体地评估各个维度, 目前方法主要分成两类:定性的策略和定量的策略。 对数据质量可从若干个维度进行分析: (1)准确性(2)完整性(3)一致性(4)最小性(5) (6)可信度(7)及时性(8)易获取性。
数据质量提高策略
人们常常抱怨“数据丰富,信息贫乏”。
信 息 质 量
关注数据 数据语义内容
信息产生的速度 信息社会
信息质量良莠不齐 影响组织运作
数据质量和信息质量的联系
1ຫໍສະໝຸດ Baidu前后过程的关系
从数据的产生到信息系统之间的过程是数 据质量的问题,从信息系统到用户之间的 过程是信息质量的问题
2.包含关系 信息质量是在数据质量基础上得 到的,包含了数据质量,数据质量的 好坏在一定程度上决定了信息的质量。
在使用TDQM框架进行信息产品的开发时,也需要进 行定义、评价、分析和改进四个过程: (1)定义信息产品,信息产品的定义有宏观和微观两个层次。 (2)评价信息产品,关键是做好数据质量的评价矩阵。 (3)分析信息产品,在获得信息产品的评价结果后,信息产 品团队应该找出潜在数据质量问题的根本原因。 (4)改进信息产品,分析过程完成之后,就进行产品的改进。
质量信息的内容和类别
质量信息就是企业质量管理活动中产生的反映产品 质量和工作质量情况及其变化的各种数据、图表、图像、 文字及符号的总称。 质量数据是对生产过程测量结果的直 接反映,而质量信息则是在对质量数据进 一步分析的基础上得到的,更能反映问题 的本质。
质量信息的内容
1.质量信息的内容 (1)产品符合性信息。指反映所生产的产品和提供的服务与设定的质 量标准符合程度的信息。 (2)生产过程信息。指能反映生产过程能力和稳定性的信息。 (3)顾客满意信息。指能反映顾客对组织是否已满足其要求的感受的 信息。 (4)采购信息。指与所采购的产品有关的信息。 (5)根据在寿命周期中所处的阶段不同,分为设计质量信息、制造质 量信息、检验质量信息、使用质量信息、用后质量信息和市场质量信息, 分别表示在产品寿命周期的相应阶段产生的质量信息。 (6)根据表述形式的不同,分为定性质量信息和定量质量信息。
数据质量与信息质量管理 产品观
把数据或信息当做具有生产 过程的产品这一观点是理查德.王在 1998年就已经提出的。
管理信息类产品需要对信息的理解有根本的转变, 需要遵循 以下4个原则: 1)理解顾客的信息需求 2)把信息当成明确界定的产品来管理 3)把信息当成具有生命周期的产品来管理 4)由专门的信息产品管理者来管理信息产品
数据质量的保证和提高遵循的过程
居于核心的是质量维度监控评估; 中间一层是不依赖于知识的数据清洗, 最外层是依赖于应用逻辑的数据清洗。
TDQM框架
1992年MIT主导的全面数据质量管理项目(TDQM)提出了数据 质量持续改进的框架——TDQM循环 (1)定义;(2)评价;(3)分析;(4)改进
TDQM框架
(三)异常数据检测
数据审计的方法,又称数据质量挖掘。
(四)逻辑数据检测
主要是数据编辑修正。
(五)不一致数据处理
排序、融合和依据规则的方式。
数据质量的保证和提高遵循的过程
数据质量分析 发现问题 应用独立清洗
数据质量分析
应用依赖清洗
在这个不断反复的过程中,数据中 的问题逐步被发现解决,从而使数据质 量得到保证和提高。这个过程周而复始, 伴随数据的整个生命周期。
数据质量与信息质量
1 2 3 4
数据与信息
数据质量与信息质量 数据质量的评价方法 TDQM循环 质量信息的内容和类别 大数据拓展
5
6
数据与信息
数据是客观记录事物的可以鉴别的符号,包括文字、数 字、声音、图像等,具有客观性,是描述一个现象的原始事 实,例如温度,价格。
信息是以适合于通信、存储或处理的形式来表示的知识 或消息,是通过对原始信息加工,产生明确、更容易理解的 知识或内容,是在特定背景下有特定含义的数据。
原因:
一个原因是缺乏有效的数据分析技术,另一个重要原因则是 数据质量不高,如数据残缺不全、数据不一致、数据重复等, 导致数据不能有效地被利用。
如何提高?
数据质量提高主要分两个角度: 一类是从预防的角度,即在数据生命周期的任何一个阶 段,都有严格的数据规划和约束来防止脏数据的产生。 另一类是事后诊断,即由于数据的演化和集中,会有脏 数据涌现出来,需采用特定的算法检测出现的脏数据。