数据清洗课件-第2章 数据清洗方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)加大对开源工具的应用 开放源码工具提供数据质量服务,如解除欺骗、标准化、充实和实时清理
,以及快速注册和比其他解决方案更低的成本。不过值得注意的是,大多数开 源工具在实现任何真正的好处之前仍然需要一定程度的定制,因此,企业需要 专门组织对新老员工的不断培训和学习。
数据质量定义
数据质量
如何提高数据质量
其他衡量标准再如有效性可考虑对数据格式、类型、标准的遵从程度,合
理性可考虑数据符合逻辑约束的程度。如对某企业数据质量问题进行的调研显 示如下:常见数据质量问题中准确性问题占33%,完整性问题占28%,可用性问 题占24%,一致性问题占8%,这在一定程度上代表了国内企业面临的数据问题。
数据质量定义
数据质量
数据质量定义
数据质量
常见的数据质量问题
除此之外,还有在数据处理过程中产生的“二次数据”,其中也会有噪声 、重复或错误的情况。数据的调整和清洗也会涉及到格式、测量单位和数据标 准化与归一化的相关事情,以致对实验结果产生比较大的影响。通常这类问题 可以归结为不确定性。不确定性有两方面内涵,包括各数据点自身存在的不确 定性,以及数据点属性值的不确定性。前者可用概率描述,后者有多重描述方 式,如描述属性值的概率密度函数,以方差为代表的统计值等。
数据预处理
数据预处理方法
数据清洗
目前,对于离群点的检测是数据挖掘中的重要部分,它的任务是发现与大 部分其他对象显著不同的对象,如常见的极值分析、近邻分析、投影方法等。 例如,某公司客户A的年收入是20万元,但意外地数据输入操作附加一个零。因 此现在的收入就是200万元,与其他人相比,这就是异常值。
第2章 数据清洗方法
数据质量定义
数据质量
数据质量介绍
数据无处不在,企业的数据质量与业务绩效之间存在着直接联系。随着企 业数据规模的不断扩大,数据数量的不断增加以及数据来源的复杂性的不断变 化,企业正在努力解决如何处理所有这些问题。
在大数据的时代,数据资产及其价值利用能力逐渐成为构成企业核心竞争 力的关键要素。然而,大数据应用必须建立在质量可靠的数据之上才有意义, 建立在低质量甚至错误数据之上的应用有可能与其初心南辕北辙背道而驰。因 此,数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的上 限,而低质量的数据则必然拉低数据应用的下限。
数据质量
数据质量中的常见术语
数据收集错误 数据收集错误是指诸如遗漏数据对象或属性值,或不当地包含了其他数据
对象等错误,如:在特定的物种研究中可能混入相似物种的数据。值得注意的 是:测量和数据收集错误可能是系统的也可能是随机的。
数据质量
数据质量中的常见术语
遗漏值
在大型的资料采集任务中,即使有非常严格的品质控制,含有缺项、漏项 的记录也可能很容易的达到10%。因此,遗漏值是统计人员和资料获取人员所不 愿意见到的,但也是无法避免的。特别是在进行敏感问题的调查时,遗漏值问 题就显得更加突出。
常见的数据质量问题
数据质量定义
数据质量
常见的数据质量问题
常见的数据质量问题可以根据数据源的多少和所属层次分为四类。 第一类,单数据源定义层:违背字段约束条件(比如日期出现1月0日)、字段 属性依赖冲突(比如两条记录描述同一个人的某一个属性,但数值不一致)、违反 唯一性(同一个主键ID出现了多次)。 第二类,单数据源实例层:单个属性值含有过多信息、拼写错误、空白值 、噪音数据、数据重复、过时数据等。 第三类,多数据源的定义层:同一个实体的不同称呼(比如冰心和谢婉莹, 用笔名还是用真名)、同一种属性的不同定义(比如字段长度定义不一致、字段类 型不一致等)。 第四类,多数据源的实例层:数据的维度、粒度不一致(比如有的按GB记录 存储量,有的按TB记录存储量;有的按照年度统计,有的按照月份统计)、数据 重复、拼写错误。
企业在数据质量中面临的问题
目前,大多数企业存在的影响数据质量的问题主要有: (1)孤立的数据
孤立的数据又称“数据筒仓”,这些独立的数据组要么属于特定的业务单 元,要么包含在特定的软件中。孤立数据的问题是,组织的其他部分无法访问 它,因为该软件可能与任何其他内容不兼容,或者业务单元严格控制用户权限。
(2)过时的数据 由于不少企业结构庞大而复杂,有多个团队和部门。因此,跨组织收集数
数据预处理
数据预处理方法
数据清洗
(2)缺失值 缺失值又叫做空值,它是指粗糙数据中由于缺少信息而造成的数据的聚类
、分组、删失或截断。缺失值的常见现象是指现有数据集中某个或某些属性的 值是不完全的、空白的。
缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因 是由于机械原因导致的数据收集或保存的失败造成的数据缺失,人为原因是由 于人的主观失误、历史局限或有意隐瞒造成的数据缺失。
再比如,测量小学四年级学生的身高数据,其中一部分数据如下: (1.35,1.40,1.42,1.36,1.43,1.40,1.39) ,单位为米。经过观察得知, 这组数据符合小学四年级学生的身高。 但是,如果数据中存在着下面的一组数据值: (1.35,1.40,1.42,14.8,1.43,1.44,1.39),单位为米。 经过观察可知其中第4个数据为14.8,这个数据明显是不可能的,其原因或 者是输入错误,或者是测量错误,因为这个数据远远偏离正常数据,因此需要 度这类数据进行相应地处理。如果对这些数据不采用一定的方法消除,对结果 将产生较坏的影响。
的规范,数据集合是否保持了统一的格式。常见一致性问题如下: •缺乏系统联动:系统间应该相同的数据却不一致。 •联动出错:在系统中缺乏必要的联动和核对。
(4)可用性 可用性一般用来衡量数据项整合和应用的可用程度。常见可用性问题如下:
•缺乏应用功能,没有相关的数据处理、加工规则或数据模型的应用功能,获取 目标数据。 •缺乏整合共享,数据分散,不易有效整合和共享。
(2)完整性 完整性是指数据的完备程度。常见数据完整性问题如下:
•系统已设定字段,但在实际业务操作中并未完整采集该字段数据,导致数据缺 失或不完整。 •系统未设定字段;或存在数据需求,但未在系统中设定对应的取数字段。
数据质量定义
数据质量
数据质量介绍
(3)一致性 一致性是指系统内外部数据源之间的数据一致程度,数据是否遵循了统一
数据质量定义
数据质量
如何提高数据质量
目前,提高数据质量主要从以下几个方面入手。 (2)加大对数据质量的管理
数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数 据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活 动,提高数据质量以满足业务要求。数据质量管理工作遵循业务引领的原则, 确定重点质量管控范围,并动态调整阶段性管控重点,持续优化。可按照“谁 创建、谁负责;谁加工、谁负责;谁提供、谁负责”的原则界定数据质量管理 责任,由数据流转环节的各责任方对管辖范围内的数据质量负责。
数据预处理
数据预处理方法
数据清洗 下图显示了在数据库中通过分析后得出的数据缺失数和缺失率。
数据预处理
数据预处理方法
数据清洗
(3)噪声数据 噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,这些数据对
数据的分析造成了干扰。噪声数据主要包含错误数据、假数据和异常数据。在 大数据中,最常见的噪声数据是异常数据,也称为异常值。它是指由于系统误 差,人为误差或者固有数据的变异使得他们与总体的行为特征,结构或相关性 等不一样的数据。在机器学习中,异常值也被称为“离群点”,它是指在某种 意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对 于该属性的典型值来说不寻常的属性值。值得注意的是:离群点本身应当是人 们感兴趣的对象,并且它可以是合法的数据对象或值。
数据质量定义
数据质量
如何提高数据质量
目前,提高数据质量主要从以下几个方面入手。 (1)定义一套标准化的数据规范
提高数据质量的首要任务是定义一套标准化的数据规范,对具体数据项的 定义、口径、格式、取值、单位等进行规范说明,形成对该数据项的具体质量 要求。依托这套规范作为衡量和提高数据质量的标尺,可在数据采集、加工和 应用的各环节对关键数据项进行预防性或监测性的核检。广义的企业级数据字 典可以作为数据标准化规范的载体,对企业运营过程中涉及的数据项名称、业 务定义和规则等要素进行收录、规范和编制,对数据项描述信息进行标准化处 理,统一定义对安全性和数据质量的要求,进而为业务运营提供可靠的数据服 务、提高整体数据质量奠定基础。理想情况下广义的企业级数据字典是完备的 ,企业各系统全部数据项都被数据字典收录,并且不允许存在同名不同义或同 义不同名的情况。与此相对,狭义的数据字典通常是针对单一系统的技术属性 标准,为单一系统的开发和应用服务。
数据预处理
数据预处理方法
数据清洗
(4)重复数据 重复数据也叫作重复值,即在数据集中存在相同的数据。重复数据一般有两种 情况,一种是数据值完全相同的多条数据记录;另一种是数据主体相同但匹配 到的唯一属性值不同。这两种情况复合其中一种就是重复数据。下图显示了在 MySQL中存储的部分重复数据,如姓名为“张三”的学生信息,这些重复数据 除了id不同,其他数据都相同。
下图显示了大数据质量的提高因素。在一个企业中,要提高数据质量可以 从信息因素、管理因素、流程因素以及技术因素来综合考虑,全面实施。
数据质量
数据质量中的常见术语
测量误差
测量误差是指测量过程中测量结果与实际值之间的差值,如记录值与实际 的值不相同。测量误差主要分为三大类:系统误差、随机误差、粗大误差。测 量误差产生的原因主要归结为四大类:测量装置误差、环境误差、测量方法误 差以及测试人员误差。此外,测量误差按其对测量结果影响的性质,可分为系 统误差和偶然误差。
据通常是一个缓慢而费力的过程。
(3)复杂的数据 数据可以来自许多不同的来源和不同的形式。如有的数据来自智能手机、
笔记本电脑、企业或个人网站;而有的数据则来自客户服务交互、销售和营销、 小型数据库等。
数据质量定义
数据质量
常见的数据质量问题
多数据源的定义层
03
单数据源定义层
01
04 多数据源的实例层 02 单数据源实例层
地数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条 件的数据予以剔除。
(3)数据排序 数据排序是按照一定顺序将数据排列,以便于研究者通过浏览数据发现一
些明显的特征或趋势,找到解决问题的线索。 (4)数据验证 该步骤的目的是初步评估和判断数据是否满足统计分析的需要,决定是否
需要增加或减少数据量。
数据质量定义
数据质量
数据质量介绍
数据质量一般指数据能够真实、完整反映经营管理实际情况的程度,通常 可在以下几个方面衡量和评价:
(1)准确性 准确性是指数据在系统中的值与真实值相比的符合情况,一般而言,数据
应符合业务规则和统计口径。常见数据准确性问题如下: •与实际情况不符:数据来源存在错误,难以通过规范进行判断与约束。 •与业务规范不符:在数据的采集、使用、管理、维护过程中,业务规范缺乏或 执行不力,导致数据缺乏准确性。
数据预处理
数据预处理方法
数据预处理有多种方法:数据清洗,数据集成,数据变换,数据归约等。 这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降 低实际挖掘所需要的时间。下面对数据预处理的常用方法进行介绍。
数据预处理
数据预处理法
数据清洗
数据清洗通常是通过清洗脏数据、填写缺失的值、光滑噪声数据、清洗重 复数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下 目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。
(1)脏数据 脏数据也叫坏数据,通常是指跟期待的数据不一样、会影响系统正常行为
的数据。例如:源系统中的数据不在给定的范围内或对于实际业务毫无意义, 或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。
例如,员工表中有一个员工,名称叫“张超”,但是公司里并没有这个人 ,该员工数据就是脏数据。
数据预处理
数据预处理简介
数据预处理是对于数据的预先处理,数据预处理的作用就是为了提高数据 挖掘的质量。数据预处理内容主要包含以下几点:
(1)数据审核 在大数据分析中,对于从不同渠道取得的统计数据,在审核的内容和方法
上有所不同。对于原始数据应主要从完整性和准确性两个方面去审核。 (2)数据筛选 数据筛选包括两方面的内容:一是将某些不符合要求的数据或有明显错误
相关文档
最新文档