数据缺失及其填补方法综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据缺失的处理方法
列表删除
删除法
基于完整观测单位的方法
个案删除（配对删除）
加权调整法单一填补法
基本方法
基于填补的方法
多重填补法
人工填补法均值填补法回归填补法热平台填补法（Hot deck 填补法、就近补齐法）冷平台填补法极大似然估计期望最大化法 K最近距离邻法 C4.5方法随机回归填补法（PMM法）趋势得分法马尔科夫链蒙特卡罗法（MCMC）
LOGO
3
Part 1
引言
在社会调查资料中，最为常见的问题就是数据缺失。造成数据缺失的原因有：失访、无响应或是回答问题不合格等等。统计学上，将含有缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的影响是很大的。所以在统计学中，为了能够更加充分地利用已经搜集到的数据，国内外很多学者都对缺失数据的处理提出了自己独到的见解，来挽救有缺失的调查数据，以保证研究工作顺利进行。
的结构不但复杂性较高（随着变量的增加，指数级增加），网络维护代价昂贵，而且它的估计参数较多，为系统带来了高方差，影响
了它的预测精度。当在任何一个对象中的缺失值数量很大时，存在
指数爆炸的危险。人工神经网络可以有效的对付空值，但人工神经网络在这方面
的研究还有待进一步深入展开。
LOGO
16
Part 3
TRANSITION PAGE
过渡页
一
引言
二
三四
数据缺失简介数据缺失的处理方法处理方法的选择与评价
五
总结
LOGO
23
Part 5
总结
这段时间，阅读了相关的文献资料，对数据缺失的概念、缺失原因、缺失机制、缺失模式以及一些基本填补方法有了大致的理解，并初步了解了数据缺失处理方法的研究现状。对于数据缺失国内外学者已经做了广泛的研究，但没有哪一种处理缺失数据的方法是普遍适用的，每种方法都存在不如人意之处。目前各种新兴的方法层出不穷, 如人工
缺失模式（ Pattern）
假设完全数据资料阵 y 是由m个观测、 n个变量组成的m×n矩阵，通过分析这个矩阵的特点，可以推断出数据缺失模式。
LOGO
11
TRANSITION PAGE
过渡页
一
引言
二
三四五
数据缺失简介数据缺失的处理方法处理方法的选择与评价总结
LOGO
12
Part 3
数据缺失及其填补方法综述
报告人：邵宏赡日期：2013.4
LOGO
1
CONTENTS PAGE
目录页
一二三四五
引言
主要内容
数据缺失简介
数据缺失的处理方法处理方法评价总结
LOGO
2
TRANSITION PAGE
过渡页
一
引言
二
三四五
数据缺失简介数据缺失的处理方法处理方法的选择与评价总结
受访者选取失误。例如调查工资情况，选取的受访者是婴幼儿。
LOGO
7
Part 2
数据缺失简介
产生机制（ Mechanism ）
Little和Rubin针对缺失数据，探讨缺失数据与目标变量是否有关，定义了3种
不同的缺失机制。
MCAR MAR MNAR
完全随机缺失 (Missing Completely At Random) ：数据的缺失与不完全变量以及完全变量都是无关的。
一个重要标准, 但实际调查中经常遇到数据缺失的情况。
无回答有2种表现形式: 单位无回答(unit non-response)和项目无回答(item nonresponse) 。 “单位无回答”——被调查者不愿意或者不能够回答整张的问卷; “项目无回答”——被调查者拒绝回答个别的调查项目。
LOGO
6
Part 2
措施, 但是由于丢弃不完整单位的信息, 并且没有提供一个内在的方差控制, 所
简单而有效的。它的不足之处在于，删除缺失数据的过程中减少了原始的数据，导致了信息的损耗。因此, 当缺失数据所占比例较大,特别当缺失数据非随机分布时, 这种方法可能导致数据发生偏离, 从而引出错误的结论。
以在样本量较大时, 易出现错误的结果。
三、分析多重插补数据集比单一插补需要花费更多精力。
补给出的估计结果则较为简单。
LOGO
15
Part 3
数据缺失的处理方法
不处理就是直接在包含空值的数据上进行数据挖掘。贝叶斯网络仅适合于对领域知识具有一定了解的情况，至少对
变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网
不处理
贝叶斯网络人工神经网络
四
五
处理方法的选择与评价
总结
LOGO
18
Part 4
处理方法的选择与评价
处理方法的选择
LOGO
19
Part 4
处理方法的选择与评价
处理方法的评价
LOGO
20
Part 4
处理方法的选择与评价
LOGO
21
Part 4
处理方法的选择与评价
处理方法的评价
LOGO
22
数据缺失简介
缺失模式（ Pattern）
数据缺失模式主要研究哪些变量缺失，更确切的说，关注的是缺失数据矩阵R的分布。当一维目标变量出现缺失数据时，我们在数据处理
过程中首先要考虑缺失数据产生机制，而对于多维目标变量而言，除了
考虑缺失数据产生机制外，还要判断数据的缺失模式。
LOGO
10
Part 2
数据缺失简介
随机缺失 (Missing At Random)：数据的缺失仅仅依赖于完全变量。
非随机缺失(Not Missing At Random)：不完全变量中数据的缺失，依赖于不完全变量本身。这种缺失是不可忽略的。
LOGO
8
Part 2
数据缺失简介
产生机制（ Mechanism ）
LOGO
9
Part 2
LOGO
4
TRANSITION PAGE
过渡页
一
引言
二
三四五
数据缺失简介
数据缺失的处理方法处理方法的选择与评价总结
LOGO
5
Part 2
数据缺失简介
概念（Concept） ——数据缺失是指在数据采集时由于某种原因应该
得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的
不处理
贝叶斯网络人工神经网络
LHale Waihona Puke GO13Part 3
数据缺失的处理方法
列表删除
删除法
这种方法简便易行。在被调查对象出现多个变量的缺失, 并且被删除的含缺失的数据量在整个数据集中的数据量占的比例非常小的情况下, 是非常
基于完整观测单位的方法
加权调整法
个案删除（配对删除）
加权是一个减少偏差的比较简单的
LOGO
25
LOGO
26
神经网络, 机器智能模型等。所以针对各种实际问题, 要注意分清问题的实质, 适当地运
用处理方法才是解决好实际问题的关键所在，此外，融合相关领域、相关学科的优秀算法，实现创新。
LOGO
24
Part 5
总结
计划：
继续研读针对缺失数据构造分类器的相关文献资料，摸索其中的研究理论和方法，并结合相关学科的先进理论（核主元分析，遗传算法等），探究一种更高效的处理缺失数据分类问题的方法，与已有方法加以比较验证。
数据缺失简介
缺失原因（Reason）
在统计调查过程中，数据缺失是不可避免的，造成这种现象的原因是多方面的，主要有以下几种：在存储数据的过程中，由于机器的损坏造成数据存储失败；调查员在采集数据过程中，由于主观因素人为地认为数据不重要或无用，而私自丢弃数据；调查员信息录入失误；受访者拒绝透露被调查信息，或回答错误信息；
LOGO
14
Part 3
数据缺失的处理方法
单一插补的优点 1、标准的完全数据分析方法 2、对公众应用数据库，程序运行一次
单一填补法
基于填补的方法
多重填补法
多重插补缺点：
一、生成多重插补比单一插补需要更多工作二、贮存多重插补数据集需要更多存储空间
缺点—低估估计量的方差人工填补法改进—校正估计量的方差，主要利用Jackknife、Bootstrap 均值填补法等工具，给出方差的相合估计。回归填补法热平台填补法（Hot deck 填补法、就近补齐法）冷平台填补法多重填补法1977年由Rubin首先提出，极大似然估计经过Meng和Schafer等人不断的完善和综合期望最大化法(EM) 已形成一个比较系统的理论，该法有以下优 K均值聚类法（ K-means clustering ）点：①多重插补过程产生多个中间插补值， C4.5方法可以利用插补值之间的变异反映无回答的不随机回归填补法（PMM法）确定性，包括无回答原因已知情况下抽样的趋势得分法马尔科夫链蒙特卡罗法（MCMC）变异性和无回答原因不确定造成的变异性。 ②多重插补通过模拟缺失数据的分布，较好地保持变量之间的关系。③多重插补能给出衡量估计结果不确定性的大量信息，单一插
数据缺失的处理方法
常用的数据缺失填补软件
数据填补通常是一件非常繁琐的工作, 很多常用的统计软件以及专门为其编写的软件都可以完成。从中可以看出，各种软件的着重点不同, 使用效果也不尽相同, 在使用时要根据个人实际需要加以选择。
LOGO
17
TRANSITION PAGE
过渡页
一
引言
二
三
数据缺失简介数据缺失的处理方法