数据缺失及其填补方法综述PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Little和Rubin针对缺失数据,探讨缺失数据与目标变量是否有关,定义了3种 不同的缺失机制。
MCAR
MAR
MNAR
完全随机缺失 (Missing Completely At Random) :数据的缺失 与不完全变量以及完全 变量都是无关的。
随机缺失 (Missing At Random): 数据的缺失仅仅依赖 于完全变量。
简单而有效的。
个案删除(配对删除)
它的不足之处在于,删除缺失数据的过程中减
加权调整法
少了原始的数据,导致了信息的损耗。因此, 当缺 失数据所占比例较大,特别当缺失数据非随机分布时,
加权是一个减少偏差的比较简单的
这种方法可能导致数据发生偏离, 从而引出错误的 结论。
措施, 但是由于丢弃不完整单位的信息,
在存储数据的过程中,由于机器的损坏造成数据存储失败; 调查员在采集数据过程中,由于主观因素人为地认为数据不重要 或无用,而私自丢弃数据; 调查员信息录入失误;
受访者拒绝透露被调查信息,或回答错误信息;
受访者选取失误。例如调查工资情况,选取的受访者是婴幼儿。
LOGO 7
Part 2
数据缺失简介
产生机制( Mechanism )
C4.5方法
可以利用插补值之间的变异反映无回答的不
随机回归填补法(PMM法)
确定性,包括无回答原因已知情况下抽样的
趋势得分法
马尔科夫链蒙特卡罗法(MCMC) 变异性和无回答原因不确定造成的变异性。
多重插补缺点: 一、生成多重插补比单一插补需要更多工作 二、贮存多重插补数据集需要更多存储空间
②多重插补通过模拟缺失数据的分布,较好 地保持变量之间的关系。③多重插补能给出 衡量估计结果不确定性的大量信息,单一插
并且没有提供一个内在的方差控制, 所
以在样本量较大时, 易出现错误的结果。
LOGO 14
Part 3
数据缺失的处理方法
单一插补的优点 1、标准的完全数据分析方法
2、对公众应用数据库,程序运行一次
人工填补法 均值填补法 回归填补法
源自文库
缺点—低估估计量的方差 改进—校正估计量的方差,主要利用Jackknife、Bootstrap 等工具,给出方差的相合估计。
LOGO 4
过渡页 TRANSITION PAGE 二
一
引言
数据缺失简介
三
数据缺失的处理方法
四
处理方法的选择与评价
五
总结
LOGO 5
Part 2
数据缺失简介
概念(Concept)——数据缺失是指在数据采集时由于某种原因应该得
到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。
统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的 一个重要标准, 但实际调查中经常遇到数据缺失的情况。
无回答有2种表现形式: 单位无回答(unit non-response)和项目无回答(item nonresponse) 。
“单位无回答”——被调查者不愿意或者不能够回答整张的问卷; “项目无回答”——被调查者拒绝回答个别的调查项目。
LOGO 6
Part 2
数据缺失简介
缺失原因(Reason)
在统计调查过程中,数据缺失是不可避免的,造成这种现象的原因是多方面 的 ,主要有以下几种:
引言
在社会调查资料中,最为常见的问题就是 数据缺失。造成数据缺失 的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有 缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的 影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到 的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解, 来挽救有缺失的调查数据,以保证研究工作顺利进行。
K最近距离邻法
C4.5方法
随机回归填补法(PMM法) 趋势得分法 马尔科夫链蒙特卡罗法(MCMC)
LOGO 13
Part 3
数据缺失的处理方法
这种方法简便易行。在被调查对象出现多个变
量的缺失, 并且被删除的含缺失的数据量在整个数
基于完整观测 单位的方法
删除法
列表删除
据集中的数据量占的比例非常小的情况下, 是非常
热平台填补法(Hot deck 填补法、就近补齐法)
单一填补法
冷平台填补法
多重填补法1977年由Rubin首先提出,
极大似然估计
经过Meng和Schafer等人不断的完善和综合
基于填补的方法
多重填补法
期望最大化法(EM)
已形成一个比较系统的理论,该法有以下优
K均值聚类法( K-means clustering ) 点:①多重插补过程产生多个中间插补值,
LOGO 10
Part 2
数据缺失简介
缺失模式( Pattern)
假设完全数据资料阵 y 是由m个观测、 n个变量组 成的m×n矩阵,通过分析这 个矩阵的特点,可以推断出 数据缺失模式。
LOGO 11
过渡页 TRANSITION PAGE 三
一
引言
二
数据缺失简介
数据缺失的处理方法
四
处理方法的选择与评价
非随机缺失(Not Missing At Random):不 完全变量中数据的缺失, 依赖于不完全变量本身。 这种缺失是不可忽略的。
LOGO 8
Part 2
数据缺失简介
产生机制( Mechanism )
LOGO 9
Part 2
数据缺失简介
缺失模式( Pattern)
数据缺失模式主要研究哪些变量缺失,更确切的说,关注的是缺失 数据矩阵R的分布。当一维目标变量出现缺失数据时,我们在数据处理过 程中首先要考虑缺失数据产生机制,而对于多维目标变量而言,除了考 虑缺失数据产生机制外,还要判断数据的缺失模式。
数据缺失及其填补方法综述
LOGO 1
目录页 CONTENTS PAGE
一
主 要
二
内
三
容
四
五
引言 数据缺失简介 数据缺失的处理方法 处理方法评价 总结
LOGO 2
过渡页 TRANSITION PAGE 一
引言
二 三 四 五
数据缺失简介 数据缺失的处理方法 处理方法的选择与评价 总结
LOGO 3
Part 1
五
总结
LOGO 12
Part 3
数据缺失的处理方法
基 本 方 法
基于完整观测 单位的方法
删除法 加权调整法
单一填补法
基于填补的方法
不处理
多重填补法
贝叶斯网络 人工神经网络
列表删除
个案删除(配对删除)
人工填补法 均值填补法 回归填补法 热平台填补法(Hot deck 填补法、就近补齐法) 冷平台填补法 极大似然估计 期望最大化法
MCAR
MAR
MNAR
完全随机缺失 (Missing Completely At Random) :数据的缺失 与不完全变量以及完全 变量都是无关的。
随机缺失 (Missing At Random): 数据的缺失仅仅依赖 于完全变量。
简单而有效的。
个案删除(配对删除)
它的不足之处在于,删除缺失数据的过程中减
加权调整法
少了原始的数据,导致了信息的损耗。因此, 当缺 失数据所占比例较大,特别当缺失数据非随机分布时,
加权是一个减少偏差的比较简单的
这种方法可能导致数据发生偏离, 从而引出错误的 结论。
措施, 但是由于丢弃不完整单位的信息,
在存储数据的过程中,由于机器的损坏造成数据存储失败; 调查员在采集数据过程中,由于主观因素人为地认为数据不重要 或无用,而私自丢弃数据; 调查员信息录入失误;
受访者拒绝透露被调查信息,或回答错误信息;
受访者选取失误。例如调查工资情况,选取的受访者是婴幼儿。
LOGO 7
Part 2
数据缺失简介
产生机制( Mechanism )
C4.5方法
可以利用插补值之间的变异反映无回答的不
随机回归填补法(PMM法)
确定性,包括无回答原因已知情况下抽样的
趋势得分法
马尔科夫链蒙特卡罗法(MCMC) 变异性和无回答原因不确定造成的变异性。
多重插补缺点: 一、生成多重插补比单一插补需要更多工作 二、贮存多重插补数据集需要更多存储空间
②多重插补通过模拟缺失数据的分布,较好 地保持变量之间的关系。③多重插补能给出 衡量估计结果不确定性的大量信息,单一插
并且没有提供一个内在的方差控制, 所
以在样本量较大时, 易出现错误的结果。
LOGO 14
Part 3
数据缺失的处理方法
单一插补的优点 1、标准的完全数据分析方法
2、对公众应用数据库,程序运行一次
人工填补法 均值填补法 回归填补法
源自文库
缺点—低估估计量的方差 改进—校正估计量的方差,主要利用Jackknife、Bootstrap 等工具,给出方差的相合估计。
LOGO 4
过渡页 TRANSITION PAGE 二
一
引言
数据缺失简介
三
数据缺失的处理方法
四
处理方法的选择与评价
五
总结
LOGO 5
Part 2
数据缺失简介
概念(Concept)——数据缺失是指在数据采集时由于某种原因应该得
到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。
统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的 一个重要标准, 但实际调查中经常遇到数据缺失的情况。
无回答有2种表现形式: 单位无回答(unit non-response)和项目无回答(item nonresponse) 。
“单位无回答”——被调查者不愿意或者不能够回答整张的问卷; “项目无回答”——被调查者拒绝回答个别的调查项目。
LOGO 6
Part 2
数据缺失简介
缺失原因(Reason)
在统计调查过程中,数据缺失是不可避免的,造成这种现象的原因是多方面 的 ,主要有以下几种:
引言
在社会调查资料中,最为常见的问题就是 数据缺失。造成数据缺失 的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有 缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的 影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到 的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解, 来挽救有缺失的调查数据,以保证研究工作顺利进行。
K最近距离邻法
C4.5方法
随机回归填补法(PMM法) 趋势得分法 马尔科夫链蒙特卡罗法(MCMC)
LOGO 13
Part 3
数据缺失的处理方法
这种方法简便易行。在被调查对象出现多个变
量的缺失, 并且被删除的含缺失的数据量在整个数
基于完整观测 单位的方法
删除法
列表删除
据集中的数据量占的比例非常小的情况下, 是非常
热平台填补法(Hot deck 填补法、就近补齐法)
单一填补法
冷平台填补法
多重填补法1977年由Rubin首先提出,
极大似然估计
经过Meng和Schafer等人不断的完善和综合
基于填补的方法
多重填补法
期望最大化法(EM)
已形成一个比较系统的理论,该法有以下优
K均值聚类法( K-means clustering ) 点:①多重插补过程产生多个中间插补值,
LOGO 10
Part 2
数据缺失简介
缺失模式( Pattern)
假设完全数据资料阵 y 是由m个观测、 n个变量组 成的m×n矩阵,通过分析这 个矩阵的特点,可以推断出 数据缺失模式。
LOGO 11
过渡页 TRANSITION PAGE 三
一
引言
二
数据缺失简介
数据缺失的处理方法
四
处理方法的选择与评价
非随机缺失(Not Missing At Random):不 完全变量中数据的缺失, 依赖于不完全变量本身。 这种缺失是不可忽略的。
LOGO 8
Part 2
数据缺失简介
产生机制( Mechanism )
LOGO 9
Part 2
数据缺失简介
缺失模式( Pattern)
数据缺失模式主要研究哪些变量缺失,更确切的说,关注的是缺失 数据矩阵R的分布。当一维目标变量出现缺失数据时,我们在数据处理过 程中首先要考虑缺失数据产生机制,而对于多维目标变量而言,除了考 虑缺失数据产生机制外,还要判断数据的缺失模式。
数据缺失及其填补方法综述
LOGO 1
目录页 CONTENTS PAGE
一
主 要
二
内
三
容
四
五
引言 数据缺失简介 数据缺失的处理方法 处理方法评价 总结
LOGO 2
过渡页 TRANSITION PAGE 一
引言
二 三 四 五
数据缺失简介 数据缺失的处理方法 处理方法的选择与评价 总结
LOGO 3
Part 1
五
总结
LOGO 12
Part 3
数据缺失的处理方法
基 本 方 法
基于完整观测 单位的方法
删除法 加权调整法
单一填补法
基于填补的方法
不处理
多重填补法
贝叶斯网络 人工神经网络
列表删除
个案删除(配对删除)
人工填补法 均值填补法 回归填补法 热平台填补法(Hot deck 填补法、就近补齐法) 冷平台填补法 极大似然估计 期望最大化法