缺失数据

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多重插补
多重插补和贝叶斯估计的思想是一致的,但是多重 插补弥补了贝叶斯估计的几个不足。 (1)贝叶斯估计以极大似然的方法估计,极大似然 的方法要求模型的形式必须准确,如果参数形式不 正确,将得到错误结论,即先验分布将影响后验分 布的准确性。而多重插补所依据的是大样本渐近完 整的数据的理论,在数据挖掘中的数据量都很大, 先验分布将极小的影响结果,所以先验分布对结果 的影响不大。
缺失数据(1) 缺失数据
缺失数据
在实践工作中,常会因为某些原因导致数据缺失, 只能观测到一部分数据,统计学中一般称为缺失数 据 原因: 信息暂时无法获取 信息是被遗漏的 某个或某些属性是不可用的 某些信息(被认为)是不重要的 获取这些信息的代价太大 系统实时性能要求较高,即要求得到这些信息前迅 速做出判断或决策
类型ቤተ መጻሕፍቲ ባይዱ
完全随机缺失:数据的缺失是随机的,数据的缺失 完全随机缺失 不依赖于任何不完全变量或完全变量 随机缺失:数据的缺失不是完全随机的,即该类数 随机缺失: 据的缺失依赖于其他完全变量 非随机、不可忽略缺失 非随机、不可忽略缺失:不完全变量中数据的缺 失依赖于不完全变量本身,这种缺失是不可忽略的
缺失数据处理方法
(如均值插补会降低变量之间的相关关系,回归插 补则会人为地加大变量之间的相关关系),尽管由 于随机回归插补引入随机误差项,能够缓解这一问 题,但是随机误差项的确定是比较困难的。
多重插补方法
多重插补建立在贝叶斯理论基础之上,基于EM算 法(最大期望算法 )来实现对缺失数据的处理。 分为三个步骤: ①为每个空值产生一套可能的插补值,这些值反映了 无响应模型的不确定性;每个值都可以被用来插补 数据集中的缺失值,产生若干个完整数据集合。 ②每个插补数据集合都用针对完整数据集的统计方法 进行统计分析。 ③对来自各个插补数据集的结果,根据评分函数进行 对来自各个插补数据集的结果,
如果数据集的分布满足正态分布,填充的效果就好, 但是在现实的应用中,人们对所拥有的数据一般有 很少的先验知识,所以这种方法是不令人满意的。
2.随机插补法
从回答单位随机抽取替代单位进行插补的方 法。
3.回归插补法
该方法主要是通过建立目标变量与辅助信息 之间的近似函数模型来实现缺失数据的插补。
4.随机回归插补
选择,产生最终的插补值。 选择,产生最终的插补值。
假设一组数据,包括三个变量Y1,Y2,Y3,它们的联合分布 为正态分布,将这组数据处理成三组,A组保持原始数据,B组 仅缺失Y3,C组缺失Y1和Y2。在多值插补时,对A组将不进行 任何处理,对B组产生Y3的一组估计值,对C组作产生Y1和Y2 的一组成对估计值。 当用多值插补时,对A组将不进行处理,对B、C组将完整的 样本随机抽取形成为m组(m为可选择的m组插补值),每组 个案数只要能够有效估计参数就可以了。对存在缺失值的属性 的分布作出估计,然后基于这m组观测值,对于这m组样本分 别产生关于参数的m组估计值,给出相应的预测即,这时采用 的估计方法为极大似然法,在计算机中具体的实现算法为期望 最大化法(EM)。对B组估计出一组Y3的值,对C将利用 Y1,Y2,Y3它们的联合分布为正态分布这一前提,估计出一组 (Y1,Y2)。 的联合分布为正态分布。 上例中假定了Y1,Y2,Y3的联合分布为正态分布。这个假设 是人为的,但是已经通过验证( 是人为的,但是已经通过验证(Graham和Schafer于 1999),非正态联合分布的变量,在这个假定下仍然可以估 ),非正态联合分布的变量 非正态联合分布的变量,
计到很接近真实值的结果。 计到很接近真实值的结果。
多重插补
多重插补法的出现,弥补了单一插补法的缺陷。 第一,多重插补过程产生多个中间插补值,可以利 用插补值之间的变异反映无回答的不确定性,包括 无回答原因已知情况下抽样的变异性和无回答原因 不确定造成的变异性。 第二,多重插补通过模拟缺失数据的分布,较好地 保持变量之间的关系。 第三,多重插补能给出衡量估计结果不确定性的大 量信息,单一插补给出的估计结果则较为简单。
直接删除: 直接删除:也就是将存在遗漏信息属性值的 对象(元组、记录)删除,从而得到一个完备 的信息表. 特殊值填充: 特殊值填充:将缺值作为一种特殊的属性值 来处理,它不同于其他的任何属性值.如所 有的缺值都用“unknown”填充,这样将可 能导致严重的数据偏离,不推荐!
可能值插补缺失值 :可以用回归、贝叶斯 形式化方法或判定树归纳确定,这些方法直 接处理的是模型参数的估计而不是空缺值预 测本身. 与前面的方法相比,它使用现存数据的多数 信息来推测空缺值. 保留缺失数据不予处理:不对缺失数据做任 保留缺失数据不予处理 何处理
单一插补
单一插补是以估算为基础的方法,是在缺失 数据被替代后,对新合成的数据进行相应的 统计分析。 1:均值插补 2:随机插补 3:回归插补 4:回归随机插补
1.均值插补法
将信息表中的属性分为数值属性和非数值属性来分 别进行处理. 数值型:根据该属性在其他所有对象取值的平均值 来填充该缺失的属性值; 非数值型:根据统计学中的众数原理,用该属性在 其他所有对象的取值次数最多的值(即出现频率最 高的值)来补齐该缺失的属性值.
该方法就是在回归插补值的基础上再加上残 差项。 残差项的分布可以包括正态分布,也可以是 其他的非正态分布。
单一插补法优缺点
单一插补法改变了传统方法将缺失值忽略不考虑的 习惯,使得各种统计分析均可以在插补后的完整数 据集上展开。 但单一插补法的缺点也是显而易见的:
无论采用何种方法,都存在扭曲样本分布的问题
(2)贝叶斯估计仅要求知道未知参数的先验 分布,没有利用与参数的关系。而多重插补 对参数的联合分布作出了估计,利用了参数 间的相互关系。
多重替代法(multiple imputation)(Rubin, 1977) 。 ƒ它从相 似情况中或根据后来在可观测的数据上得到的缺省数据的分布情 况给每个缺省数据赋予一个模拟值。结合这种方法,研究者可以 比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质 进行推断(Little and Rubin,1987; ubin,1987, 1996)。
相关文档
最新文档