缺失数据的插补调整重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:1002-1566(2001 06-0047-07缺失数据的插补调整
ΞΞΞ
金勇进
(中国人民大学统计学系, 北京100872
摘要:插补是另一类对缺失数据进行调整, 以减小估计偏差的方法估计, 均值插补, 随机插补, 回归插补和多重插补。关键词:缺失数据; 插补调整中图分类
号:O212;C81
, 一种被称为“单位无回答”, 它是指入选择本单位由于各种原因没有接受调查, 可以说这些样本单位交的是一份白卷。另一种被称为“项目无回答”, 它是指被调查单位虽接受调查, 但在某些调查项目上没有提供有效回答。与单位无回答相比, 项目无回答或多或少地提供了一些被调查单位的信息。上一讲中介绍的加权调整法虽然也可以应用于“项目无回答”,
但主要是对“单位无回答”进行的调整。而本文将要介绍的插补调整法虽然也可以应用于“单位无回答”, 但主要是对“项目无回答”进行调整的方法。所谓插补是指, 采用一定的方式, 为调查中的缺失数据确定一个合理的替补值, 插补到原缺失数据的位置上。插补可以达到二个调整的目的:一个是减小由于数据缺失可能造成的估计量偏差, 为此, 就要使确定的替补值尽可能地接近缺失的原数据值。事实上缺失数据的真值我们无法得知, 因此所追求的只能是确定替补值方法的合理和有效。调整的第二个目的是力图构造一个完整的数据集。在调整前, 由于缺失值的存在, 使原数据
集上出现许多“窟窿”, 给一些统计分析方法的使用带来不便。采用插补的方式填补了缺失值的空缺, 就为后面分析人员的工作提供了方便, 他们在使用标准统计软件的同时, 不必繁琐地说明对缺失值进行处理的方法, 大大节省了精力和时间。而且不同分析人员使用的是同一套经过插补调整的数据, 也保证了分析结果的一致性。
插补的效率如何, 取决于替补值与缺失值的近似程度。为了提高效率, 对研究总体进行分层, 使层内各单位诸方面情况尽可能相似, 利用同一层内回答单位的信息产生出缺失数据的替补值, 是进行插补的基本思路。因为可以利用不同的信息源, 采用不同的方式生成替补值, 所以有不同的插补方法。本文将对几种比较典型的方法做以简要介绍。
二、演绎估计法
演绎估计法适用于这样一种情况, 目标变量Y 的缺失值可以以很高的确定性由其它辅助
7
4缺失数据的插补调整
ΞΞΞ收稿日期:2000-08-20
基金项目:国家教育部人文社会科学研究“九五”规划项目资助课题
变量来决定。这意味着, 目标变量与辅助变量之间存在着已知的函数关系, 即Z i =f (X i 。式
中Z i 是第i 个单位目标变量缺失值的估计值(替补值 ,X i 是第i 个单位已知的辅助变量值。例如美国在一项关于医疗设备使用和费用的调查中, 多处使用演绎估计法对缺失值进行插补。1. 对种族缺失值的插补函数式为Z i =X i , 即如果某人种族数据缺失, 可采用其配偶的种族; 如果某家庭成员种族资料缺失, 可使用户主的种族。2. 如果年龄项目数据缺失, 则利用出生年份资料进行估计。若调查是在1990年进行, 令X i 为出生年份, 则Z i =1990-X i 。3.
若就业收入的数据缺失, 则利用其它4个相关的辅助变量信息推算。令X 1i 、X 2i 分别为该被调查者的主要职业和第二职业的周工资率,X 3i 、X 4i 分别为其在主要职业和第二职业上的工作周数入的估计值为Z i =X 1i . X 3i +X 2i . X 4i 。
由此看出,f (X i 可假定为许多不同的形式Y 与关系, 且X 值已知。实践中, 。
三, 使组内各单位的主要特征相似。然后分别计算各
, 将各组均值作为组内所有缺失项的替补值。均值插补法的特点是操作简便, 并且对均值和总量这样的单变量参数可以有效地降低其点估计的偏差。但它的弱点也比较突出。一个是插补的结果歪曲了样本单位中Y 变量的分布, 因为同组中缺失数据的替补值都由该组的平均值充当, 使得其分布状况受到由各组回答单位数据计算出的组均值的制约, 其次, 插补结果将导致在均值和总量估计中对方差的低估, 因为同一组内样本单位的离差将由于同一个数值的多次出现而偏低, 因此均值插补适用的场合是仅仅进行简单的点估计, 而不适用于需要方差估计等比较复杂的分析。
四、随机插补法
为避免均值插补中替补值过于凝集的弱点, 随机插补应运而生。这种方法是指, 采用某种
概率抽样的方式, 从回答单位的资料中抽取缺失数据的替补值。为便于说明, 令某项目回答数据个数为n 1, 缺失数据个数为n 0, 则n =n 1+n 0, 现从n 1个数据中随机抽取n 0个替补值, 则样本构成为:
样本={y1,y 2, …,y n 1,y 3n 1+1,y 3n 1+2, …,y 3n }
此时, 目标变量的均值估计为:
y hD =n
(n 1 y 1+n 0 y 3
式中, y 3
=∑n
1
i =1
H i y i /n 0, 如果采用不重复抽样, H i =0或1; 如果采用重复抽样, 则H 为多项式分配, 若h 1+…+h n1=n -n 1, 则
P[H =(h 1,h 2, …,h n 1 ]=
( h 1! h 2! h n 1!
否则上面所定义的概率为0, 由此得出
E (H i =
n 1
84
数理统计与管理20卷5期2001
年
Var (H i =(n -n 1 (1-n 1 n 1
Cov (H i ,H j =-n 21
(i ≠j 若假设i 与j 独立, 由上面结果可以导出E ( y HD = Y Var ( y HD =(
n 1-N S 2+(1-n 1 (1-n
S 2式中,S 2为总体方差。可以看出, 随机插补法估计量 y HD , 第一项是仅用回答单位数据进行估计的方差, 即
Var ( y 1 =(N 2n 1=(n 1-N
S 2, 量方差增加项。, 变量分布的弱点, , 这就使随机插补法在估计与样本分布, , 将样本单位进行事后分层, 然后在各层中使用, 。
五、回归插补法
回归插补的基本思想是利用辅助变量X k =(k =1,2…k 与目标变量Y 的线性关系, 建立
回归模型, 利用已知的辅助变量的信息, 对目标变量的缺失值进行估计。于是第i 个缺失值的估计值可以表示为:
Z i =β0+∑
K
k =1βk X ki +e i 式中的β是回归系数。若辅助变量是定性变量时, 可以采用虚
拟变量的处理方法:若目标
变量Y 是定性变量, 则考虑通过Logit 变换, 进行Logistic 线性回归。与随机插补和均值插补的不同点在于:Zi 不是取自回答单位的实际值, 也不是由回答单位数据计算的均值, 而是利用目标变量与辅助变量的线性关系, 采用标准方法(如最小平方
法计算出的估计值。
上面的回归模型可以有不同的演变形式。例如, 对于连续性固定样本调查中的缺失值, 令β0=e i =0, 并指定前期调查数据为唯一的辅助变量, 则上式变成:Z i =β