缺失数据的插补调整重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缺失数据的插补调整重点
文章编号:1002-1566(2001 06-0047-07缺失数据的插补调整
ΞΞΞ
金勇进
(中国人民大学统计学系, 北京100872
摘要:插补是另一类对缺失数据进行调整, 以减小估计偏差的方法估计,
均值插补, 随机插补, 回归插补和多重插补。关键词:缺失数据;
插补调整中图分类号:O212;C81
, 一种被称为“单位无回答”, 它是指入选择本单位由于各种原因没有接受调查, 可以说这些样本单位交的是一份白卷。另一种被称为“项目无回答”,
它是指被调查单位虽接受调查,
但在某些调查项目上没有提供有效回答。与单位无回答相比,
项目无回答或多或少地提供了一些被调查单位的信息。上一讲中介绍的加权调整
法虽然也可以应用于“项目无回答”,
但主要是对“单位无回答”进行的调整。而本文将要介绍的插补调整法虽然也可以应用于“单位无回答”, 但主要是对“项目无回答”进行调整的方法。所谓插补是指, 采用一定的方式, 为调查中的缺失数据确定一个合理的替补值, 插补到原缺失数据的位置上。插补可以达到二个调整的目的:一个是减小由于数据缺失可能造成的估计量偏差, 为此,
中Z i 是第i 个单位目标变量缺失值的估计值(替补值 ,X i 是第i
个单位已知的辅助变量值。例如美国在一项关于医疗设备使用和费用的调查中,
多处使用演绎估计法对缺失值进行插补。1. 对种族缺失值的插补函数式为Z i =X i , 即如果某人种族数据缺失, 可采用其配偶的种族; 如果某家庭成员种族资料缺失,
可使用户主的种族。2. 如果年龄项目数据缺失,
则利用出生年份资料进行估计。若调查是在1990年进行, 令X i 为出生年份, 则Z i
=1990-X i 。3.
若就业收入的数据缺失, 则利用其它4个相关的辅助变量信息推算。令X 1i 、X 2i 分别为该被调查者的主要职业和第二职业的周工资率,X 3i 、X 4i
分别为其在主要职业和第二职业上的工作周数入的估计值为Z i =X 1i . X 3i +X 2i . X 4i 。
由此看出,f (X i 可假定为许多不同的形式Y 与关系, 且X 值已知。实践中, 。
三, 使组内各单位的主要特征相似。然后分别计算各
, 将各组均值作为组内所有缺失项的替补值。均值插补法的特点是操作简便,
并且对均值和总量这样的单变量参数可以有效地降低其点估计的偏差。但它的弱
点也比较突出。一个是插补的结果歪曲了样本单位中Y 变量的分布,
因为同组中缺失数据的替补值都由该组的平均值充当,
使得其分布状况受到由各组回答单位数据计算出的组均值的制约, 其次,
插补结果将导致在均值和总量估计中对方差的低估,
因为同一组内样本单位的离差将由于同一个数值的多次出现而偏低,
因此均值插补适用的场合是仅仅进行简单的点估计,
而不适用于需要方差估计等比较复杂的分析。
四、随机插补法
为避免均值插补中替补值过于凝集的弱点, 随机插补应运而生。这种方法是指, 采用某种
概率抽样的方式, 从回答单位的资料中抽取缺失数据的替补值。为便于说明, 令某项目回答数据个数为n 1, 缺失数据个数为n 0, 则n =n 1+n 0, 现从n
1个数据中随机抽取n 0个替补值, 则样本构成为:
样本={y1,y 2, …,y n 1,y 3n 1+1,y 3n 1+2, …,y 3n }
此时, 目标变量的均值估计为:
y hD =n
(n 1 y 1+n 0 y 3
式中, y 3
=∑n
1
i =1
H i y i /n 0, 如果采用不重复抽样, H i =0或1; 如果采用重复抽样, 则H 为多项
式分配, 若h 1+…+h n1=n -n 1, 则
P[H =(h 1,h 2, …,h n 1 ]=
( h 1! h 2! h n 1!
否则上面所定义的概率为0, 由此得出
E (H i =
n 1
84
数理统计与管理20卷5期2001
年
Var (H i =(n -n 1 (1-n 1 n 1
Cov (H i ,H j =-n 21
(i ≠j 若假设i 与j 独立, 由上面结果可以导出E ( y HD = Y Var ( y HD =(
n 1-N S 2+(1-n 1 (1-n
S 2式中,S 2为总体方差。可以看出, 随机插补法估计量 y HD ,
第一项是仅用回答单位数据进行估计的方差, 即
Var ( y 1 =(N 2n 1=(n 1-N
S 2, 量方差增加项。, 变量分布的弱点, , 这就使随机插补法在估计与样本分布, , 将样本单位进行事后分层, 然后在各层中使用, 。
五、回归插补法
回归插补的基本思想是利用辅助变量X k =(k =1,2…k 与目标变量Y 的线性关系, 建立
回归模型, 利用已知的辅助变量的信息,
对目标变量的缺失值进行估计。于是第i 个缺失值的估计值可以表示为:
Z i =β0+∑
K
k =1βk X ki +e i 式中的β是回归系数。若辅助变量是定性变量时,
可以采用虚拟变量的处理方法:若目标
变量Y 是定性变量, 则考虑通过Logit 变换, 进行Logistic
线性回归。与随机插补和均值插补的不同点在于:Zi 不是取自回答单位的实际值,
也不是由回答单位数据计算的均值, 而是利用目标变量与辅助变量的线性关系,
采用标准方法(如最小平方法计算出的估计值。
上面的回归模型可以有不同的演变形式。例如,
对于连续性固定样本调查中的缺失值, 令β0=e i =0,
并指定前期调查数据为唯一的辅助变量, 则上式变成:Z i =β
X i , 这便是简单比率插补, 即用时间的变化, 对前一期的回答数据进行调整,
并做为本次调查缺失值的替补值。
应用回归插补法中一个讨论的问题是e i 的处理, 因为经过回归后,Z i
的估计为^Z i =^β0+
∑K
k =1
^βk X ki , 对于相同的X k (k =1,2, …k , 得到的替补值是相同的,
这就会和均值插补一样, 存在
样本分布扭曲的问题。为此需要构造随机残差e 的数据集。构造的方法有多种, 比较典型的一种方法是, 根据辅助变量X k 将样本单位分层,
在各层中将回答单位数值与其均值的离差视为残差e , 在用回归法得到^Z i 后,