缺失数据的插补调整
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
显然 ,根据调查中所得到的辅助变量信息 ,将样本单位进行事后分层 ,然后在各层中使用
随机插补法 ,就会有更好的调整效果 。
五 、回归插补法
回归插补的基本思想是利用辅助变量 Xk = ( k = 1 ,2 …k) 与目标变量 Y 的线性关系 ,建立 回归模型 ,利用已知的辅助变量的信息 ,对目标变量的缺失值进行估计 。于是第 i 个缺失值的
二 、演绎估计法
演绎估计法适用于这样一种情况 ,目标变量 Y 的缺失值可以以很高的确定性由其它辅助
Ξ 基金项目 :国家教育部人文社会科学研究“九五”规划项目资助课题 ΞΞ 收稿日期 :2000 - 08 - 20
48 数理统计与管理 20 卷 5 期 2001 年
上面的回归模型可以有不同的演变形式 。例如 ,对于连续性固定样本调查中的缺失值 ,令
β0 = ei = 0 ,并指定前期调查数据为唯一的辅助变量 ,则上式变成 : Zi =βXi ,这便是简单调整 ,并做为本次调查缺失值的替补值 。
应用回归插补法中一个讨论的问题是 ei 的处理 ,因为经过回归后 , Zi 的估计为 ^Zi =β^0 +
缺失数据的插补调整
47
文章编号 :1002 - 1566 (2001) 06 - 0047 - 07
缺失数据的插补调整 ΞΞΞ
金勇进
(中国人民大学统计学系 ,北京 100872)
摘要 :插补是另一类对缺失数据进行调整 ,以减小估计偏差的方法 。本文介绍的插补方法有 :演绎
估计 ,均值插补 ,随机插补 ,回归插补和多重插补 。
关键词 :缺失数据 ;插补调整
中图分类号 :O212 ;C81
文献标识码 :A
一 、无回答的类型与插补法的运用
调查中的无回答有两种类型 ,一种被称为“单位无回答”,它是指入选择本单位由于各种原 因没有接受调查 ,可以说这些样本单位交的是一份白卷 。另一种被称为“项目无回答”,它是指 被调查单位虽接受调查 ,但在某些调查项目上没有提供有效回答 。与单位无回答相比 ,项目无 回答或多或少地提供了一些被调查单位的信息 。上一讲中介绍的加权调整法虽然也可以应用 于“项目无回答”,但主要是对“单位无回答”进行的调整 。而本文将要介绍的插补调整法虽然 也可以应用于“单位无回答”,但主要是对“项目无回答”进行调整的方法 。
=
(N
- n1 ) N
S2 n1
=
(1 n1
-
1 N
)
S2
,第二项是由于增加了一个再抽样过程而带来的估计
量方差增加项 。随机插补虽然使估计量的方差增大了 ,但是它避免了均值插补容易扭曲目标
变量分布的弱点 ,使替补值的分布与真值分布更为接近 ,这就使随机插补法在估计与样本分布
有关的参数时具有明显的优势 。
最后 ,由回答数据 yi 和回归替补值 Zi ,得到目标变量的估计值为
n1
n0
∧—
Y=
i
∑yi
=1
+ n
i
∑Zi
=1
50 数理统计与管理 20 卷 5 期 2001 年
六 、处理缺失数据的多重插补法
(一) 什么是多重插补法 在上面介绍的插补方法均是单一差补法 ,即对每个由于无回答造成的缺失值只构造一个 插补值 。单一插补法存在这样或那样的局限 ,如均值插补容易扭曲样本分布 ,随机插补的稳定 性不够 ,等等 。能否有一种方法综合起单一插补法的各自特长 ,而将其弱点降低到最小程度 ? 多重插补法就是在这个背景下提出的 。美国哈佛大学统计系的 Rubin 教授 70 年代末首先提 出多重插补的思想 ,80 年代中与其他学者一起进一步扩展 ,充实了多重插补的理论与方法 。 90 年代许多学者对这种方法继续研讨 ,该方向上的研究目前仍在继续 。 多重插补的主要思想是 ,给每个缺失值都构造 m 个插补值 (m > 1) ,这样就产生出 m 个完 全数据集 ,对每个完全数据集分别使用相同的方法进行处理 ,得到 m 个处理结果 ,最后再综合 这 m 处理结果 ,最终得到对目标变量的估计 。构造 m 个插补值的目的是模拟一定条件下的估 计值分布 ,因此 ,多重插补法的实质是一种模拟方法 ,研究人员可以借此估计目标量的实际后 验分布 。 (二) 多重插补法的推断理论 多重插补法的理论证明来源于贝叶斯理论 ,它由 Rubin 在 80 年代初期以一系列的论文提 出 ,其基本的理论架构被他整理在一本书中 ( Rubin“Multiple Imputation for Nonresponse in Surveys”) ,这里仅对其推断理论做一简要介绍 ,假定我们的目标是从一个有缺失的调查数据 集中推断目标总体 ,并且缺失值的后验分布 (给定回答值的条件分布) 可以获得 ,那么目标总体 的后验分布由下式给出 : h (θ\ Yobs) = ∫g (θ\ Yobs , Ymis) f ( Ymis \ Yobs) d Ymis 式中 , Yobs表示回答数据的集合 , Ymis表示缺失数据的集合 ,h (·) 表示目标变量θ的后验密 度函数 ,g (·) 为θ的完全数据后验密度 ,f (·) 为缺失数据的后验密度 。目标变量θ通常是 k 维 列向量 ,如果调查数据集是理想的 ,即不存在缺失值 ,对θ的推断将有如下形式 : (θ-θ^) ~N (0 μ, ) 这里 θ,^ 是θ的一个统计量 μ, 是 (θ- θ^) 的方差估计量 (通常是一个 k ×k 的协方差阵) ,N (0 μ, ) 是有着均值为 0 和方差为μ的 k 元正态分布 。 假定由于出现缺失数据 ,n 个样本单位中只有 n1 个单位提供了回答 ,即 Y = ( Y1 , …, Yn1) 被记录下来 , Yobs是 n1 记录值的向量 , Ymis是 n0 个缺失值的向量 ( n = n1 + n0) 。又假定在一个 给定的贝叶斯模型里 ,采用适当的方法 ,对每个缺失值构造了 m 个插补值 ,由此产生了 m 套完 全数据 。于是对θ和μ而言 ,有θ^1 θ,^2 …θ^m 和μ1 μ, 2 …μm 。 将 m 套经过插补的数据集合并 ,得到θ的多重插补估计值为
所谓插补是指 ,采用一定的方式 ,为调查中的缺失数据确定一个合理的替补值 ,插补到原 缺失数据的位置上 。插补可以达到二个调整的目的 :一个是减小由于数据缺失可能造成的估 计量偏差 ,为此 ,就要使确定的替补值尽可能地接近缺失的原数据值 。事实上缺失数据的真值 我们无法得知 ,因此所追求的只能是确定替补值方法的合理和有效 。调整的第二个目的是力 图构造一个完整的数据集 。在调整前 ,由于缺失值的存在 ,使原数据集上出现许多“窟窿”,给 一些统计分析方法的使用带来不便 。采用插补的方式填补了缺失值的空缺 ,就为后面分析人 员的工作提供了方便 ,他们在使用标准统计软件的同时 ,不必繁琐地说明对缺失值进行处理的 方法 ,大大节省了精力和时间 。而且不同分析人员使用的是同一套经过插补调整的数据 ,也保 证了分析结果的一致性 。
由此看出 ,f ( Xi) 可假定为许多不同的形式 。使用的条件是 Y 与 X 之间存在确定的函数 关系 ,且 X 值已知 。实践中 ,可以把演绎估计法视为对数据进行逻辑审核的一部分 。
三 、均值插补法
首先根据辅助信息将样本分为若干组 ,使组内各单位的主要特征相似 。然后分别计算各 组目标变量 Y 的均值 ,将各组均值作为组内所有缺失项的替补值 。均值插补法的特点是操作 简便 ,并且对均值和总量这样的单变量参数可以有效地降低其点估计的偏差 。但它的弱点也 比较突出 。一个是插补的结果歪曲了样本单位中 Y 变量的分布 ,因为同组中缺失数据的替补 值都由该组的平均值充当 ,使得其分布状况受到由各组回答单位数据计算出的组均值的制约 , 其次 ,插补结果将导致在均值和总量估计中对方差的低估 ,因为同一组内样本单位的离差将由 于同一个数值的多次出现而偏低 ,因此均值插补适用的场合是仅仅进行简单的点估计 ,而不适 用于需要方差估计等比较复杂的分析 。
P[
H
=
( h1
,h2
,
…,hn1)
]
=
( n - n1) ! h1 ! h2 ! hn1
!
否则上面所定义的概率为 0 ,由此得出
E ( Hi)
=
n - n1 n1
缺失数据的插补调整
49
Var ( Hi)
=
(n -
n1) (1 -
1) 1 n1 n1
Cov ( Hi , Hj)
=
-
n
- n1 n21
样本 = {y1 ,y2 , …,yn1 ,yn31 + 1 ,yn31 + 2 , …,yn3 } 此时 ,目标变量的均值估计为 :
yhD
=
1 n
( n1y1
+ n0y 3 )
式中
,y 3
=
n1
∑Hiyi/
n0
,如果采用不重复抽样 , Hi
=0
或
1 ;如果采用重复抽样 ,则
H 为多项
i=1
式分配 ,若 h1 + …+ hn1 = n - n1 ,则
估计值可以表示为 :
K
Zi =β0 + ∑βk Xki + ei k=1
式中的β是回归系数 。若辅助变量是定性变量时 ,可以采用虚拟变量的处理方法 :若目标
变量 Y 是定性变量 ,则考虑通过 Logit 变换 ,进行 Logistic 线性回归 。与随机插补和均值插补
的不同点在于 : Zi 不是取自回答单位的实际值 ,也不是由回答单位数据计算的均值 ,而是利用 目标变量与辅助变量的线性关系 ,采用标准方法 (如最小平方法) 计算出的估计值 。
插补的效率如何 ,取决于替补值与缺失值的近似程度 。为了提高效率 ,对研究总体进行分 层 ,使层内各单位诸方面情况尽可能相似 ,利用同一层内回答单位的信息产生出缺失数据的替 补值 ,是进行插补的基本思路 。因为可以利用不同的信息源 ,采用不同的方式生成替补值 ,所 以有不同的插补方法 。本文将对几种比较典型的方法做以简要介绍 。
变量来决定 。这意味着 ,目标变量与辅助变量之间存在着已知的函数关系 ,即 Zi = f ( Xi) 。式 中 Zi 是第 i 个单位目标变量缺失值的估计值 (替补值) , Xi 是第 i 个单位已知的辅助变量值 。 例如美国在一项关于医疗设备使用和费用的调查中 ,多处使用演绎估计法对缺失值进行插补 。 1. 对种族缺失值的插补函数式为 Zi = Xi ,即如果某人种族数据缺失 ,可采用其配偶的种族 ;如 果某家庭成员种族资料缺失 ,可使用户主的种族 。2. 如果年龄项目数据缺失 ,则利用出生年份 资料进行估计 。若调查是在 1990 年进行 ,令 Xi 为出生年份 ,则 Zi = 1990 - Xi 。3. 若就业收入 的数据缺失 ,则利用其它 4 个相关的辅助变量信息推算 。令 X1i 、X2i分别为该被调查者的主要 职业和第二职业的周工资率 ,X3i 、X4i分别为其在主要职业和第二职业上的工作周数 ,则劳动收 入的估计值为 Zi = X1i . X3i + X2i . X4i 。
(i
≠j)
若假设 i 与 j 独立 ,由上面结果可以导出
E (yHD) = Y
Var (yHD)
=
(
1 n1
-
1 N
)
S2
+
(1
-
1 n1
)
(1
-
n1 n
)
S2
式中 ,S2 为总体方差 。可以看出 ,随机插补法估计量 yHD的方差由两部份组成 ,等式右边
第一项是仅用回答单位数据进行估计的方差 ,即
Var (y1)
四 、随机插补法
为避免均值插补中替补值过于凝集的弱点 ,随机插补应运而生 。这种方法是指 ,采用某种 概率抽样的方式 ,从回答单位的资料中抽取缺失数据的替补值 。为便于说明 ,令某项目回答数 据个数为 n1 ,缺失数据个数为 n0 ,则 n = n1 + n0 ,现从 n1 个数据中随机抽取 n0 个替补值 ,则样 本构成为 :
K
∑β^kXki ,对于相同的 Xk (k = 1 ,2 , …k) ,得到的替补值是相同的 ,这就会和均值插补一样 ,存在
k=1
样本分布扭曲的问题 。为此需要构造随机残差 e 的数据集 。构造的方法有多种 ,比较典型的
一种方法是 ,根据辅助变量 Xk 将样本单位分层 ,在各层中将回答单位数值与其均值的离差视 为残差 e ,在用回归法得到 ^Zi 后 ,在该层的残差集中随机抽取 ^Zi 的残差项 ,并将其和作为缺失 值的替补 ,即 : Zi = ^Zi + ei 。