抽样技术-第7章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
∑
-1
2 E1(w'hSh )
L W S2 =∑ h h h=1 n'
1 f hD
-1
1 f hD
-1
定理 7.3
− V(������������������������ )的样本估计量为:
������ ������ − − − ������ ������ ������ ������ ������ ������ v(������������������������ )= ∑ ������ - ������' w'������ ������������ + ������' - ������ ∑ w'h(������������ -������������������������ )2 (7.4) ������ ������ ������=������ ������=������ − − ������ v(������������������������ )是 V(������������������������ )的近似无偏估计。式中,������������ 是第二重样本第
E(CT)=c1n'+n' ∑ c2hfhDWh
h=1
L
(7.7)
根据式(7.3),总体均值估计量的方差为:
− 1 1 V(ystD )= n' N
S2+
h=1
∑
L
W h S2 h n'
1 f hD
-1
(7.8)
要在一定的费用约束下令估计方差最小化,则有 L= =
1 n' N − V(ystD )+ L * λ( CT -c1n'-n' ∑ c2hfhDWh) h=1 L 1 * -1 +λ( CT -c1n'-n' ∑ c2hfhDWh) f hD h=1
2 S2,Sh ,Wh 有一些粗略的估计。
5.在无回答中的应用
无回答(nonresponse)是指在调查中,由于种种原因没能获得按 照原调查设计应获得的所有信息的现象,也称为缺失值(missing data) 或不完全数据(incomplete data)。 如果无回答数据与回答数据在调查项目的数量特征上存在系统差 异,即 Y回答层 ≠Y无回答层,会使基于回答者的估计量出现偏差,即
������ ������������ = ∑ ������������ -������ ������=������ ������ ������������ − ������ ������������������ -������������ :第二重样本第
h 层方差
2.抽样方法
第 1 步:利用简单随机抽样,从总体的 N 个单位中随机抽取第一 重样本,样本单位数为 n';根据已知的分层标志将第一重样本分层,令 w'h=
n'h n'
(h=1,2,„,L),则 w'h 是总体层权 Wh 的无偏估计。
第 2 步:利用分层随机抽样,从第一重样本中抽取出第二重样本, 样本单位数为 n,第 h 层样本单位数为 nh,n= ∑ nh。
h=1 L
3.估计量及其性质
采用二重分层抽样,对总体均值 ������的估计量为:
������ − − ������������������������ = ∑ w'h������������ ������=������ −
二、为分层的二重抽样
1、符号说明
用下标h表示层数,h=1,2,…,L Nh:总体第 h层的单元数;总体单元数 N= Nh n'h:第一重样本第 h层的单元数;第一重样本单元数 n'= n'h nh:第二重样本第 h层的单元数;第二重样本单元数 n= nh Wh= :总体单元第 h层的权重 w'h= :第一重样本第 h层的权重 fhD= :第二重样本第 h层的抽样比, 0<fhD≤1 yhj:第二重样本第 h层 j单元的观测值,j=1,2,…,nh;h=1,2,…,L
������
������
������'
(7.5)
【例7.1】
某银行要调查其客户的资产情况。已知该银行的客户数为 8000,针对客户规模差异较大的特点,拟采用分层抽样。但由 于缺乏现有的分层资料,决定采用二重分层抽样方法,第一重 样本量 n'=1 000,根据其自报的资产情况可分为4层:第一层 为300万元以下;第二层为300万元~1 000万元;第三层为1 000万元~2 000万元;第四层为2 000万元以上。然后在第一 重样本分层的基础上,在各层分别抽取第二重样本。第二重 样本量 n=nh=200。通过对这200位客户进行详细的调查,取 得有关数据整理如表7—1,试估计该银行所有客户的资产总 额及其抽样标准误差。
− E(ystD )=E1 − − yh 是第一重样本第
h 层均
− − E(yh )=y'h。则在两次抽样下: − E2 ystD L −
=E1 E2
=E1 ∑ w'h y'h =E1 y' =Y
h=1
h=1 − −
∑
L
− w'h yh
定理7.2
− ystD 的方差为: − 1 1 V(ystD )= n' N L W S2 S 2+ ∑ h h h=1 n' 1 f hD
-
1
S2 +
∂L ∂n'
由
=0 及
h=1 n' ∂L ∂f hD
∑
L
W h S2 h
(7.9)
=0 得
c1 c 2h (S 2 - ∑ W h S 2 h)
h =1 L
fhD = Sh n' =
c 1 + ∑ c 2h W h f hD
h =1
L
C* T
(7.10)
在实际应用中,要确定最优的 n'和 fhD,需要对总体事先有一定的了解,例如对
h 层方差。 当二重抽样比 ������'������ 和 ������ 都可以忽略不计时,式(7.4)可简化为:
������ ������ ������ − − − ������'������ ������ ������������ ������ v(������������������������ )≈ ∑ ������ +������' ∑ w'h(������������ -������������������������ )2 ������ ������=������ ������=������
sj2
1.01 2.71 15.38
400 3100 9 600
45 120 690.53
4.二重分层抽样样本量的最优分配
二重分层抽样中有两次抽样,这两次抽样的样本量,即 n'和 n,直接影响估计的精度。 第一重抽样 n'越大,对分层信息的了解和估计就越精 确,从而可以减少估计量的方差;同样,第二重抽样 n越 大,估计量的方差越小。 调查经费是有限的,因此需要在给定的费用条件下,选 择 n'和 n,使得估计量的方差 V( )最小。
(7.1)
估计量
− ������������������������ 的性质如下:
定理 7.1
估计量
− − ������������������������ 是 ������的无偏估计,即
− − E(������������������������ )=������
(7.2)
定理7.1证明
证明:第二重样本是利用分层随机抽样从第一重样本中抽出的子 样本,因此第二重样本第 h 层样本均值 值 y'h 的无偏估计,即
− ^ − ^ − − −
1.二重抽样比估计的抽样方法
第 1 步:从总体的 N 个单位中随机抽取第一重样本,样本单位数为 n';对 于第一重样本,仅观测辅助变量信息,用辅助变量的样本均值 x'= ∑ x'i 估计 总体均值 X。 第 2 步:从第一重样本中随机抽取出第二重样本,样本单位数为 n;对于 第二重样本,观测研究变量与辅助变量,并用获得的 y和 x,计算 R =−,构造比
二重抽样与两阶段抽样
二者都可被视为分阶段抽样方法; 差异:
两阶段抽样是先从总体N个单元(初级单元)中抽出n个样 本单元,却并不对这n个样本单元中的所有小单元(二级 单元)都进行调查;二重抽样则不同,要对第一重(相)样本 进行调查以获取总体的某些辅助信息。 两阶段抽样的第一阶段抽样单位和第二阶段抽样单位往 往是不同的;而二重抽样的第二重样本则往往是第一重 样本的子样本。
− ������ ������������ = ������
������������
������
������=������
∑ yhj:第二重样本第 h 层样本单元的平均数
������������ :总体方差
������ ������������ :第 h 层的总体方差
s'������ ������ :第一重样本第 h 层方差
− − N 回答 − − E(y回答 )-Y=Y回答 Y回答 N − N 无回答 − − − N 无回答 − N
+
Y无回答
=
N
(Y回答 -Y无回答 )
该偏差取决于无回答层占总体的比例以及回答层和无回答层 的差异。 使用二重抽样方法对无回答样本进行二次抽样调查,其估计量 优于仅根据回答数据的估计量,如果对无回答层的二重抽样中 能得到完全回答,甚至可以消除无回答偏差。 关于二重抽样对无回答数据的调整估计量参见第10章的相关 内容。
h=1
∑ w'h yh
L
−
=V1 ∑ w'h y'h =V1(y')=
h=1
L
−
−
1
n' N
-
1
S2 式中, S2 为总体方差。
2 2 当 w'h 固定时,对第一重样本第 h 层方差 s'2 h ,有 E1(s'h )=Sh 。
E1 V2
L h=1 L 1
h=1 2
∑ w'h yh
2 1 nh
L
−
=E1 ∑ w'h 2 V2 (yh )
-1
(7.3)
2 式中,S 2 是总体方差;Sh 是第 h 层的总体方差; fhD 第二重样
本第 h 层的抽样比。
定理7.2 证明
证明: 当
h=1 − − w'h 固定时,E2(yh )=y'h。故有 − V(ystD )=V1
E2
∑
L
− w'h yh
+E1 V2
h=1
来自百度文库
∑ w'h yh
L
−
V1 E 2
三、为比率的二重抽样
一般来说,只要研究变量与辅助变量存在较强的正相关关系,比估计的 估计精度就优于简单估计。但使用比估计的前提之一是已知辅助变量的有 关信息。 假设研究的变量为 Y,辅助变量为 X,在估计总体均值 Y时,需要辅助变 量总体均值 X,才能计算 Y=RX;在估计总体总量 Y 时,需要辅助变量总量 X, 才能估计 Y =RX。 在实际工作中,如果辅助变量的信息未知,可以利用二重抽样进行比估 计。下面以对总体均值 Y的估计为例进行讨论。
假设第一重抽样的单位平均调查费用为 c1(一般情况下,第一重抽样的单位 平均调查费用都比较小),第二重抽样第 h 层的单位平均调查费用为 c2h(h=1,2,„,L)。忽略其他费用,则费用函数可以表示为: CT=c1n'+ ∑ c2hnh
h=1 L
(7.6)
* 由于 nh 是随机变量,所以选择 n'和 fhD 的期望费用 CT 为: * CT =
第七章 其他抽样方法
第一节 二重抽样 第二节 捕获再捕获抽样 第三节 电话调查抽样
2017/7/10
1
7.1
二重抽样
一、概述
二重抽样(double sampling),也称二相抽样或两相抽样(twophase sampling),是指在抽样时分两步抽取样本,每一步抽取 一个样本。 一般情况下,先从总体N中抽取一个较大的样本n‘,称为第一重 (相)样本,对之进行调查以获取总体的某些辅助信息,为下一步 的抽样估计提供条件。然后进行第二重(相)抽样,第二重抽 样所抽的样本n相对较小,但是第二重抽样调查才是主调查。 一般地,第二重样本是从第一重样本中抽取的,即第一重样本 的子样本,但有时也可以从总体中独立抽取。由于样本是分两 次抽取的,因此称为二重抽样。
表7—1 某银行客户的样本数据
分层 300 万元以下 300 万元~1 000 万元 1 000 万元~2 000 万元 2 000 万元以上 合计 第一重样本 第二重样本 样本均值 yh (百万元) 540 320 100 40 1 000 80 60 40 20 200 2 7 15 40
− 2 ∑yhj j
h=1
L
−
=E1 ∑ w'h s'n = 因此
1 n' h=1 f hD
-
1 n'h
=E1 ∑
L w' s'2 h h n'
1 f hD L
h=1
-1
1
∑
-1
E1E1(w'hs'2 h |w'h 固定) S 2+
h=1
=
1
− 1 1 V(ystD )= n' N
∑
L W S2 h h n'
n' h=1 f hD