二重抽样
06-第六章 二重抽样
ˆ ,有以下结果: 则对按二步抽样获得的估计量 q ˆ) = E é E (q ˆ) ù E (q 1ë 2 û ˆ) = V é E (q ˆ) ù + E éV (q ˆ) ù V (q 1ë 2 1ë 2 û û
(6.1) (6.2)
举例说明: 一个学院有三个班级, 每个班级有三名学生, 现在第一步抽取两个班级, 第二步从每个中选班级抽取两个学生来估计该学院平均每名学生的每周上 网时间。 二重抽样估计量期望与方差过程示意图 上网时间 可能的样本 样本均值 班级 (小时) 16 (16,14) x A1 = 15 A 14 24 18 15 B 7 11 11 (15,7) (15,11) (7,11) (16,24) (14,24)
2 (6.7)式右边第二项经展开为: 其中 S 是总体方差。
5
L é ù éL 2 ù ¢ y h ) ú = E1 ê å wh ¢ V2 ( y h ) ú E1 êV2 (å wh ë h=1 û ë h =1 û L é æ 1 1 öù ¢2 sh ¢2 ç - ÷ ú = E1 ê å wh h øû è nh n¢ ë h =1
(6.7)
上式左边的第一项应为
L é ù éL ù ¢ V1 ê E2 (å w¢ y ) V = h h ú 1 ê å wh E2 y h ú ë h =1 û ë h=1 û éL ù ¢ y h¢ ú = V1 ê å wh ë h =1 û = V ( y¢ )
( )
1
(6.8)
1- f 2 S n¢ æ1 1ö = ç - ÷S2 è n¢ N ø =
1
本以获取这些信息, 然后再对较小的第二相样本进行实际调查并利用第一重 样本中所得信息改善估计量的精度。 这中间有一个费用的问题。 一般情形下, 第一重抽样的费用应当是非常低廉的, 因为由此而增加的费用必须在因提高 估计量的精度而得益上得到补偿,否则采用二重抽样就不值得了。 4. 在一些连续性抽样调查中,同一单元不同时间的指标值往往存在相 关,利用这种相关采用回归估计可以提高精度。但是样本又不能一直不变, 因为长期使用同一样本单元会因厌倦情绪等原因影响调查质量。 为降低这种 样本老化所带来的负面影响通常采用样本轮换的方法。 二重抽样可以用来研 究样本轮换中的某些问题。 6.1.3 二步抽样估计量求均值与方差的一般公式 为研究二重抽样估计量的性质, 本小节我们给出二步抽样中对估计量求 均值(期望)与方差的一般公式。记 E2 、V2 为给定第一步抽样结果的条件 下对第二步抽样求均值与方差, E1 、 V1 则是对第一步抽样求均值与方差,
抽样调查-第9章 二重抽样
s(Y ) Ns( ystD ) N v( ystD ) 2427.32 (百万元)
四、二重分层抽样样本量的最优分配
二重分层抽样中有两次抽样,这两次抽样的样本量
即n和n ,直接影响估计的精度。第一重抽样n越大,
对分层信息的了解和估计就越精确,从而可以减少估计
量的误差;同样,第二重抽样 n 越大,估计量的方差越
h1
得有关数据如下表,试估计该银行所有客户的资产总额 及其抽样标准误差。
返回
分层
300万元以下 300~1000 1000~2000 2000万元以上 合计
第一重 样本
540 320 100 40 1000
第二重 样本均值
样本
yh
80
2
60
7
40
15
20
40
200
y2 ij j
400 3100 9600 45120
j 1,2, , nh;h 1,2, , L
第二重样本第h层样本单元的平均数: yh
总体方差:S 2
,第h层的总体方差:
S
2 h
1 nh
nh
yhj
j 1
返回
第一重样本第h层方差:sh 2
第二重样本第h层方差:sh2
1 nh 1
nh
( yhj
j 1
yh )2
二、抽样方法
第一步: 利用简单随机抽样,从总体的N个单元中随机
L
CT E(CT ) c1n n c2h f W hD h
h1
而总体均值估计量的方差为:
V
( y stD
)
(1 n
1 N
)S
2
L
Wh
S
第8-9章-多阶段抽样和二重抽样
ˆ ˆ E E E E
2
2
1
2
E 2 E E 2 V E ˆ ˆ E1 2 ˆ 1 2 1 2
E 2 E E 2 ˆ ˆ V1 E2 E1 2 ˆ 1 2 ˆ ˆ V1 E2 E1 V2
2 S2 V ( y ) S12 m
2 当n=1时, V1 (Yi ) S1
这时, 若以n个
yi 的均值 y 推断 Y
,其方差为
2 2 S1 S2 V ( y) n nm
再考虑fpc,则(1)式成立。
V y 的无偏估计为:
证明:
2 1
E (s ) S
2 2
1 f1 2 f1 1 f 2 2 v y s1 s2 n nm
1 1 n 1 1 E1 M iYi M n i 1 MN
M iYi Y i 1
N
估计量的方差为:
1 f1 M i 1 V y M Yi Y nNM 2 nN i 1 i 1
N N
二.按不等概抽初级单元
1.按PPS抽取初级单元 N 第i个单元被选中概率 Z i ,( Z i 1 ) i 1 以总量估计为例,利用Hansen-Hurwitz估计量 ˆ Y的估计: 1 n Y 1 n M y
ˆ YHH
z n
i 1
i
i
n
i 1
i
i
zi
ˆ 可以证明 YHH是Y的无偏估计
抽样技术第7章
n 表7—1 某银行客户的样本数据
抽样技术第7章
抽样技术第7章
抽样技术第7章
4.二重分层抽样样本量的最优分配
n 二重分层抽样中有两次抽样,这两次抽样的样本量,即 n'和 n,直接影响估计的精度。
n 第一重抽样 n'越大,对分层信息的了解和估计就越精 确,从而可以减少估计量的方差;同样,第二重抽样 n越 大,估计量的方差越小。
抽样技术第7章
二重抽样与两阶段抽样
n 二者都可被视为分阶段抽样方法; n 差异:
n 两阶段抽样是先从总体N个单元(初级单元)中抽出n个样 本单元,却并不对这n个样本单元中的所有小单元(二级 单元)都进行调查;二重抽样则不同,要对第一重(相)样本
进行调查以获取总体的某些辅助信息。
n 两阶段抽样的第一阶段抽样单位和第二阶段抽样单位往 往是不同的;而二重抽样的第二重样本则往往是第一重 样本的子样本。
n 关于二重抽样对无回答数据的调整估计量参见第10章的相关 内容。
抽样技术第7章
三、为比率的二重抽样
抽样技术第7章
1.二重抽样比估计的抽样方法
抽样技术第7章
2.二重抽样的比估计及其性质
抽样技术第7章
抽样技术第7章
抽样技术第7章
抽样技术第7章
【例7.2】
n 某住宅小区共有200个住户,现欲估计小区住户家庭月平均收入 的平均水平。家庭收入的数据不易调查,而家庭支出的资料相 对容易获取,而且家庭月平均收入与家庭月平均支出之间强相 关,因此拟采用二重抽样比估计方法。先从住户中随机抽取100 个住户作为第一重样本,调查家庭月平均支出,结果家庭月平均 支出的样本均值为1 500元;然后从这100个住户中随机抽选10 户作为第二重样本,调查家庭月平均收入和家庭月平均支出,资 料见表7—2。试估计该小区家庭月平均收入,并计算估计量标 准误差。
抽样技术-第7章
h 层方差。
'
当二重抽样比 ' 和 都可以忽略不计时,式(7.4)可简化为:
−
− −
'
v( )≈ ∑ +' ∑ w'h( - )2
=
=
(7.5)
【例7.1】
某银行要调查其客户的资产情况。已知该银ห้องสมุดไป่ตู้的客户数为
8000,针对客户规模差异较大的特点,拟采用分层抽样。但由
c2h(h=1,2,…,L)。忽略其他费用,则费用函数可以表示为:
L
CT=c1n'+ ∑ c2hnh
h=1
(7.6)
由于 nh 是随机变量,所以选择 n'和 fhD 的期望费用 CT* 为:
CT* =
L
E(CT)=c1n'+n' ∑ c2hfhDWh
(7.7)
h=1
根据式(7.3),总体均值估计量的方差为:
−
E( )=
−
−
是 的无偏估计,即
(7.2)
定理 7.3
−
V( )的样本估计量为:
−
− −
v( )= ∑ - ' w' + ' - ∑ w'h( - )2 (7.4)
=
=
−
−
v( )是 V( )的近似无偏估计。式中, 是第二重样本第
二重抽样比估计方差的样本估计:
−
v(yRD )
1 2
1 1
=n sy + n - n'
第十章双重抽样
第十章 双重抽样
二、双重分层抽样
• 1.概念
– 在分层抽样中,如果各层权重未知,可采用 成数点法从总体中抽取一个较大的样本,以 此估计出各层的权重;然后再从第一重样本 中随机抽取第二重样本,以估计出总体的特 征数。这种抽样方法称为双重分层抽样。
– Dst=double strata sampling
第5页
第十章 双重抽样
一、概述
• 3.在森林资源和社会经济调查中,双重 抽样的主要作用:
– 用于估计总体各层权重 – 用于估计未知的总体辅助变量 – 用于经常性的调查[工作量大时,总体不稳定时] – 用于估计总体的分布
• 4.辅助因子确定的原则
– 与主要因子有密切的相关关系,易测定, 花费费用少;
第6页
第十章 双重抽样
一、概述
• 5.两重样本抽取方式
– 独立抽取:第一、二重样本分别抽取 – 非独立抽取:第二重样本从第一重中抽
独立与非独立哪个更好?
第7页
第十章 双重抽样
一、概述
• 6.林业中常用的双重抽样
– 双重分层抽样 – 双重比估计 – 双重回归估计抽样 – 双重点抽样
分层比估计?分层回归估计 第8页
第十章 双重抽样
第十章 双重抽样 Double Sampling
第1页
第十章 双重抽样
一、概述
• 1 引言
– 采用回归估计与比 估计抽样时,要事 先知道辅助变量的 总量或其总体平均 数。
yRˆ = RX yˆ = a + bxˆ
– 在分层抽样中,必 须要知道各层的单 元数或权重。
∑ yst = wh yh
– 为了提高精度,一般必须遵从n<n’<N.
抽样调查-第9章 二重抽样
二、二重抽样与两阶段抽样的区别
1.两阶段抽样是先从总体N个单元中抽出n个样本 单元,却并不对n个样本都进行调查,而是从中再抽出 若干个二级单元进行调查。
返回
2。两阶段抽样的第二阶段抽样单元与第一阶段抽样 单元往往是不同的。而二重抽样的第二重样本往往是 第一重样本的子样本。
三、二重抽样的作用
(一)有利于筛选主调查对象 (二)节约调查费用 (三)提高抽样效率
80 60 40 20 200 2 7 15 40
2 yij j
2 j
s
400 3100 9600 45120
1.01 2.71 15.38 690.53
解
w1
根据上表可计算各层的权重:
540 0.32, w3 0.10, w4 0.04 0.54, w2 1000
第一重样本第h层方差:sh
2
nh 1 2 2 第二重样本第h层方差:sh ( y y ) hj h nh 1 j 1
二、抽样方法
第一步: 利用简单随机抽样,从总体的N个单元中随机 抽取第一重样本,样本单元数为 n ;根据已知的分层标 n 志将第一重样本分层,令 wh h , (h 1,2,, L) ,则 n 是总体层权 W 的无偏估计。 wh
L
而总体均值估计量的方差为:
1 1 2 L Wh S h2 1 V ( y stD ) ( ) S ( 1) n N n f hD h 1
返回
要在一定的费用约束下使估计方差最小化,则有
L V ( y stD ) (C c1n n c2 h f hDWh )
§9.1 引言
一、二重抽样的定义
二重抽样(double sampling),也称二相抽样,是指分 两步抽取样本。先从总体N中抽样一个较大的 样本 n ,称为第一重样本,对其进行调查以获 取总体的某些信息,为下一步的抽样估计提供 条件;然后在第一重样本中再进行第二次抽样。 这种抽样方法称为二重抽样。
抽样检验中的双重抽样方法与效果评估
抽样检验中的双重抽样方法与效果评估抽样检验是统计学中一种重要的数据分析方法,用于判断样本数据是否代表总体,并进行统计推断。
抽样检验的精确性和准确性对研究结果的可靠性起着至关重要的作用。
为了增加抽样检验的效果评估,双重抽样方法被广泛采用。
本文将探讨双重抽样方法及其在抽样检验中的效果评估。
一、双重抽样方法的概念和原理双重抽样方法指的是采用两次独立的抽样过程,通过分别对两个抽样集合进行统计分析,来对总体进行推断。
这样的双重抽样方法能够在保证数据的可靠性的同时提高推断的准确性。
在使用双重抽样方法时,第一次抽样通常是从总体中随机选择样本,这个样本称为一级样本。
然后,从一级样本中再次随机选择一部分样本,形成二级样本。
通过对一级样本和二级样本的统计分析,可以得到更加精确的估计结果。
双重抽样方法的基本原理就是通过两次独立的抽样,减小抽样误差,提高估计的准确性。
二、双重抽样方法的应用双重抽样方法被广泛应用于各个领域的统计研究中。
下面将介绍其中两个常见的应用案例。
1.医学研究中的双重抽样方法在医学研究中,为了对新药的疗效进行评估,常常采用对患者进行双重随机抽样的方法。
首先,在一级样本中随机选择一部分患者,将其分为实验组和对照组。
然后,在实验组和对照组中再次随机选择一部分患者进行观察和数据采集。
通过对数据的统计分析,可以判断新药的疗效和安全性。
2.社会调查中的双重抽样方法在社会调查中,为了保证样本的多样性和代表性,常常采用双重抽样方法。
首先,在一级样本中随机选择一部分个体,然后在这些个体中进行二级随机抽样,得到用于调查的最终样本。
通过对最终样本的数据分析,可以对总体进行推断,得出调查结果。
三、双重抽样方法的效果评估为了评估双重抽样方法的效果,需要进行有效的效果评估。
下面将介绍两种常见的双重抽样方法的效果评估方式。
1.重抽样法重抽样法是一种用于评估双重抽样效果的常用方法。
在重抽样法中,通过对已有数据进行重复随机抽样,得到同等大小的样本,然后利用这些样本进行统计分析。
二重分层抽样概述
二、估计量及其性质
性质2 当两重样本均为简单随机样本时,二重比估计的 方差为
性质3
第四节 为回归估计的二重抽样
一、二重抽样回归估计的抽样方法
二、二重抽样回归估计量及其性质
三、二重分层估计、比估计和回归估计的比较
一、二重抽样回归估计的抽样方法 在使用回归估计量时,需要掌握有关 辅助变量的资料,当其未知时,一个 可行的办法是采用二重抽样加以估计。 二重回归估计的基本思路是先在总体 中抽第一重样本作简单测试以估计辅 助变量的总体资料;再在第一重样本 中抽取第二重样本用以对调查变量的 总体指标进行估计。
第十章 二重抽样
第一节 二重抽样的定义和作用
第二节 为分层的二重抽样
第三节 为比率估计的二重抽样 第四节 为回归估计的二重抽样
第一节二重抽样的定义和作用 一、定义 二、二重抽样与两阶段抽样 三、二重抽样的作用
一、定义
二重抽样也称二相抽样或两相抽样,是指在抽样时分两 步抽取样本。一般情况下,先从总体 N中抽取一个较大 的样本 n ,称为第一重(相)样本,对之进行调查以获取 总体的某些辅助信息,为下一步的抽样估计提供条件; 然后进行第二重(相)抽样。第二重抽样所抽的样本n相 对较小,但是第二重抽样调查才是主调查。一般地,第 二重样本是从第一重样本样本中抽取的,也就是第一重 样本的子样本,但有时也可以从总体中独立地抽取。由 于样本是分两次抽取的,因此称作二重抽样。
性质3 方差的近似无偏估计量为
L L ˆ 1 1 1 2 2 2 1 ˆ V (YstD ) ( ) wh ( yh ystD ) wh sh ( ) n ' N h1 nh nh h 1
第三节 为比率估计的二重抽样
一、引言 二、二重抽样的比率估计及其性质
二重抽样
6.1概述 概述
6.1.1二重抽样的定义 二重抽样的定义 二重抽样(也叫二相抽样),抽样过程分两 二重抽样(也叫二相抽样),抽样过程分两 ),抽样过程分 进行: 步进行:
第一步称为第一 第一步称为第一重(相)抽样,是从总体中抽取 抽样, 一个比较大的样本,称为第一重( 比较大的样本 样本。 一个比较大的样本,称为第一重(相)样本。目 的是获取有关总体的某些辅助信息 辅助信息, 的是获取有关总体的某些辅助信息,为下一步的 第二重抽样估计提供条件。 第二重抽样估计提供条件。 第二步称为第二 抽样, 第二步称为第二重(相)抽样,是从第一重样本 中抽取的相对较小的样本,称为第二重( 较小的样本 中抽取的相对较小的样本,称为第二重(相)样 它是第一重样本的一个子样本, 本。它是第一重样本的一个子样本,对它进行的 调查是主调查。 调查是主调查。
Y
′ ystD = ∑ wh yh
h =1
L
性质: 性质:
(1)
E ( ystD ) = Y
1 1 1 2 2 1 (2)V ( ystD ) = − S + ∑ Wh S h − 1 n′ N h n′ γh
V 的一个近似无偏估计: (3) ( ystD ) 的一个近似无偏估计:
1 1 22 1 1 2 ′ v ( ystD ) = ∑ − w′h sh + − ∑ wh ( yh − ystD ) ′ nh n′ N h h nh
证明: 证明:
K (1)E( y ) = E E ( y ) = E E ′ 1 2 ∑ wh yh stD 1 2 stD h=1
二重抽样
表7-1
某银行客户的样本数据
2 2 2 (2 6.42) 0.32 (7 6.42) 0.1 ( 15 6.42) 1 1 L ' 1 1 0.54 2 ( ' ) h ( y h y stD ) ( ) 2 n N h 1 1000 800 0 . 04 ( 40 6 . 42 )
h
y h )] E ( y stD ) E1 [ E 2 ( y stD )] E1 [ E 2 ( wh
h 1
L
y h ) E1 ( y ) Y E1 ( wh
h 1
L
定理7.2
y stD 的方差为:
2 1 1 2 L Wh S h 1 V ( y stD ) ( )S ( 1) n N n f hD h 1 2 f hD 是第二重样本第h 式中,S2是总体方差;S h 是第h层的总体方差;
6.3 不等概率系统抽样
行政村编号 1
人数 134
累计人数 134
抽中代码 100
2 3
4
376 202
106
510 712
818
5
6 7 8 9 10
634
397 306 247 95 588
1452
1849 2155 2402 2497 3085
1128
2156
7.1 二重抽样
前面介绍的抽样技术中,大多需要事先了解关于总体的 信息,例如分层抽样需要事先知道各层权重,比率估计 和回归估计需要知道总体的某些辅助信息,但在有些情 况下,这些信息在调查前无法预知。这时,可以先从总 体中抽取一个大的初始样本,获得总体的辅助信息,然 后再从初始样本或总体中抽取一个子样本,这种方法就 是二重抽样。
第九章 二重抽样
第十章 二重抽样第一节 二重抽样综述一、二重抽样的概念二重抽样也称二相抽样。
其基本做法是:对于一个大总体,先从总体中随机抽取一个较大的样本(第一重样本),由此估计有关总体的结构或辅助指标以及其他有关信息,为第二重抽样估计提供条件;然后再从第一重样本中随机抽取一个较小的样本(第二重样本),利用这第二重样本,对总体所研究变量进行抽样推断。
在某些情况下,也可在第二重样本中再抽第三重、第四重样本,由此形成多重抽样。
其中二重抽样是最为常用的。
二、二重抽样的作用在社会经济抽样调查中,二重抽样的主要作用有下列几方面:第一,用于从总体所有基本单元中筛选确定出主调查对象。
第二,用于经常性调查。
第三,用于了解陌生总体内在结构或分布的大致情况,为抽样方法和抽样组织形式的选择提供依据。
第四,为分层抽样推断提供层权资料。
第五,为比率估计和回归估计提供辅助资料。
第六,在经常性的多项目抽样调查中,用于解决不同调查项目需要不同样本容量的问题。
第七,用于研究样本轮换中的某些问题。
第二节 二重分层抽样一、二重分层抽样概述在分层抽样中,我们要求总体各层的层权应事先已知,如果层权未知或不能事先确定,则分层抽样在精度上的得益可能会在很大程度上被抵消掉,此时,选择二重分层抽样可以较好地解决层权问题。
二重分层抽样是先在总体中随机抽取第一重样本n ′,对这个样本各单元进行分层后求各层的层权,然后从第一重样本中用分层随机抽样法抽取第二重样本n ,用于估计总体指标。
由于第一重简单随机抽样,第二重分层抽样,故其误差同二重的抽样都有关。
二、估计量及其方差总体均值估计量为∑===Lh h h stD stD y w y Y 1ˆ其中∑==hn j hjhh yn y 11为第一重样本第h 层均值的无偏估计。
可以证明stD y 是总体均值stD Y 的无偏估计量。
如果第一重样本是随机样本,第二重样本为第一重样本的随机子样本,则估计量的方差为∑∑==-+-=-+-=+=Lh h h h Lh h h h h stD v n S W N n S n n n S W N n n S y V E y V Y V 1221222211)11(')1'1()1'(')'1(')]([)'()ˆ( 其中)'(1y V 为第一重抽样之方差,)(2y V 为第二重抽样之方差。
抽样调查-第9节二重抽样
s(Y ) Ns( ystD ) N v( ystD ) 2427.32 (百万元)
四、二重分层抽样样本量的最优分配
二重分层抽样中有两次抽样,这两次抽样的样本量
即n和n ,直接影响估计的精度。第一重抽样n越大,
对分层信息的了解和估计就越精确,从而可以减少估计
量的误差;同样,第二重抽样 n 越大,估计量的方差越
采用二重分层抽样,对总体均值Y 的估计量为:
Байду номын сангаас
L
ystD wh yh
h1
(二)均值估计量 ystD 的性质
性质1 估计量 y stD是 Y的无偏估计。即 E( ystD ) Y
因为
E(yh)
y
h
L
所以有 E( ystD ) E1[E2 ( ystD )] E1[E2 ( wh yh )]
h1
j 1,2, , nh;h 1,2, , L
第二重样本第h层样本单元的平均数: yh
总体方差:S 2
,第h层的总体方差:
S
2 h
1 nh
nh
yhj
j 1
返回
第一重样本第h层方差:sh 2
第二重样本第h层方差:sh2
1 nh 1
nh
( yhj
j 1
yh )2
二、抽样方法
第一步: 利用简单随机抽样,从总体的N个单元中随机
h1
(1 nh
1 nh
)wh 2sh2
(1 n
1 N
L
)
h1
wh
(
yh
y stD
)2
式中,v( ystD )为V ( ystD ) 的近似无偏估计;sh2为第二重样
市场调查LV104 双重抽样
双重抽样,又称二重抽样、复式抽样,相关抽样法。
是指在抽样时分两次抽取样本的一种抽样方式。
双重抽双重抽样的主要作用是提高抽样效率、节约调查经费。
双重抽样的应用
双重抽其具体步骤为:
首先抽取一个初步样本,并搜取一些简单项目以获得有关总体的信息;
然后,在此基础上再进行深入抽样。
在实际运用中,双重抽样可以推广为多重抽样。
做一次随机抽样,调查y 和x两种性状,从中求出y 依x 的回归方程。
这个样本容量 n 不一定很大,但希望x 和y 有较大的幅度。
如:若所要调查的性状y是不易观察测定,甚至对观察材料要破坏后方能测定的,而试验又不容许将材料破坏,这时可以利用和所要调查的性状有密切相关关系的另一便于测定的性状x进行间接的抽
样调查,按确定的相关关系从x的调查结果推算y 的结果。
或对总体进行x的抽样调查,设样本容量为m,按以上建立的回归关系从推算
的标准为
的近似式:
采用双重抽样法,必须注意 y 和 x 两性状间不但要有显著相关,而且须有高程度显著相关,才能获得比较准确的结果,所以在建立回归方程时要检验其相关系数的大小及显著性。
Chap07二重抽样
第七章二重抽样7.1概述7.1.1什么是二重抽样二重抽样(double sampling)也称二相抽样。
抽样分两步进行:第一重(相)抽样(the first phase sampling),从总体中抽取一个比较大的样本(第一重样本)。
对第一重样本的调查主要是获取有关总体的某些辅助信息,为下一步的第二重抽样估计提供基础。
第二重(相)抽样(the second phase sampling)所抽的样本相对较小,对它实施主调查。
通常第二重(相)样本是从第一重样本中抽取的,但也可从总体中独立地抽取。
7.1.2二重抽样的作用1.从总体单元中筛选主调查的对象。
先从总体中抽取一个大样本,通过相对比较简单的预调查,筛选出满足条件的对象,从中再抽样进行下一步的主调查。
2.在多指标调查中,根据个体指标差异大小或精度要求高低,需要不同样本量。
采用二重抽样,既能保证精度,又可节省费用。
3.为提高抽样精度在抽样或构造估计量时需要总体某些辅助信息的情形。
在缺少辅助信息的情况就可用二重抽样先抽一个大样本以获取这些信息,再通过一个较小的第二重样本的实际调查并利用第一重样本中的所得信息来提高估计量的精度。
一般情形下,第一重抽样的费用应当是非常低廉的,由此而增加的费用必须通过估计量精度的提高而得到补偿。
4.在一些连续性抽样调查中,同一单元不同时期的指标值往往存在相关性,利用这种相关性采用回归估计可以提高精度。
为降低样本老化所带来的负面影响,通常采用样本轮换的方法。
二重抽样可以用来研究样本轮换中的某些问题。
7.1.3二步抽样估计量求均值与方差的一般公式记2E ,2V 为给定第一步抽样结果的条件下对第二步抽样求均值及方差,1E ,1V 是对第一步抽样求均值与方差,则对按二步抽样获得的估计量ˆθ,有以下结果:12ˆˆ()[()]E E E θθ=(7.1)1212ˆˆˆ()[()][()]V V E E V θθθ=+(7.2)为证明(7.2)式,令ˆ()E θθ= ,则2212ˆˆˆ()()[()]V E E E θθθθθ=-=- 222222ˆˆˆ()()2()E E E θθθθθθ-=-+ 22222ˆˆˆ[()]()2()E V E θθθθθ=+-+ 两边求1E ,注意到12ˆ[()]E E θθ= ,有:{}22121212ˆˆˆˆ()[()][()][()]V E E E V E E θθθθ=-+1212ˆˆ[()][()]V E E V θθ=+7.2为分层的二重抽样7.2.1二重分层抽样的样本抽选方法分层抽样的前提是总体所有单元已按某种分层标志明确地分成若干层,且层权已知。
二重分层抽样概述
第二节 为分层的二重抽样
一、二重分层抽样概述 二、估计量及其性质
一、二重分层抽样概述
在分层抽样中,我们要求总体各层的 层权应事先已知,如果层权未知或不 能事先确定,则分层抽样在精度上的 得益可能会在很大程度上被抵消掉, 此时,选择二重分层抽样可以较好地 解决层权问题。
符号说明
:第一重样本第h层的单元数 nh :第二重样本第h层的单元数 N Wh h :总体单元第h层的权重 N :第一重样本第h层的权重 nh h
4 、分层抽样常比回归和比率均值有特殊的优越 性,特别是在调查变量与辅助变量为非线性关 系时,按比例分层能得到更大的得益;若分层 变量不是数值型时,分层方法仍然可以使用, 而回归和比估计方法则不能用。 5 、如果辅助变量的总体均值是已知的,则回归 和比估计可以在独立于辅助变量的 n 次抽选的 样本上进行,而在分层抽样中,样本 n 必须是 第一重样本n′的子样本。
End!
26
二、作用
1:用于抽样中的分层和进行比估计和回归估计 2:用于筛选主调查对象(有些调查,调查对象只是 总体的一部分,且与其他单位不易区分) 3:节约调查费用(大规模的多指标调查,有时不需 要相同的样本量) 4:降低无回答偏倚(对最初的无回答再进行一次抽 样,对子样本获取数据,最后用两次样本数据进行 加权估计) 此外,还可以用于了解陌生总体的内在结构或其分 布的大致情况。
性质3 方差的近似无偏估计量为
L L ˆ 1 1 1 2 2 2 1 ˆ V (YstD ) ( ) wh ( yh ystD ) wh sh ( ) n ' N h1 nh nh h 1
第三节 为比率估计的二重抽样
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如,在住户家庭开支调查中,对高档耐用消费品、旅 游及婚丧嫁娶一类开支的调查就需要有较大的样本量,而对 家庭日用品、粮食、油盐酱醋一类开支则仅需要较小的样本 量。对这类调查若采用二重抽样既能保证精度,又节约了调 查费用。
在一些连续定期进行的抽样调查中,同一单元不同时间 的指标值往往存在着相关关系,利用这种相关关系采用回归 估计可以提高精度。因此,在很多实际的抽样调查中,在后 一次调查的样本中大部分单元是前一次调查样本的单元。如 此处理,不仅可以提高精度,而且还可以节约费用,为调查 工作带来很多方便。
估计银行客户的资产总额为:
yˆ N ystD 80006.42 51360(百万元)
(1) 可计算 y 的方差估计如下: stD
v
y stD
L h1
1 nh
1 nh
Wh2sh2
1 n
1 N
L
Wh
h1
yh
二重抽样的作用
第一,用于从总体所有单元中筛选确定出主调 查对象。
第二,用于经常性调查。对于诸如居民的某些 收入、居民基本生活支出、某些商品价格等指 标,统计部门需经常了解。
第三,用于了解陌生总体内在结构或分布的大 致情况,为抽样方法和抽样组织形式的选择提 供依据。
第四,为分层抽样推断提供层权资料。 第五,为比率估计和回归估计提供辅助资料。 第六,在经常性的多项目抽样调查中,用于解
所谓二重分层抽样就是说先对总体按简单随机 方式进行第一重抽样,抽得一个大样本,把这个大 样本看作是一个总体(子总体),对其进行分层,对 这个子总体进行分层抽样。
二重分层抽样具体步骤如下:先从总体中抽出一个大样
本,记作{ y1 , y2 ,L , yn },按照某种标志,把它分成 L 层
这种标志是易于观察的。第 h层的第 j个指标值记为 yhj ,nh
有时候,调查的总体只是一个大总体中 的小总体,但我们对这个小总体却知之甚少, 甚至连小总体的单元数都不知道。在这种情 况下,就可以使用二重抽样,从总体单元中 筛选主调查的对象。
例如,调查的总体是老年糖尿病症患者 的全体,它仅是老年人口中的一部分,一开 始我们并不知道如何把这个总体从老年人口 中区分出来进行调查。我们只能从老年人口 中抽取一个样本,然后对这个样本中的老年 糖尿病症患者再进行抽样调查。
某银行的客户样本数据
分层 300 万元以下
第一重样本
第二重样本
样本均值 (百万元)
yi2j
j
540
80
2
400
300 万-1000 万
320
60
7
3100
1000 万-2000 万
100
40
15
9600
2000 万元以上
40
20
40
45120
合计
1000
200
s
2 j
1.01
2.71
15.38
很多情况就是如此,第一次抽样的实施是非常 方便的。例如,进行成都市大学毕业生就业意愿调 查时,试图将大学生按生源地分成本市和外地两层, 但没有掌握来自本市或者外地学生的比例。这时, 可以先进行一次抽样调查,而这次调查并不需要找 学生本人,只要对各校学生花名册抽样即可.
二重抽样也称为二相抽样。这种抽样的主要特 点是先后进行二次抽样,每次抽取一个样本。实际 进行时,两次抽样也可以是同时进行的,只是对样 本中大多数个体或者单元仅调查一些简单的辅助信 息,进行详细调查的只是这些样本中的一部分。
当Wh固定时, E2 yh yh ,故有
V1
E2
L h1
Wh
y
h
V1
L h1
Wh
yh
V1(
y
)
1 n
1 N
S
2
又当Wh固定时,对第一重样本第 h 层的方差 sh2 ,有 E1 sh2 Sh2 ,
(6.4)
由第三章的知识得知, y又是总体平均数 Y 的无偏 估计。因此, ystD 也是 Y 的无偏估计。
二重分层抽样的总体平均数的估计量 ystD与分层抽样的
估计量 yst形式上基本一致。只是 yh来自于对第一重样本的分
层抽样,h 仅是总体层权 Wh的估计。因此,它的估计精度要
比 yst差一些。对 ystD的方差 V ( ystD有) 下面近似的无偏估计量
第六章 二重抽样
§1 二重抽样简述
我们知道在进行抽样设计时,往往要求先掌握关于总体 的一些知识。比如分层抽样时,必须知道各层的权重。又如 进行比率估计和回归估计时,必须事先知道辅助变量的总体 总和或者均值。有时候,我们对这些信息一无所知,似乎不 能利用一些好的抽样方法。其实不然,只要获取那些知识的 代价并不算大,我们就可以先进行一次抽样,获得辅助资料 的信息,然后再进行第二次抽样。第二次抽样就可以使用分 层抽样或者比率估计等方法了。
1 L
n
h1
1 fhD
1E
Whsh2
L WhSh2 h1 n
1 fhD
1
因此:V
y stD
1 n
1 N
S
2
L WhSh2 h1 n
1 fhD
1
V ystD 的(近似)样本无偏估计为
V
y stD
L h1
1 nh
1 nh
Wh2sh2
1 n
1 N
L
Wh
h1
yh ystD
2
例 某银行要调查其客户的资产情况。已知该银 行的客户数为8000户,针对客户规模差异较大 的特点,拟采用分层抽样。但由于缺乏现成的分 层资料,决定采用二重分层抽样方法。第一重样 本量户,根据其自报的资产情况将其分为4层 (详见下表)。在第一重样本分层的基础上,在 各层分别抽取第二重样本。设第二重样本量为 200,对这200个客户进行了详细的调查,取得 了有关数据经整理后如表9.1,试估计该银行所 有客户的资产总额及抽样标准误差。
但是,样本又不能一直不变,因为长期使用同样 的单元调查对象会产生厌倦情绪,或者样本的代表性 发生问题,从而影响调查质量。为降低这种样本老化 所带来的负面影响,通常采用样本轮换方法。二重抽 样可以用来研究样本轮换中的某些问题。
§2 二重分层抽样
进行分层抽样时,必须首先按照某种方式把总体 所有单元分成若干层,已知每一层的层权(该层单元 占总体的比例)然后在各层中独立地进行抽样。如果 对总体分层的情况不甚了解,但如果知道层权,也还 可以使用事后分层技术。如果连层权都不知道,那么 二重分层抽样或许是解决问题的一个好办法。
值
y
进行观察,而是把大样本作为总体看待,对它进行分层
i
抽样。记抽得的样本为:
{ y11,L , y1n1 , y21,L , y2n2 ,L , yh1,L , yhnh ,L , yL1,L , yLnL }
yhj 是从第 h 层中按简单随机抽样所得样本的第 j 个单元的指
标值。
L
这里有nh nh , nh n n ,n 是第二重抽样的样本容量,nh h1
又如,在一项办公自动化设备使用情况的调查中,要求 调查单位的微机、复印机、传真机等办公设备的使用情况, 但我们事先也不能确定哪家单位一定有这些设备。碰到类似 这种情况,就可以使用二重抽样,先从总体中抽出一个大的 样本来,进行相对比较简单的调查测试,筛选出满足条件的 对象,从中再抽样进行主调查。
在大多数抽样调查中,调查的总体指标往往不是一个而 是多个。不同的指标往往有不同的精度要求,调查的难易程 度也不一样,它们并不需要相同的样本量。为了节约调查费 用,对那些个体指标差异大的、精度要求高的指标,调查一 个较大样本;而对指标值差异小或者估计精度要求较低的指 标,可以仅调查一个较小的样本。
1 n
L
h
h1
( yh
ystD )2
(6.6)
性质 1 估计量 ystD 是Y 的无偏估计,即 E( ystD ) Y 证明:第二重样本是利用分层随机抽样从第一重样本中抽出的子样本,
因此第二重样本第 h 层的样本均值 yh 是第一重样本第 h 层均值 yh' 的无偏 估计,即 E(yh ) yh' ,则在两次抽样下:
决不同调查项目需要不同样本容量的问题。 第七,用于研究样本轮换中的某些问题。
当为了提高抽样效率,打算使用某些抽样或 者估计方法,但又不知道某些必要的辅助信息时, 二重抽样可以发挥很大作用。在缺少这种辅助信 息的情况下,就可以使用二重抽样先抽一个大样 本以获取这些信息,然后再对较小的第二重样本 进行实际调查并利用第一重样本中所得信息改善 估计量的精度。这里要考虑费用问题,一般情况 下,第一重抽样的费用应该是非常低廉的,由此 而增加的费用可以通过提高估计量的精度而得到 益处进行补偿。
则
E1
V2
L h1
Wh
yh
E1
L h1
Wh2V2
(
yh
)
E1
L Wh2sh2 h1
1 nh
1 nh
E1
L h1
Whsh2 n
1 fhD
1