08-第八章_整群抽样
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 N M 1 åå (Yij - Y ) 2 , NM - 1 i =1 j =1 N M
所以总离差平方和
åå (Y
i =1 j =1 N
ij
- Y ) 2 = ( NM - 1)S 2
下面我们将总离差平方和分解
(Yij - Y ) 2 = åå é (Yij - Y i ) + (Y i - Y ) ù åå ê ú ë û i =1 j =1 i =1 j =1
就是说, v( y ) = 过程完毕。 备注:
1- f 2 1- f 2 sb 是 V ( y ) = Sb 的无偏估计。 nM nM
Y i 的样本方差为 v( y i ) = = 1 n ( y i - y) 2 å n - 1 i =1
1 M n å ( y - y)2 M n - 1 i =1 i 1 2 = sb M
分别为总体和样本(按小单元)的均值(平均数) 。
2
S2 =
N M n M 1 1 2 2 ( Y Y ) s = , åå ij åå ( yij - y) 2 NM - 1 i =1 j =1 nM - 1 i =1 j =1
分别为总体和样本(按小单元)的总方差。
S b2 =
M N 1 N M 2 = ( Y Y ) (Y i - Y ) 2 , i åå å N - 1 i =1 N - 1 i =1 j =1 M n 1 n M 2 = ( y y ) ( y i - y) 2 åå å i n - 1 i =1 n - 1 i =1 j =1 é 1 M ù (Yij - Y i ) 2 ú , ê å å i =1 ë M - 1 j =1 û
将 V ( y) =
1- f M 2 N V ( y) (Y i - Y )2 代入 V ( y ) = ,有 × å n N - 1 i =1 M2
4
V ( y) =
V ( y) M2 1 = 2 V ( y) M ù 1 é1 - f M 2 N = 2ê × (Y i - Y )2 ú å M ë n N - 1 i =1 û 1- f 1 N (Y i - Y )2 å n N - 1 i =1 1- f 2 Sb = nM =
第八章 整群抽样
8.1 概述 8.1.1 什么是整群抽样 一个新建的居民区由近百幢居民楼组成,其中住户总数达数千户。欲 用抽样调查方法估计该居民区现有的电话拥有率,考虑以下两种抽样方法。 一种是用简单随机抽样抽取一定样本量的住户, 譬如说一共抽取 n = 250 户 进行调查,然后用 3.3 节所述方法对全居民区的电话拥有率进行估计。另一 种方法是按一定方法抽取一定数量的居民楼, 譬如说 15 幢或 20 幢楼, 然后 对这些楼中的每个住户都进行调查, 根据调查结果来估计整个居民区的电话 拥有率。 这两种抽样方法的主要差别是抽样单元不一样, 前者以住户为抽样 单元,后者以居民楼为抽样单元。后一种抽样方法称为整群抽样(cluster sampling) 。一般地说,如果总体中所有较小的基本单元可以某种形式组成 数量较少但规模较大的单元;或反过来说,每个“大” 单元都由若干个“小” 单元组成,称这些“大”单元为初级抽样单元(primary sampling unit) , “小” 单元为次级(抽样)单元(secondary sampling unit) 。在总体中按一定方式 抽取若干初级单元,调查每个被抽中的初级单元中所包含的全部次级单元, 则这种抽样称为整群抽样,也称为集团抽样。这里的群(cluster)就是指初 级单元, 整群抽样就是指将总体中的小单元整群整群地进行抽取。 在前面的 例子中,居民楼就是群(初级单元) ,而住户则是次级单元,对居民楼的抽 样就是一种对住户的整群抽样。 8.1.2 整群抽样的特点及适用场合 在实际中整群抽样是一种常用的抽样方法。在前面举的居民区住户电 话拥有率调查的例子中, 若采用对住户的简单随机抽样, 则首先要有该居民 区所有住户的抽样框,否则无法进行抽样。其次即使有全体住户的抽样框, 当抽到一个简单随机样本时, 这个样本在位置上必然是很分散的。 例如一个 250 户的样本很可能分布在数十幢楼,甚至全部居民楼中。因此调查这样一 个样本意味着要跑很多路,实施显然不便,调查的费用也相对较高。而若采 用对居民楼的整群抽样, 一则可以不需要所有住户的抽样框, 二则由于样本 相对集中,可以节省调查时间和费用,因而总的抽样效率较高。 在下面两节中我们将看到对于整群抽样,抽样精度(估计量的方差) 与群的性质有很大关系。 在多数情形, 由于每个群内的小单元多少有点相似, 因此如果抽同样数量的小单元, 整群抽样的抽样误差要比直接用简单随机抽 样抽小单元的抽样误差大。 但由于整群抽样的费用省, 因此完全可以兼顾两 方面, 即用较多的小单元而同时做到误差小且总费用也省, 对于某些少数情
N
N
M
因为中间项等于零
N é M ù ( Y Y )( Y Y ) = ( Y Y ) (Yij - Y i )ú i i i ê åå å å ij i =1 j =1 i =1 ë j =1 û N M
= å (Y i - Y ) × 0
i =1
N
=0
所以平方和的分解式变为
åå (Yij - Y ) 2 = åå (Yij - Y i ) 2 + åå (Y i - Y ) 2
N
2 = sb
分别为总体和样本的群间方差。
2 Sw = N M 1 1 (Yij - Y i ) 2 = åå N (M - 1) i =1 j =1 N
2 sw =
n M ù 1 1 n é 1 M ( y ij - y i ) 2 = å ê ( y ij - y i ) 2 ú åå å n( M - 1) i =1 j =1 n i =1 ë M - 1 j =1 û
是总体均值
1 N
å ê M - 1 å (Y
i =1
N
é 1 ë
M
j =1
ij
N M ù 1 2 - Y i )2 ú = (Yij - Y i )2 = S w åå û N (M - 1) i =1 j =1
的无偏估计。 过程完毕。
2 ˆ 2 。先给出结论: 下面我们求总体方差 S 的无偏估计 S
总体方差
S2 =
1 2 N ( M - 1) S w + ( N - 1) S b2 NM - 1 1 2 2 N ( M - 1) s w + ( N - 1) s b NM - 1
[
]
的无偏估计为:
ˆ2 = S
[
]
详细过程如下: 根据方差分析,我们知道总体按小单元的总离差平方和
6
åå (Y
i =1 j =1
i =1 j =1 i =1 j =1 i =1 j =1
N
M
N
M
N
M
7
2 又因为 S w =
N
M
ij
- Y ) 2 = ( NM - 1)S 2
可以分解成群间平方和与群内平方和两部分:
( NM - 1) S 2 = M å (Y i - Y )2 + åå (Yij - Y i ) 2
i =1 i =1 j =1 2 = ( N - 1) S + N (M - 1) S w 2 b
N
N
M
过程如下: 因为 S =
y=
1 n å yi = M y n i =1
根据简单随机抽样的性质, y 是 Y 的无偏估计,因此样本(按小单元的) 均值
y=
y 1 = M nM
åå y
i =1 j =1
n
M
ij
是总体(按小单元的)均值
3
Y=
1 NM
åå Y
i =1 j =1
N
M
ij
=
Y M
的无偏估计。 为推导 y 的方差 V ( y ) 的公式,我们注意到 y 的方差为:
5
Y i 的总体方差为 V (Y i ) = = 1 N (Y i - Y ) 2 å N - 1 i =1
1 M N å (Y i - Y ) 2 M N - 1 i =1 1 2 = Sb M
备注完毕。 下面我们看一看样本群内方差 sw 是否是总体群内方差 S w 的无偏估计。 先给出结论:
2 2 sw 是 Sw 的无偏估计。 2 2
过程如下: 如果将 Z i =
1 M (Yij - Y i ) 2 作为单元的指标值,则它的样本均值 å M - 1 j =1
n M 1 n é 1 M 1 2ù 2 y y = ( ) ( yij - y i )2 = sw åê å ij i ú n( M - 1) åå n i =1 ë M - 1 j =1 i =1 j =1 û
又知
y V ( y) )= M M2
V ( y) = = = =
1- f 1 N (Yi - Y )2 × å n N - 1 i =1 1- f 1 éN ù × (M Y i - M Y )2 ú å ê n N - 1 ë i =1 û 1- f 1 é 2 N ù × M å (Y i - Y )2 ú ê n N -1 ë i =1 û 1- f M 2 N × å (Y i - Y )2 n N - 1 i =1
1
形,由于群的特殊结构,群内小单元的差异很大,此时即便同样数目的小单 元,整群抽样的精度也比简单随机抽样高。在这种情形,整群抽样的优点就 更为明显。 采用整群抽样时,当群的大小(群内包含的小单元的个数)接近时, 常采用简单随机抽样抽取群; 当群的大小相差比较大时, 为提高效率则更多 地采用不等概率抽样(按与群的大小成比例的概率抽样)方法。 8.2 群大小相等情形,对群进行简单随机抽样时的估计量及其方差 我们首先讨论总体中的 N 个初级单元即群的大小都相等 (设为 M )的 情形,此时对群的抽取一般采用简单随机抽样。在实际问题中,只要群大小 相接近,就可采用本节的方法,此时代替 M 的是群的平均大小 M 。 8.2.1 记号 记 Yij 为 总 体 第 i 群 中 第 j 的 小 单 元 ( 次 级 单 元 ) 的 指 标 值 ,
分别是总体和样本的群内方差。 8.2.2 估计量及其性质 本小节我们求总体均值 Y 的无偏估计量 y ,估计量方差 V ( y ) 及方差估 计量 v( y ) 。 群大小相等时的整群抽样,对群的抽样常采用简单随机抽样。此时若 将群和 Yi 作为群(初级单元)的指标值,则 Yi 的总体平均值 Y 的简单估计 应为:
过程完毕。 在求出了总体均值 Y 的无偏估计量 y 及其方差 V ( y ) 后,我们现在求估 计量方差的估计量 v( y ) 。 容易知道, v( y ) = 过程如下: 因为对群的抽样是简单随机的, 若将 Y i =
1- f 2 sb nM Yi 看作是单元指标值, 则Y i M
的样本方差
2 sb S2 2 2 是总体方差 b 的无偏估计,从而 sb 是 Sb 的无偏估计。也 M M
i = 1,2, , N ; j = 1,2,, M 。记 y ij 为样本第 i 群中第 j 的小单元(次级
单元)的指标值, i = 1,2, , n ; j = 1,2, , M ,又 f =
n 是抽样比。 N
Yi = å Yij , y i = å y ij
j =1 j =1
M
M
分别是总体和样本中第 i 群的指标和,简称为群和。
N M N M i =1 j =1 N i =1 j =1
N
M
M
2
= åå (Yij - Y i ) 2 + åå (Y i - Y )2 +2åå (Yij - Y i )(Y i - Y )
i =1 j =1 M M
= åå (Yij - Y i ) + åå (Y i - Y )2
2 i =1 j =1 i =1 j =1
V ( y) =
1- f 1 N × (Yi - Y ) 2 å n N - 1 i =1
下面我们通过上式求 V ( y ) 。先给出结论:
V ( y) =
1- f 1 N × (Y i - Y )2 å n N - 1 i =1 1- f 2 = × Sb nM
过程如下: 已知
V ( y) = V (
Yi =
Yi y , yi = i M M
分别为总体和样本中第 i 群(按小单元)的平均数。
Y=
1 N
å Yi , y =
i =1
N
1 n å yi n i =1
分别为总体和样本的平均群和。
Y=
1 NM
åå Y
i =1 j =1
N
M
ij
=
Y 1 ,y= M nM
åå y
i =1 j =1 M
所以总离差平方和
åå (Y
i =1 j =1 N
ij
- Y ) 2 = ( NM - 1)S 2
下面我们将总离差平方和分解
(Yij - Y ) 2 = åå é (Yij - Y i ) + (Y i - Y ) ù åå ê ú ë û i =1 j =1 i =1 j =1
就是说, v( y ) = 过程完毕。 备注:
1- f 2 1- f 2 sb 是 V ( y ) = Sb 的无偏估计。 nM nM
Y i 的样本方差为 v( y i ) = = 1 n ( y i - y) 2 å n - 1 i =1
1 M n å ( y - y)2 M n - 1 i =1 i 1 2 = sb M
分别为总体和样本(按小单元)的均值(平均数) 。
2
S2 =
N M n M 1 1 2 2 ( Y Y ) s = , åå ij åå ( yij - y) 2 NM - 1 i =1 j =1 nM - 1 i =1 j =1
分别为总体和样本(按小单元)的总方差。
S b2 =
M N 1 N M 2 = ( Y Y ) (Y i - Y ) 2 , i åå å N - 1 i =1 N - 1 i =1 j =1 M n 1 n M 2 = ( y y ) ( y i - y) 2 åå å i n - 1 i =1 n - 1 i =1 j =1 é 1 M ù (Yij - Y i ) 2 ú , ê å å i =1 ë M - 1 j =1 û
将 V ( y) =
1- f M 2 N V ( y) (Y i - Y )2 代入 V ( y ) = ,有 × å n N - 1 i =1 M2
4
V ( y) =
V ( y) M2 1 = 2 V ( y) M ù 1 é1 - f M 2 N = 2ê × (Y i - Y )2 ú å M ë n N - 1 i =1 û 1- f 1 N (Y i - Y )2 å n N - 1 i =1 1- f 2 Sb = nM =
第八章 整群抽样
8.1 概述 8.1.1 什么是整群抽样 一个新建的居民区由近百幢居民楼组成,其中住户总数达数千户。欲 用抽样调查方法估计该居民区现有的电话拥有率,考虑以下两种抽样方法。 一种是用简单随机抽样抽取一定样本量的住户, 譬如说一共抽取 n = 250 户 进行调查,然后用 3.3 节所述方法对全居民区的电话拥有率进行估计。另一 种方法是按一定方法抽取一定数量的居民楼, 譬如说 15 幢或 20 幢楼, 然后 对这些楼中的每个住户都进行调查, 根据调查结果来估计整个居民区的电话 拥有率。 这两种抽样方法的主要差别是抽样单元不一样, 前者以住户为抽样 单元,后者以居民楼为抽样单元。后一种抽样方法称为整群抽样(cluster sampling) 。一般地说,如果总体中所有较小的基本单元可以某种形式组成 数量较少但规模较大的单元;或反过来说,每个“大” 单元都由若干个“小” 单元组成,称这些“大”单元为初级抽样单元(primary sampling unit) , “小” 单元为次级(抽样)单元(secondary sampling unit) 。在总体中按一定方式 抽取若干初级单元,调查每个被抽中的初级单元中所包含的全部次级单元, 则这种抽样称为整群抽样,也称为集团抽样。这里的群(cluster)就是指初 级单元, 整群抽样就是指将总体中的小单元整群整群地进行抽取。 在前面的 例子中,居民楼就是群(初级单元) ,而住户则是次级单元,对居民楼的抽 样就是一种对住户的整群抽样。 8.1.2 整群抽样的特点及适用场合 在实际中整群抽样是一种常用的抽样方法。在前面举的居民区住户电 话拥有率调查的例子中, 若采用对住户的简单随机抽样, 则首先要有该居民 区所有住户的抽样框,否则无法进行抽样。其次即使有全体住户的抽样框, 当抽到一个简单随机样本时, 这个样本在位置上必然是很分散的。 例如一个 250 户的样本很可能分布在数十幢楼,甚至全部居民楼中。因此调查这样一 个样本意味着要跑很多路,实施显然不便,调查的费用也相对较高。而若采 用对居民楼的整群抽样, 一则可以不需要所有住户的抽样框, 二则由于样本 相对集中,可以节省调查时间和费用,因而总的抽样效率较高。 在下面两节中我们将看到对于整群抽样,抽样精度(估计量的方差) 与群的性质有很大关系。 在多数情形, 由于每个群内的小单元多少有点相似, 因此如果抽同样数量的小单元, 整群抽样的抽样误差要比直接用简单随机抽 样抽小单元的抽样误差大。 但由于整群抽样的费用省, 因此完全可以兼顾两 方面, 即用较多的小单元而同时做到误差小且总费用也省, 对于某些少数情
N
N
M
因为中间项等于零
N é M ù ( Y Y )( Y Y ) = ( Y Y ) (Yij - Y i )ú i i i ê åå å å ij i =1 j =1 i =1 ë j =1 û N M
= å (Y i - Y ) × 0
i =1
N
=0
所以平方和的分解式变为
åå (Yij - Y ) 2 = åå (Yij - Y i ) 2 + åå (Y i - Y ) 2
N
2 = sb
分别为总体和样本的群间方差。
2 Sw = N M 1 1 (Yij - Y i ) 2 = åå N (M - 1) i =1 j =1 N
2 sw =
n M ù 1 1 n é 1 M ( y ij - y i ) 2 = å ê ( y ij - y i ) 2 ú åå å n( M - 1) i =1 j =1 n i =1 ë M - 1 j =1 û
是总体均值
1 N
å ê M - 1 å (Y
i =1
N
é 1 ë
M
j =1
ij
N M ù 1 2 - Y i )2 ú = (Yij - Y i )2 = S w åå û N (M - 1) i =1 j =1
的无偏估计。 过程完毕。
2 ˆ 2 。先给出结论: 下面我们求总体方差 S 的无偏估计 S
总体方差
S2 =
1 2 N ( M - 1) S w + ( N - 1) S b2 NM - 1 1 2 2 N ( M - 1) s w + ( N - 1) s b NM - 1
[
]
的无偏估计为:
ˆ2 = S
[
]
详细过程如下: 根据方差分析,我们知道总体按小单元的总离差平方和
6
åå (Y
i =1 j =1
i =1 j =1 i =1 j =1 i =1 j =1
N
M
N
M
N
M
7
2 又因为 S w =
N
M
ij
- Y ) 2 = ( NM - 1)S 2
可以分解成群间平方和与群内平方和两部分:
( NM - 1) S 2 = M å (Y i - Y )2 + åå (Yij - Y i ) 2
i =1 i =1 j =1 2 = ( N - 1) S + N (M - 1) S w 2 b
N
N
M
过程如下: 因为 S =
y=
1 n å yi = M y n i =1
根据简单随机抽样的性质, y 是 Y 的无偏估计,因此样本(按小单元的) 均值
y=
y 1 = M nM
åå y
i =1 j =1
n
M
ij
是总体(按小单元的)均值
3
Y=
1 NM
åå Y
i =1 j =1
N
M
ij
=
Y M
的无偏估计。 为推导 y 的方差 V ( y ) 的公式,我们注意到 y 的方差为:
5
Y i 的总体方差为 V (Y i ) = = 1 N (Y i - Y ) 2 å N - 1 i =1
1 M N å (Y i - Y ) 2 M N - 1 i =1 1 2 = Sb M
备注完毕。 下面我们看一看样本群内方差 sw 是否是总体群内方差 S w 的无偏估计。 先给出结论:
2 2 sw 是 Sw 的无偏估计。 2 2
过程如下: 如果将 Z i =
1 M (Yij - Y i ) 2 作为单元的指标值,则它的样本均值 å M - 1 j =1
n M 1 n é 1 M 1 2ù 2 y y = ( ) ( yij - y i )2 = sw åê å ij i ú n( M - 1) åå n i =1 ë M - 1 j =1 i =1 j =1 û
又知
y V ( y) )= M M2
V ( y) = = = =
1- f 1 N (Yi - Y )2 × å n N - 1 i =1 1- f 1 éN ù × (M Y i - M Y )2 ú å ê n N - 1 ë i =1 û 1- f 1 é 2 N ù × M å (Y i - Y )2 ú ê n N -1 ë i =1 û 1- f M 2 N × å (Y i - Y )2 n N - 1 i =1
1
形,由于群的特殊结构,群内小单元的差异很大,此时即便同样数目的小单 元,整群抽样的精度也比简单随机抽样高。在这种情形,整群抽样的优点就 更为明显。 采用整群抽样时,当群的大小(群内包含的小单元的个数)接近时, 常采用简单随机抽样抽取群; 当群的大小相差比较大时, 为提高效率则更多 地采用不等概率抽样(按与群的大小成比例的概率抽样)方法。 8.2 群大小相等情形,对群进行简单随机抽样时的估计量及其方差 我们首先讨论总体中的 N 个初级单元即群的大小都相等 (设为 M )的 情形,此时对群的抽取一般采用简单随机抽样。在实际问题中,只要群大小 相接近,就可采用本节的方法,此时代替 M 的是群的平均大小 M 。 8.2.1 记号 记 Yij 为 总 体 第 i 群 中 第 j 的 小 单 元 ( 次 级 单 元 ) 的 指 标 值 ,
分别是总体和样本的群内方差。 8.2.2 估计量及其性质 本小节我们求总体均值 Y 的无偏估计量 y ,估计量方差 V ( y ) 及方差估 计量 v( y ) 。 群大小相等时的整群抽样,对群的抽样常采用简单随机抽样。此时若 将群和 Yi 作为群(初级单元)的指标值,则 Yi 的总体平均值 Y 的简单估计 应为:
过程完毕。 在求出了总体均值 Y 的无偏估计量 y 及其方差 V ( y ) 后,我们现在求估 计量方差的估计量 v( y ) 。 容易知道, v( y ) = 过程如下: 因为对群的抽样是简单随机的, 若将 Y i =
1- f 2 sb nM Yi 看作是单元指标值, 则Y i M
的样本方差
2 sb S2 2 2 是总体方差 b 的无偏估计,从而 sb 是 Sb 的无偏估计。也 M M
i = 1,2, , N ; j = 1,2,, M 。记 y ij 为样本第 i 群中第 j 的小单元(次级
单元)的指标值, i = 1,2, , n ; j = 1,2, , M ,又 f =
n 是抽样比。 N
Yi = å Yij , y i = å y ij
j =1 j =1
M
M
分别是总体和样本中第 i 群的指标和,简称为群和。
N M N M i =1 j =1 N i =1 j =1
N
M
M
2
= åå (Yij - Y i ) 2 + åå (Y i - Y )2 +2åå (Yij - Y i )(Y i - Y )
i =1 j =1 M M
= åå (Yij - Y i ) + åå (Y i - Y )2
2 i =1 j =1 i =1 j =1
V ( y) =
1- f 1 N × (Yi - Y ) 2 å n N - 1 i =1
下面我们通过上式求 V ( y ) 。先给出结论:
V ( y) =
1- f 1 N × (Y i - Y )2 å n N - 1 i =1 1- f 2 = × Sb nM
过程如下: 已知
V ( y) = V (
Yi =
Yi y , yi = i M M
分别为总体和样本中第 i 群(按小单元)的平均数。
Y=
1 N
å Yi , y =
i =1
N
1 n å yi n i =1
分别为总体和样本的平均群和。
Y=
1 NM
åå Y
i =1 j =1
N
M
ij
=
Y 1 ,y= M nM
åå y
i =1 j =1 M