抽样调查-第6章整群抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样调查-第6章整群抽 样
2020年7月13日星期一
二、群的划分
整群抽样中的群大致可分为两类:
一类是根据行政或地域形成的群体,如学校企业 和街道,对此采用整群调查是为了方便调查,节 约费用。 另一类群则是调查人员人为确定的,如将一大块 面积划分若干块较小面积的群,这时就需要考虑 如何划分群,以使在相同调查费用下调查误差最 小。
【例4.11】 在一次对某中学在校生零花钱的调查
中,以宿舍作为群进行整群抽样,每个宿舍都有M=6 名学生。用简单随机抽样在全部N=315间宿舍中抽取 n=8间宿舍。全部48个学生上周每人的零花钱 及 相关计算数据如下表。试估计该学校学生平均每周 的零花钱 ,并给出其95%置信区间。
8个宿舍48名学生每周零花钱支出额
我们先考虑最简单的情形:每个群所包含的单 元数M相等,称为群规模相等。(实际问题中只要 群规模接近,也可视为群规模相等)。
在群规模相等的情况下,整群抽样一般采用简 单随机抽样方法抽取群,这时对总体均值的估计 十分简单。
一、群规模相等时的估计
1、均值估计量 及其方差
若按简单随机抽样,且群的大小相等,都等 于 M ,则对总体 均值的估计为:
此时, 为最大值,
即整群抽样的估计
量方差是简单随机抽样估计量方差的倍。
若群内方差与整体方差相等,即
整群抽样与简单随机抽样估计的效应相当。
若群内方差大于总体方差时,ρ的取值为负, 此时,整群抽样的效率高于简单随机抽样。
因此,要提高整群抽样的效率,就要通过分群 尽可能降低 值。这一点是通过增大群内单元之 间的差异实现的。
四、附号说明
总体群(PSU)数:N
样本群数:n
第i个群中的单元(SSU)数量:
总体第 i 群中第 j个单元的指标值: 样本第 i 群中第 j个单元的观测值:
总体中单元总数:
总体中第i群的群总值: 样本中第i群的群总值: 总体中第i群的个体均值: 样本中第i群的群均值: 总体中的群均值: 样本中的群均值:
解:已知 故
下面计算估计量方差的估计值:
于是置信度为95%的置信区间为98.17±1.96×4.34, 也即[89.66元,106.68元】
2、整群抽样效率分析
在整群抽样中,由于 估计量的方差主要依赖群间的变异性。因此 整群抽样中 较大,则整群抽样就会损失精度。 下面我们用方差分析表来讨论这一问题。
总体中的个体均值: 总体方差: 样本方差:
总体群间方差: 样本群间方差:
总体中第i个群群内方差: 样本第i个群群内方差:
群规模相等时整群抽样总体群内方差: 群规模相等时整群抽样样本群内方差:
§4.2 等概率整群抽样
在N个初级抽样单元中,第i个初级单元含 个二级抽样单元。对于整群抽样而言,被抽中的 群中所有二级单元全部入样。
群规模相等时的整群抽样
总体方差分析表
来源 群间
自由度
平方和
均方
群内
总计
我们将整群抽样与简单随机抽样的效率进行 比较,假设直接从总体中抽取一个样本容量为nM 的简单随机样本,则样本均值的方差为:
但如果该整体被等分为N个规模为M的群,定义 为群内相关系数,描述同一群内成对个体单元之间 的相关程度,其表达式为:
根据组合及平均值的计算, 又可表示为:
事实上,前面提到的 近似表示:
可以用群内相关系数
若采用简单随机抽样,直接从总体中抽取 个个体单元,则 的方差公式为:
由此,可以计算等群抽样的设计效应:
这表明,整群抽样的方差约为简单随机抽样方差的 倍
整群抽样估计效应与群内相关系数 关系密切, 若群内各单元的值都相等,则群内方差
1 58 83 74 82 66 87 75.0 125.6 2 91 83 79 111 101 69 89.0 233.6 3 123 89 94 109 79 80 95.67 299.07 4 99 105 98 107 129 90 104.67 177.87 5 110 99 132 87 99 124 108.50 287.50 6 111 100 116 99 107 105 106.33 42.27 7 120 115 117 99 106 120 112.83 72.57 8 95 80 63 130 105 86 93.33 527.87
定理4.1 是 的无偏估计,即
这样的结果是显然的,因为是按简单随机 方法抽取群,所以样本群均值 是总体群均 值 的无偏估计,因而
定理4.2
的方差为:
证明:因为
所以
定理4.3
的样本估计为:
由于 因而
的无偏估计, 的无偏估计。
总体总值
的估计量为:
总体总值
的估计量的方差为:
下面我们看一个整群抽样的例题
对于自然形成的群而言,无法通过调整群内单元 而控制的 取值。这时,要想减少抽样误差,就只能 增大样本容量。
另外,群内相关系数 也可以用群内方差 和群间方差 表示,并由样本统计量 估计:
【例 4.2】 估计例4.1中以宿舍为群的群内相关系数
与设计效应.
解:ห้องสมุดไป่ตู้例4.1已计算出样本群间方差
而样本群内方差为:
由相关系数的估计式有
设计效应2.741表明,在这项调查中,为达到 同样的估计精度,整群随机抽样的样本量大约为 简单随机抽样样本量的2.74倍.而此时简单随机 抽样的样本量为:
二、群规模不等时的估计
采用整群抽样,如果各群规模 不等,情况会 复杂一些. 此时,有多种不同的抽样方法.
1、等概抽样,简单估计 此时,不考虑群规模不等的影响,抽样方法与 前节群规模相等时相同,估计方法也相同,即采 用简单 随机抽样。对总体均值 的估计为:
群划分的一般原则 为了提高精度,划分群时应力争使同一群内各单 元之间的差异尽可能大,以避免同一群内各单元提 供重复信息.这个原则与分层抽样中划分层的原则 恰好相反.由此看来,整群抽样和分层抽样是针对不 同总体结构而提出的两种不同抽样方法.
三、群的规模
群的规模是指组成群的单元的数量。 群的规模大,估计的精度差,但费用省; 群的规模小,估计的精度可以提高但费用增大。 实践中,确定群的规模涉及多种因数,如群的具 体 结构、精度、费用、调查实施的组织管理等。 群的规模又有两种情况:一种是总体中的各个群 规模相等;另一种是总体中各个群的规模不相等。
2020年7月13日星期一
二、群的划分
整群抽样中的群大致可分为两类:
一类是根据行政或地域形成的群体,如学校企业 和街道,对此采用整群调查是为了方便调查,节 约费用。 另一类群则是调查人员人为确定的,如将一大块 面积划分若干块较小面积的群,这时就需要考虑 如何划分群,以使在相同调查费用下调查误差最 小。
【例4.11】 在一次对某中学在校生零花钱的调查
中,以宿舍作为群进行整群抽样,每个宿舍都有M=6 名学生。用简单随机抽样在全部N=315间宿舍中抽取 n=8间宿舍。全部48个学生上周每人的零花钱 及 相关计算数据如下表。试估计该学校学生平均每周 的零花钱 ,并给出其95%置信区间。
8个宿舍48名学生每周零花钱支出额
我们先考虑最简单的情形:每个群所包含的单 元数M相等,称为群规模相等。(实际问题中只要 群规模接近,也可视为群规模相等)。
在群规模相等的情况下,整群抽样一般采用简 单随机抽样方法抽取群,这时对总体均值的估计 十分简单。
一、群规模相等时的估计
1、均值估计量 及其方差
若按简单随机抽样,且群的大小相等,都等 于 M ,则对总体 均值的估计为:
此时, 为最大值,
即整群抽样的估计
量方差是简单随机抽样估计量方差的倍。
若群内方差与整体方差相等,即
整群抽样与简单随机抽样估计的效应相当。
若群内方差大于总体方差时,ρ的取值为负, 此时,整群抽样的效率高于简单随机抽样。
因此,要提高整群抽样的效率,就要通过分群 尽可能降低 值。这一点是通过增大群内单元之 间的差异实现的。
四、附号说明
总体群(PSU)数:N
样本群数:n
第i个群中的单元(SSU)数量:
总体第 i 群中第 j个单元的指标值: 样本第 i 群中第 j个单元的观测值:
总体中单元总数:
总体中第i群的群总值: 样本中第i群的群总值: 总体中第i群的个体均值: 样本中第i群的群均值: 总体中的群均值: 样本中的群均值:
解:已知 故
下面计算估计量方差的估计值:
于是置信度为95%的置信区间为98.17±1.96×4.34, 也即[89.66元,106.68元】
2、整群抽样效率分析
在整群抽样中,由于 估计量的方差主要依赖群间的变异性。因此 整群抽样中 较大,则整群抽样就会损失精度。 下面我们用方差分析表来讨论这一问题。
总体中的个体均值: 总体方差: 样本方差:
总体群间方差: 样本群间方差:
总体中第i个群群内方差: 样本第i个群群内方差:
群规模相等时整群抽样总体群内方差: 群规模相等时整群抽样样本群内方差:
§4.2 等概率整群抽样
在N个初级抽样单元中,第i个初级单元含 个二级抽样单元。对于整群抽样而言,被抽中的 群中所有二级单元全部入样。
群规模相等时的整群抽样
总体方差分析表
来源 群间
自由度
平方和
均方
群内
总计
我们将整群抽样与简单随机抽样的效率进行 比较,假设直接从总体中抽取一个样本容量为nM 的简单随机样本,则样本均值的方差为:
但如果该整体被等分为N个规模为M的群,定义 为群内相关系数,描述同一群内成对个体单元之间 的相关程度,其表达式为:
根据组合及平均值的计算, 又可表示为:
事实上,前面提到的 近似表示:
可以用群内相关系数
若采用简单随机抽样,直接从总体中抽取 个个体单元,则 的方差公式为:
由此,可以计算等群抽样的设计效应:
这表明,整群抽样的方差约为简单随机抽样方差的 倍
整群抽样估计效应与群内相关系数 关系密切, 若群内各单元的值都相等,则群内方差
1 58 83 74 82 66 87 75.0 125.6 2 91 83 79 111 101 69 89.0 233.6 3 123 89 94 109 79 80 95.67 299.07 4 99 105 98 107 129 90 104.67 177.87 5 110 99 132 87 99 124 108.50 287.50 6 111 100 116 99 107 105 106.33 42.27 7 120 115 117 99 106 120 112.83 72.57 8 95 80 63 130 105 86 93.33 527.87
定理4.1 是 的无偏估计,即
这样的结果是显然的,因为是按简单随机 方法抽取群,所以样本群均值 是总体群均 值 的无偏估计,因而
定理4.2
的方差为:
证明:因为
所以
定理4.3
的样本估计为:
由于 因而
的无偏估计, 的无偏估计。
总体总值
的估计量为:
总体总值
的估计量的方差为:
下面我们看一个整群抽样的例题
对于自然形成的群而言,无法通过调整群内单元 而控制的 取值。这时,要想减少抽样误差,就只能 增大样本容量。
另外,群内相关系数 也可以用群内方差 和群间方差 表示,并由样本统计量 估计:
【例 4.2】 估计例4.1中以宿舍为群的群内相关系数
与设计效应.
解:ห้องสมุดไป่ตู้例4.1已计算出样本群间方差
而样本群内方差为:
由相关系数的估计式有
设计效应2.741表明,在这项调查中,为达到 同样的估计精度,整群随机抽样的样本量大约为 简单随机抽样样本量的2.74倍.而此时简单随机 抽样的样本量为:
二、群规模不等时的估计
采用整群抽样,如果各群规模 不等,情况会 复杂一些. 此时,有多种不同的抽样方法.
1、等概抽样,简单估计 此时,不考虑群规模不等的影响,抽样方法与 前节群规模相等时相同,估计方法也相同,即采 用简单 随机抽样。对总体均值 的估计为:
群划分的一般原则 为了提高精度,划分群时应力争使同一群内各单 元之间的差异尽可能大,以避免同一群内各单元提 供重复信息.这个原则与分层抽样中划分层的原则 恰好相反.由此看来,整群抽样和分层抽样是针对不 同总体结构而提出的两种不同抽样方法.
三、群的规模
群的规模是指组成群的单元的数量。 群的规模大,估计的精度差,但费用省; 群的规模小,估计的精度可以提高但费用增大。 实践中,确定群的规模涉及多种因数,如群的具 体 结构、精度、费用、调查实施的组织管理等。 群的规模又有两种情况:一种是总体中的各个群 规模相等;另一种是总体中各个群的规模不相等。