第七章不等概率抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 不等概率抽样是抽样理论发展的产物。
◎代表性抽样:主观、有意识的抽样
◎等概率的随机抽样:每个单元平等
◎分层抽样:不同层不等概率,但层内等概率
◎不等概率抽样:单元具有不等地位
二、不等概率抽样的使用和优点
• 不等概率抽样通常用于以下三种情况: ◎需要估计总体总量但总体单元规模相差很大的情况
◎抽样审计
※ 估计量的性质 • 汉森-赫维茨估计量是总体总和的无偏估计: • 汉森-赫维茨估计量的方差为:
• 当n>1时,这一方差的无偏估计为:
证明:设随机变量 且:
则:
是n次独立观测值yi/zi的样本平均数 则由数理统计(放回简单随机抽样),有:
而样本方差:
是
的无偏估计
Hale Waihona Puke Baidu
从而:
• 【例5.4,P169; 例5.5,P171】
•设总体容量为N,样本量n(固定),包含概率具有以下性质:
◎所有N个单元的入样概率之和为n,即:
第七章不等概率抽样
2020年4月23日星期四
第七章 不等概率抽样
§7.1 概述 §7.2 放回不等概率抽样 §7.3 不放回不等概率抽样*
§7.1 概述
一、不等概率抽样的提出与含 义 二、不等概率抽样的使用和优 点 三、不等概率抽样的分类
一、不等概率抽样的提出与含义
• 前述概率抽样方式,具有“等概率” 的特点。 ◎简单随机抽样下总体中每一个单元的入样概率均相等 ◎分层随机抽样下,层内每一个单元的入样概率均相等 ◎特别地,按比例分配的分层随机抽样对于总体中每一个单元 的入样概率均相等
#总体均值的估计 • 基于汉森-赫维茨总和估计量基础上的总体均值的估计量为:
• 方差: • 方差估计:
§7.3 无放回不等概率抽样
一、包含概率与πPS抽样 二、πPS抽样的估计 三、πPS抽样的实施
一、包含概率与πPS抽样
• 放回不等概率抽样中,每个单元的入样概率Zi是关键 • 不放回不等概率抽样中,每个单元被包含到样本的概率πi及 任意两个单元都包含到样本的概率πij都起着重要的作用,它 们统称为包含概率(inclusion probability)
此时每个单元在每次抽样中的入样概率与单元大小成比例,称 这种特殊的多项抽样为与大小成比例的概率抽样(sampling with probability proportional to size),简称PPS抽样。
二、PPS抽样的实施
1、代码法(累积总和法,汉森-赫维茨法,1943)
• 设总体有N个单元,其规模度量为Mi,不妨设Mi为整数(否则 可以乘以一个常数使其成为整数)。记Mi之和为M0,则可以设 置M0个代码,其中第i个单元相应的有Mi个代码。其代码的具 体范围可以采用累积方法获得。具体而言:第1个单元拥有代码 1-M1,第2个单元拥有代码M1+1-M1+M2,……,第i个单元 拥有代码:
• 每次抽样时在整数1-M0之间产生一个随机数m,则代码m所 属的单元即为抽中单元,如此重复n次即可获得n个样本单元。 若有的随机数相同或属于同一单元,则该单元被重复抽中
2、拉希里法(二次抽取法,Lahiri,印度)
• 设总体单元数为N,单元规模为Mi,记: ◎ 在1-N范围内产生一个随机数,设为j; ◎ 在1-M*范围内的随机数m • 如果m<=Mj,则第j个单元为被抽中的样本单元; 如果m>Mj,则第j个单元未被抽中。 此时需要重复上述步骤,另行抽取一组【j,m】。直到抽满n 个样本单元为止。
• 等概率抽样的基本出发点是将总体(或层)中的每一个单元看 作是平等的,不“偏向”也不“疏远”某些特定的单元
• 如果总体单元差异不大,这种方式既简单也合理
• 但是如果总体单元相差较大,等概率抽样效果不一定好 ◎例如估计昆明市商业零售总额,大型商场、中型超市和小型
商店的差别非常明显,平等对待显然不合理 • 对这一情况,处理方式有多种:
§7.2 放回不等概率抽样
一、多项抽样与PPS抽样 二、PPS抽样的实施 三、PPS抽样的估计
一、多项抽样与PPS抽样
• 设总体包含N个单元,对其进行放回抽样。设在每次抽样中, 抽到第i个单元的概率为Zi(i=1,2,…,N), 独立进行n次这种抽样,共抽到n个单元(有可能重复),则称 这种不等概率抽样为多项抽样(multinominal sampling) • 特别地,当总体中每个单元具有一个说明其“大小”或“规模”的 度量Mi时,则可将每个单元的入样概率取为:
三、PPS抽样的估计
• 对于放回不等概率抽样,对于总体总量Y,汉森-赫维茨提出 如下估计量(Hansen-Hurwitz,1943):
• 特别地,对PPS抽样: 有:
• 意义:将Y理解为商店销售额,度量M理解为商店人数,则: 第i个样本商店的人均销售额。 所有样本商店的人均销售额的平均。 所有商店的销售总额
◎分层抽样:按规模分层,大型抽样比高、小型抽样比低 ◎目录抽样:少数大单元普查而大多数小单元进行抽样 ◎不等概率抽样
• 不等概率抽样(sampling with unequal probability)是指在抽 取样本之前给总体中的每一个单元赋予一定的入样概率,从而 保证大的(重要的)单元抽到的概率大,而小的(不重要的) 的单元抽到的概率小。这里每个单元被赋予的入样概率通常与 某个辅助变量有关(比如单元规模等)
• 这些方法按其实施方法或特性可以分成许多不同的类型
◎按抽样过程中被抽到的单元是否被放回总体而分为放回抽样和 不放回抽样。常用的是放回抽样。
◎按单元的入样概率是否严格地与单元大小成比例,还有最终杨 本量n是固定还是随机的。
◎不放回的抽样,按样本单元抽取方式还可以分为逐个抽取法、 重抽法、系统抽取法等等。
◎在不能直接对基本的较小单元抽样的情形下,与其它抽样结 合,完成对大的单元的抽样
• 在上述情形下,不等概率抽样的主要优点是可以大大提高估计 的精度,较少抽样误差。
• 一个必要的约束条件是对总体的每一个单元,都要已知一个辅 助变量用于确定其入样概率或两个单元同时入样的概率
三、不等概率抽样的分类
• 不等概率抽样有很多,布鲁尔与哈尼夫在1983年专著《不等概 率抽样》中曾列举了50多种方法。不过真正常用的在10种左右
◎代表性抽样:主观、有意识的抽样
◎等概率的随机抽样:每个单元平等
◎分层抽样:不同层不等概率,但层内等概率
◎不等概率抽样:单元具有不等地位
二、不等概率抽样的使用和优点
• 不等概率抽样通常用于以下三种情况: ◎需要估计总体总量但总体单元规模相差很大的情况
◎抽样审计
※ 估计量的性质 • 汉森-赫维茨估计量是总体总和的无偏估计: • 汉森-赫维茨估计量的方差为:
• 当n>1时,这一方差的无偏估计为:
证明:设随机变量 且:
则:
是n次独立观测值yi/zi的样本平均数 则由数理统计(放回简单随机抽样),有:
而样本方差:
是
的无偏估计
Hale Waihona Puke Baidu
从而:
• 【例5.4,P169; 例5.5,P171】
•设总体容量为N,样本量n(固定),包含概率具有以下性质:
◎所有N个单元的入样概率之和为n,即:
第七章不等概率抽样
2020年4月23日星期四
第七章 不等概率抽样
§7.1 概述 §7.2 放回不等概率抽样 §7.3 不放回不等概率抽样*
§7.1 概述
一、不等概率抽样的提出与含 义 二、不等概率抽样的使用和优 点 三、不等概率抽样的分类
一、不等概率抽样的提出与含义
• 前述概率抽样方式,具有“等概率” 的特点。 ◎简单随机抽样下总体中每一个单元的入样概率均相等 ◎分层随机抽样下,层内每一个单元的入样概率均相等 ◎特别地,按比例分配的分层随机抽样对于总体中每一个单元 的入样概率均相等
#总体均值的估计 • 基于汉森-赫维茨总和估计量基础上的总体均值的估计量为:
• 方差: • 方差估计:
§7.3 无放回不等概率抽样
一、包含概率与πPS抽样 二、πPS抽样的估计 三、πPS抽样的实施
一、包含概率与πPS抽样
• 放回不等概率抽样中,每个单元的入样概率Zi是关键 • 不放回不等概率抽样中,每个单元被包含到样本的概率πi及 任意两个单元都包含到样本的概率πij都起着重要的作用,它 们统称为包含概率(inclusion probability)
此时每个单元在每次抽样中的入样概率与单元大小成比例,称 这种特殊的多项抽样为与大小成比例的概率抽样(sampling with probability proportional to size),简称PPS抽样。
二、PPS抽样的实施
1、代码法(累积总和法,汉森-赫维茨法,1943)
• 设总体有N个单元,其规模度量为Mi,不妨设Mi为整数(否则 可以乘以一个常数使其成为整数)。记Mi之和为M0,则可以设 置M0个代码,其中第i个单元相应的有Mi个代码。其代码的具 体范围可以采用累积方法获得。具体而言:第1个单元拥有代码 1-M1,第2个单元拥有代码M1+1-M1+M2,……,第i个单元 拥有代码:
• 每次抽样时在整数1-M0之间产生一个随机数m,则代码m所 属的单元即为抽中单元,如此重复n次即可获得n个样本单元。 若有的随机数相同或属于同一单元,则该单元被重复抽中
2、拉希里法(二次抽取法,Lahiri,印度)
• 设总体单元数为N,单元规模为Mi,记: ◎ 在1-N范围内产生一个随机数,设为j; ◎ 在1-M*范围内的随机数m • 如果m<=Mj,则第j个单元为被抽中的样本单元; 如果m>Mj,则第j个单元未被抽中。 此时需要重复上述步骤,另行抽取一组【j,m】。直到抽满n 个样本单元为止。
• 等概率抽样的基本出发点是将总体(或层)中的每一个单元看 作是平等的,不“偏向”也不“疏远”某些特定的单元
• 如果总体单元差异不大,这种方式既简单也合理
• 但是如果总体单元相差较大,等概率抽样效果不一定好 ◎例如估计昆明市商业零售总额,大型商场、中型超市和小型
商店的差别非常明显,平等对待显然不合理 • 对这一情况,处理方式有多种:
§7.2 放回不等概率抽样
一、多项抽样与PPS抽样 二、PPS抽样的实施 三、PPS抽样的估计
一、多项抽样与PPS抽样
• 设总体包含N个单元,对其进行放回抽样。设在每次抽样中, 抽到第i个单元的概率为Zi(i=1,2,…,N), 独立进行n次这种抽样,共抽到n个单元(有可能重复),则称 这种不等概率抽样为多项抽样(multinominal sampling) • 特别地,当总体中每个单元具有一个说明其“大小”或“规模”的 度量Mi时,则可将每个单元的入样概率取为:
三、PPS抽样的估计
• 对于放回不等概率抽样,对于总体总量Y,汉森-赫维茨提出 如下估计量(Hansen-Hurwitz,1943):
• 特别地,对PPS抽样: 有:
• 意义:将Y理解为商店销售额,度量M理解为商店人数,则: 第i个样本商店的人均销售额。 所有样本商店的人均销售额的平均。 所有商店的销售总额
◎分层抽样:按规模分层,大型抽样比高、小型抽样比低 ◎目录抽样:少数大单元普查而大多数小单元进行抽样 ◎不等概率抽样
• 不等概率抽样(sampling with unequal probability)是指在抽 取样本之前给总体中的每一个单元赋予一定的入样概率,从而 保证大的(重要的)单元抽到的概率大,而小的(不重要的) 的单元抽到的概率小。这里每个单元被赋予的入样概率通常与 某个辅助变量有关(比如单元规模等)
• 这些方法按其实施方法或特性可以分成许多不同的类型
◎按抽样过程中被抽到的单元是否被放回总体而分为放回抽样和 不放回抽样。常用的是放回抽样。
◎按单元的入样概率是否严格地与单元大小成比例,还有最终杨 本量n是固定还是随机的。
◎不放回的抽样,按样本单元抽取方式还可以分为逐个抽取法、 重抽法、系统抽取法等等。
◎在不能直接对基本的较小单元抽样的情形下,与其它抽样结 合,完成对大的单元的抽样
• 在上述情形下,不等概率抽样的主要优点是可以大大提高估计 的精度,较少抽样误差。
• 一个必要的约束条件是对总体的每一个单元,都要已知一个辅 助变量用于确定其入样概率或两个单元同时入样的概率
三、不等概率抽样的分类
• 不等概率抽样有很多,布鲁尔与哈尼夫在1983年专著《不等概 率抽样》中曾列举了50多种方法。不过真正常用的在10种左右