抽样技术第7章-复合抽样
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 我们已经知道了复合调查大部分的组成部 分:随机抽样,比估计,分层和整群。现 在来看怎样把它们综合应用于一个抽样设 计中。
7.1.1 构建调查的框架
• 1.有放回的整群抽样 选取一个包含n个群 (psu)的有放回的样本,群i被选取的概率为
• ψi,群i的总量估计用 表示,然后用n个
值.
作为对总值的估计,并以此作为
7.2.2 自加权和非自加权样本
• 在自加权调查中,各个观测单元的抽样权重是 相等的,在没有无回答误差的情况下,自加权样本 被认为能代表总体,因为样本中每个观测单元代表 了总体中相同数目的未观测单元。除此之外,自加 权样本通常有较小的方差,样本统计量也更精确 (Kish 1992)。
• 自加权设计与等概率抽样是不同的概念。等概 率抽样是要求在一次抽样过程中,每个单元具有相 同的入样概率;自加权设计要保证每个单元最终入 选样本的概率相同。
3、估计每个地区有诊所的村庄的蚊帐总数,由于村 庄是从人口比例适中的地区抽取的,所以应用第6 章中的相关公式来估计总数及其方差。在无诊所 的村庄中应用同样的方法。
4、将每层(有诊所和无诊所的村庄)的蚊帐 总数加起来,估计每个地区的蚊帐总数, 将每层的估计方差相加得到地区的估计方 差。
5、现在,我们得到了每个地区的蚊帐估计总 数,应用两阶段整群抽样的相关计算公式 来估计每种地理区域总的蚊帐数。
这里 Ωhj 抽样权重可以看作是样本观测值 所 代表的总体观测值的数目。第h层中第j个单元入样
的概率为
,因此,抽样权重就是单元入
样概率的倒数:
。
抽样权重的加总就是总体大小N,每个抽样单元代 表了总体中一定数量的单元,因此,整个样本就代 表了整个总体。
• 分层抽样中的估计 是:
在等概率的整群抽样中:
• 1.小区域阶段 算出每个小区域中带蚊帐的床 的比例,将这些比例作为观测值,那么,村庄阶 段的估计值就是6个小区域比例的平均值。地区阶 段的估计值就是5个村庄估计值的平均值,以此类 推,这种方法与第3章中习题22中的平均比例估计 相似。(不存在比估计)
• 2.村庄阶段 对每个村庄计算(蚊帐总数)/ (床的总数),这一阶段的估计方差可以根据 (7.1)计算出来。然后,在地区阶段,将每个地 区中村庄的比例平均。(不存在比估计)
大时,联合估计没有与独立比估计一样发挥分层所
带来的优势。
7.1.3 调查设计中的简单性
• 所有的这些设计成分都是为了提高调查的效率。 从前面的研究来看,复合设计是更有效和更可行 的。但是如果花费相同的钱能得到同样多的信息, 简单设计会比复合设计更让人青睐:简单设计更 容易掌控和分析,调查所得的数据也不容易分析
出错。
7.2 抽样权重
• 7.2.1 构建抽样权重 • 7.2.2 自加权和非自加权样本 • 7.2.3 数据调查中的权重与分析模型
7.2.1 构建抽样权重
用样本的调查结果对总体的目标量进行估计 是基于这样的原理:每个样本单元不仅代表自己, 而且代表研究总体中那些没有被选入的单元。通 常,我们把一个样本单元所代表的总体单元的数 量成为这个单元样本的设计权数。
(由于比估计量是有偏的,只有在大样本的情况下,
偏倚才趋于零)比估计在每一层中是独立进行的,
如果各层
的值不同的话,比估计可以提高
估计的效率。当样本容量比较小时,最好不要用
比估计,因为它是有偏的,而且偏差会通过层传
导。
地型以上阶段,联合比估计量
提供了
总体总量的一个比估计,当每层抽取的群较少时,
联合估计的方差较小,当层与层之间的比例相差很
•
在单阶段抽样条件下进行自加权设计比较容
易,例如简单随机抽样、系统抽样、按层规模等
比例分配样本的分层抽样等都属于自加权设计,
因为实施这些抽样的方法都能使总体中每个单元
的入样概率相同。在多阶段抽样设计下情况有些
复杂,要得到自加权样本需要有意识的去设计,
以达到每个单元最终入样概率相同的目标。
(page 251)
例:
、
、
,应用比估计的相关
公式来估计每个比例的方差,然后用分层来综合三
个比估计:
V
B
H h1
Nh N、
2
V
t yh
t xh
、
5、 地型以上阶段(联合比估计) 用分层来估 计总体的和,并估计其方差和协方差。现在我们可 以估计比例以及相对应的方差,应用(7.1)式。
在地型阶段,总体总量的一个对应的估计是分别 比估计:
观测值(由于样本是有放回的,因此有一些值是
来自同一个psu):用 来表示总体均值的估
计,用
来估计总体均值的方差。
• 2.无放回的整群抽样 选取一个包含n个群(psu) 的无放回的样本,群i被选取的概率为πi,群i的
总量估量估计计量用的方差表。示然,后并用且H用orνivtzti— Th表om示ps总on体估总
6、最后,将每种地型的蚊帐总数相加得到冈 比亚整个国家的蚊帐总数,同样将其方差 相加得到总的分层抽样的方差。
7.1.2 复合调查中的比估计
• 比估计可以用于调查的任一阶段,但 是它常用于调查的最后阶段。
• 上述的蚊帐调查中,一个重要的量是带 蚊帐的床的比例,这个比例可以在调查的 每一个阶段计算出来。简单而言,假设我 们只对有诊所的村庄感兴趣。下面,用x表 示床的数量,y表示蚊帐的数目。
概而言之,抽样设计如下所示:
步骤 1 2 3
抽样单ቤተ መጻሕፍቲ ባይዱ 地区 村庄
小区域
分层 地理位置 是否有诊所
要应用前面几章的公式来求出估计量及其方差, 我们应该从第3步开始,以下给出了估计蚊帐总数的
步骤(不用比估计):
1、记下每个小区域的蚊帐总数;
2、用村庄中小区域数平均每个小区域的蚊帐数来计 算每村庄的蚊帐数目。求出每个村庄蚊帐总数的 估计方差。
• 假设整个总体的大小N是已知的,则任何特征值都 可以从概率分布函数中算出来:
• 或从分布集中算出:
• 在概率理论中,这些是随机变量Y的密度函数
和分布函数,而Y是总体中一个样本容量为1的随
机样本的观测值,则
,
• 且 Fy PY y ,当然
。
• 任何总体特征都有其相对应的密度函数和分 布函数,总体均值是:
7.3 估计分布函数
到目前为止,我们一直集中在总体均值,总 体总值和比例的估计上。但是,除了均值或总值 之外的一些统计量或许也很有趣。你也许想要估 计加拿大收入的中位数,找出其95%的分位数或者 构建一个直方图来显示调查的鱼类的长度的分布。 保险公司也许会用保险费的75%的分位数来确定一 个医疗事故的赔偿金额。我们可以用抽样权重来 估计所有的这些特征值(但是算不出它们的标准 误)。抽样权重还可以用于构造一个总体的经验 分布。
7.2.3 数据调查中的权重与分析模型
调查中经常面临对多变量数据进行分析的问 题,例如孩子犯罪现象与家庭状况是否有关,能 否根据收入状况预测买房意愿等,对这样的数据 进行分析,有一些常用的统计方法,如卡方检验、 回归分析方法等。这些统计方法在基础统计学的 教科书上都能找到。但这都是基于简单随机抽样 样本。复杂样本的分析要用不同的方法,例如回 归分析等。很多的研究人员发现包含信息的抽样 权重能够应用于基本模型分析中。
第七章 复合抽样
抽样权重和设计效果常用于简化复合 抽样中的问题。在本章中,我们将会讨论以 上问题,同时将讨论复合调查数据的图例问 题。本章包括对全国犯罪受害情况的调查设 计的描述,以及对不同调查样本和实验设计 的对比。
7.1组织设计成分
• 7.1.1 构建调查的框架 • 7.1.2 复合调查中的比估计 • 7.1.3 调查设计中的简单性
n:抽取的初级单元数 N:总体初级单元的数量 Mi:总体中第i个PSU中SSU的数量 mi:样本中第i个PSU中SSU的数量 同样:
总体均值的估计为:
在不等概率的整群抽样中:
当 是第i个群psu入样的概率, 是入样 的第i个群中第j个次级单元ssu入样的概率。观测 单元的抽样权重就为 :
对于三阶段的整群抽样
• 3.地区阶段 与村庄阶段相似,除了比例是从每 个地区中所得到的。
• 4.各地型阶段(分别 比、 估计) 采用比例抽样的公
式估计床的总数和蚊帐的总数。分别对三种地型C 、
(中部),E(东部),Ω (西部)作同样的估计。
结果得到6个估计总量——
、 、 、 、 、 ——并计算各总量的
方差与其协方差。现在计、 算三个比
• 总体中位数m是满足条件
和
总而言之,如果
并
且
,则X是r%分位数。
•
总体方差也可以用密度函数表示:
S2 1 N N i1
2N
yi - yU
N 1
y
f yy
x
xf x2
• 例7.3 考虑一个包含1000名男性和1000名女性的
总体,每个人的身高精确到厘米。频率表(表7.1)
给出了这2000个人在总体中的密度函数和分布函
• 设计权数是由抽样设计所规定的每个样本单元所 代表研究总体的单元数,也就是样本单元入样概 率的倒数。
• 例如,在简单随机抽样中,用Wd表示设计权数,
总体总值的估为
n
Y Wd yi
i1
• 因为在简单随机抽样条件下每个单元的入样概率 为n/N,则Wd为N/n,所以总体总值的估计又可以 写为
总值的一般估计式:
(7.2)
•
其中所有的度量都是基于观测值,总体均值的一
般估计:
(7.3)
•
估计总体中观测单元的数量N。
• 例7.2 例7.1中冈比亚蚊帐调查的设计(分层很 细,使得样本更具有代表性)目的是使每个地区的 每个村庄中的小区域几乎有相同的概率入样;只有 当不同地区中有诊所的村庄的人口数(D2)不同, 小区域的数目(C)和村庄总体(N)不成比例时, 概率会有所不同。如,中部地区有诊所的村庄一个 给定小区域入样的概率为:(这个地区)
• 其方差为:
• 分层常常形成粗劣的分类,例如,层也 许是国家的不同地区,不同的地区号码或 者只产地(栖息地)的类型。在设计中群 是从层中抽取的,并且额外的分层也许会 在群中出现。作出图例或者构建表格有助 于看清划分群和分层的几个阶段,如下例 所示:
• 例7.1疟疾在冈比亚是一个严重的健康问题, 含有杀虫剂的一种蚊帐能有效地抑制疟疾, 但是只有在这种蚊帐广泛使用时才有效。 1991年一项全国性的调查就是要研究估计 乡村地区这种蚊帐的普及率。本次调查的 描述和结果见DAlessandro等(1994)的著 作。
• P(被抽取的地区)×P(被抽取的村庄│被抽取的区)×P(被 抽取的小区域│被抽取的地区和村庄)
其中, C=村庄中小区域数目 Ν=村庄中人口数 D1=地区中人口数 D2=地区中有诊所的村庄的人口数 R=中部地区有诊所的村庄的人口数
P(被抽取的地区)×P(被抽取的村庄│被抽取的 区)×P(被抽取的小区域│被抽取的地区和村庄)
• 样本框 包括冈比亚所有人口少于3000的村庄。这 些村庄按三种不同的地理位置(东部、西部、中 部)和是否有公共医疗诊所来分层。在每一地理 区域中根据1983年全国人口普查的数据选取5个比 例适中的地区,在每个地区中同样根据1983年人 口普查的数据选择4个比例适中的村庄:2个有医 疗诊所的和2个没有医疗诊所的村庄。最后从每个 村庄中随机抽取6个小区域。研究人员记下其中床 和蚊帐的数目,还有其他一些相关信息。
Y
n
Wd yi
i1
N n
n
yi
i1
因为每个单元入样概率相等,又称为等概率抽 样。系统抽样也是等概率抽样,对于分层抽样,如 果按各层规模等比例分配样本,也是等概率抽样, 如果不是按各层规模等比例分配样本,则不是等概 率抽样。
在多阶段抽样条件下,设计权数由每个单元在 不同阶段的入样概率相乘取倒数而得。
在分层抽样中:
将条件扩展:令
为群的权重, 为次级单元的抽样权重, 为
三级抽样单元tsu的权重,则观测单元的总的抽样权
重为:
• 由于在本书中将会提到多阶段分层设计,从现在
起我们将使用统一的总体总值估计的名称。令
表示单元i的度量, 表示单元i的抽样权重。因此
在分层样本中, 是一特定层中的一个观测
值,
,其中,单元i在层h中,由此写出总体
计法来估计总体总值,见式(6.12):
• 使用第5章或第6章中的具体公式或者第9章中的 方法来估计其方差。
• 3. 分层 令
是各层总值
的 后估用计以,下式V子 t估i ,.计..,V总 t体H 总是值:其对应的方差,
• 其方差为:
• 4.比估计 令 和 分别为 和 的估计量, 然后用以下式子来估计比例: