07第七章 等距抽样

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一般,若随机起为i,则抽中的n/2对样本单元的 号码可以表示为
i+2jK,2(j+1)K-i+1] [j=0,1,…,(n/2)-1]]
当n为奇数时,式中的j由0变到(n-1)/2-1为止, 并且,要加上接近末端的第i+(n-1)K个单元。
实际中,为便于对称等距抽样的实施,当N=nK时, 可以将原来由小到大(或由大到小)顺序排列的单 元按照顺逆交替的次序排列在一个表中,这样, 按随机起点等距抽样所抽取的样本即为对称等距 样本。所谓顺逆交替是指在单元的排序中,若第 一间隔由小到大排序,则第二间隔按由大到小排 序,以此类推。
设N=nK,n为偶数。抽样时,先把总体单元 分成n/2个抽样间隔,使每一抽样间隔含 有2K个单元。然后,在每一抽样间隔内, 抽取分别与两端距离相等的两个单元,这 样共抽取n个单元组成等距样本。
即:如果随机起点为i,则在第一个抽样间隔所 抽两个样本单元的号码分别为i及2K-i+1;在第 二 个 抽 样 间 隔 所 抽 两 个 样 本 单 元 号 码 为 i+2K 及 2(2K)-i+1;如此,最后在第n/2个抽样间隔所抽 两个样本单元号码分别为i+(n-2)K及nK-i+1。
七、累计和等距抽样
以上所讨论的等距抽样都是以各单元大小 相同为前提的,是等概率抽样。如果抽样 单元的大小不同,且单元的大小又与调查 变量相关时,用上述方法就不大合适了, 此时,应采用不等概率抽样。
其基本思路是:在总体各单元按某一标志排序后, 累计各单元的大小Mi(当各抽样单元的大小用所 含下一阶单元的数目表示时,也可直接累计其下 一阶单元数)并进行编码,以总的累计数除以n作 为抽样间隔,用K表示,然后在最初的1到K个数 中随机确定一个数j(1≤j≤K),j所对应的单元 即为第一个被抽中单元,以后每间隔K抽取一个 随机数,并按同样的方法确定出对应的单元作为 样本单元,组成等距样本。累计和等距抽样的原 理同上一章所讨论的群大小不等时群的代码法, 此法在实际工作中经常用到。
对称等距抽样也是针对有序等距抽样所提 出的,其基本思想是使低标志值的单元与 高标志值的单元在样本中对等出现。从而 使样本的偏差缩小,代表性增强。由于具 体的方法不同,对称等距抽样又有几种类 型。
1.塞蒂的方法——两两对称等距抽样
1965年塞蒂提出了一种新的等距抽样方 法——对称等距抽样法,以克服总体的线 性趋势对估计效率的影响。
2、辛的修正方法——中心对称等距抽样
1968年,辛等人提出另一种对称等距抽样 法——中心对称等距抽样法。即在有序排 列的总体单元中,从两端划分抽样间隔。 并从两端的抽样间隔开始,成对地抽取到 两端距离相等的单元组成等距样本。
这里,仍假定N=nK。当n为偶数时,若随 机起点为i,则与之对称的样本单元号为 倒数第一个抽样间隔中的N-i+1;与第二 个抽样间隔中i+K对称的是倒数第二个抽 样间隔的(N-K)-i+1;如此,一直抽到中 间两个抽样间隔为止。一般,以i(i=1, 2,…,K)为随机起点的n/2对对称等距样 本单元的号码可以表示为:
三、等距抽样的特点
(1)将总体各单元按一定的顺序排列后再 抽样,使得样本单元的分布更加均匀,因 而样本也就更具代表性,比简单随机抽样 更精确,在某些场合下甚至可以不用抽样 框。并且如果能够利用好样本的相应顺序 在总体中均匀分布这一特点,则容易形成 一个按比例样本。
(2)等距抽样简单明了,快速经济,操作灵活方 便,使用面广,是单阶段抽样中变化最多的一种 抽样技术。等距抽样最初用于森林和土地使用情 况的调查,后来经过汉森、麦多、科克伦等学者 的努力,使其成为当今家计调查、记录抽样、空 间抽样、工业抽样和为普查取得附加信息及估计 非抽样误差的一种常用方法。在我国,等距抽样 已成了最主要、最基本的抽样方式,一些大规模 的抽样调查,如农产量抽样调查、城乡住户调查、 产品质量抽样检查中都普遍采用了等距抽样。
(5)若总体中的单元呈周期性的变化,等 距抽样的精度可能很高也可能很差。这时 要慎重地选择K。
第二节 等距抽样的实施方法
一、随机起点等距抽样 二、循环等距抽样 三、中点等距抽样 四、对称等距抽样法 五、两端修正法 六、总体有周期性变化时的等距抽样 七、累计和等距抽样
一、随机起点等距抽样
第七章 等距抽样
第一节 第二节 第三节 第四节
等距抽样概述 等距抽样的实施方法 总体参数的估计 其它形式的等距抽样
第一节 等距抽样概述
一、等距抽样的概念
等距抽样也称系统抽样或机械抽样。它是将总体 各抽样单元按一定的标志和顺序排列以后,每隔 一定的距离(间隔)抽取一个单元组成样本进行调 查。
当且仅当
S2 wsy
S 2 时,等距抽样比简单随机
抽样精度高。
2、用等距样本内(群内)相关系数 wsy表示
V ( ysy )
N 1 Nn
S
2
[1
(n
1)
wsy
],
其中:
wsy
E( yij Y )E( yiu Y ) E( yij Y )2
2
(n 1)(N 1)S 2
K i
n
( yij Y )( yiu Y )
1、用等距样本内(群内)方差表示
设等距样本为表中第i列单元,且i是随机决 定的,则:
V
( ysy )
N 1S2 N
K (n 1) N
S2 wsy
其中:
S 2 wsy
1 K (n 1)
K i
n
( yij yi )2
j
为等距样本(群)内方差;S2为总体方差。
这表明,当等距样本内部的方差大于整个总 体方差时,等距抽样比简单随机抽样有更高 的精度。因此,为了提高等距抽样的精度, 只要有可能就在对总体单元排序时尽可能扩 大各等距样本内的差异。
法,设i为1~N中的随机数。 (1)若i+(n-1)K≤N,这时n个样本单元不经
过yN,则第1个样本单元和第n个样本单元 的权数分别为:
1 n[2i (n 1)K (N 1)] 2(n 1)K
(2)若i+(n-1)K>N,设yN以后的样本单元有 n2个,则第1个样本单元和第n个样本单元 的权数分别为:
二、排序标志
等距抽样需要有作为排序依据的辅助标志。排序 标志各式各样,可自由选择,但归纳起来,可分 为两类,即无关标志和有关标志,它们对等距抽 样的作用和相应的估计精度各有不同的影响。
1、按无关标志排序
所谓无关标志排序,即用来对总体单元进 行排序的标志,与所要调查研究的标志是 不同性质的,二者没有任何必然的关系。 如研究人口的收入状况时,按身份证号码、 按门牌号码排序非常方便,一般说来,这 些号码与调查项目没有关系,因此可以认 为总体单元的次序排列是随机的,所以也 有人直接称无关标志排序的等距抽样为无 序等距抽样。
(3)当N=nK时,等距抽样就等同于每层只抽一个 单元的分层抽样或群的大小相等时只抽一个群 的整群抽样。
因为,这时,总体各单元可排列成如下方式: y11 y21 … yi1 yk1 y12 y22 … yi2 yk2
┋┋┋ ┋┋
y1n y2n … yin ykn
(4)等距抽样的样本常被视为一个集体单 元,一般不计算样本调查变量的方差,所 以它只能抽象地进行理论分析,而不能对 抽样方差进行估计。
[i+jK,(N-jK)-i+1],[j=0,1,…, (n/2)-1]
当n为奇数时,式中的j由0变到[(n-1)/2]-1为止。 然后,再加上中间一个抽样间隔中的第i+(n1)K/2个单元。(我国抽样调查工作者提出在中间 一个抽样间隔抽取中点处的一个单元。)
五、两端修正法
抽样方法同随机起点等距抽样时的情形。 但在计算总体均值的估计量时,对第一个 和最后一个样本单元加权,其余单元的权 数仍为1(在除以n以前),以矫正由于起点 不在中心位置而引起的系统偏差。
ห้องสมุดไป่ตู้
(一)估计量
设等距样本为表中第i列单元,且i是随机决 定的,总体均值的估计量用表示,则:
ysy
yi
1 n
n j 1
yij
是 Y 的无偏估计。
若N≠nK,则上述估计量是有偏的,但当n充 分大时,其偏倚可以充分小。
(二)估计量的方差
如前所述,如果总体单元是按无关标志排 列的,则其方差可按简单随机抽样去做。 若总体单元是按有关标志排列的,则此时 的等距抽样可以看作是整群抽样或分层抽 样的特例,因此,等距抽样估计量的方差 可以比照整群抽样或分层抽样的方法构造, 有几种表示方法。
1、耶茨的方法:
设N=nK,i为1~K中的随机数,则两端的 样本单元的权数分别为:
1 n(2i K 1) 2(n 1)K
其中“+”号用于第一个样本单元,“-” 号用于第n个样本单元(下同)。当总体单 元具有严格的线性趋势时,加权的样本均 值就是总体均值。
2、具尔豪斯与拉奥的方法 适用于N≠nK的情况,并采用循环等距抽样
随机起点等距抽样就是前面概念所描述的方法。 具体地说,它是在总体单元排序后的第1至K单元 之间(第一个抽样间隔之内)随机抽取一个整数i, 以它作为起始单元的编号,以后按固定的顺序和 间隔依次在每个间隔之内各抽取一个单元组成等 距样本,则整个样本是由以下编号的单元所组成 的。
i+(j-1)K (j=1,2,…,n)
三、中点等距抽样
1953年麦多为克服随机起点等距抽样容易 产生系统性偏差的缺点,提出中点等距抽 样(即抽取中心位置的样本)法:计算出抽 样间隔K后,以第一组的组中点为起点, 等距抽取单元组成样本。如果K为奇数, 以(K+1)/2为起点,K为偶数,以K/2或 (K+2)/2为起点。
四、对称等距抽样法
1
2(n
n 1)K
[2i
(n
1)K
(N
1)
2Nn2
N n
]
六、总体有周期性变化时的等距抽样
有一些总体,其单元的标志值在随时间的自然排列 顺序中,会呈现某种明显或不明显的周期变化趋势。 如季节性消费商品的销售量,随一年四季的变化而 呈现出周期变化。还有些总体,反映出不明显的周 期影响。对有周期变化趋势的总体进行等距抽样时, 抽样间隔K的选择,对估计效率的影响是极为重要 的。为了说明问题,我们不妨假定总体单元标志值 的变化为一正弦曲线。
例:某街道50家企业,要调查企业生产经营状况。在 按工商登记注册资金排序后,下表列出了企业的职工 人数及累计人数:
第三节 总体参数的估计
一、等概率抽样的情形 为讨论方便,仍假设N=nK,则在如下的排列
形式中,有:
yi
1 n
n j 1
yij
(i=1,2,…,K)
y11 y21 … yi1 yk1 y12 y22 … yi2 yk2 ┋┋┋┋┋ y1n y2n … yin ykn
由于N不一定恰好是K的整数倍,所以按上述 方法得到的等距样本的样本量可能为
n [ N ]或n [ N ] 1
K
K
为避免这种样本量不能确定的情况,确保样 本量为n,1952年拉希里提出了循环等距抽 样的方法。
二、循环等距抽样
在N≠nK时,把总体中的N个单元按一定顺序排 列成一个首尾相接的环(圆形图),取最接近于 N/n的整数为抽样间隔K,然后在1到N的单元中, 随机抽取一个单元(设为第i单元)作为起点,再 沿着圆圈按一定方向每间隔K抽取一个单元,直 到抽够n个单元为止。按此方法,可以保证样本 量n不变。不过此时首尾两个样本单元的间隔不 一定恰好为K,它可能小于K,也可能大于K。
具体地说它是在总体单元排序后的第1元之间第一个抽样间隔之内随机抽取一个整以它作为起始单元的编号以后按固定的顺序和间隔依次在每个间隔之内各抽取一个单元组成等距样本则整个样本是由以下编号的单元所组成的由于n不一定恰好是k的整数倍所以按上述方法得到的等距样本的样本量可能为1952年拉希里提出了循环等距抽样的方法
中,
循环等距抽样从本质上看仍然是随机起点等距抽 样。
我们注意到,当N=nK时,在上述两种抽样实施方 法中,无论按哪一种方法,总体中每个单元的入 样概率都相等,从而是一种严格的等概率抽样。 但当N≠nK时,按第一种方法每一个单元的入样 概率依赖于初始值i,对不同的i,稍有不同。以 下为了处理方便,我们假定N总是n的整数倍。在 实际工作中,若n充分大,则由于N/n非整数而带 来的影响就充分小,可以忽略不计。
2、按有关标志排序
所谓有关标志排序,即用来对总体单元规 定排列次序的辅助标志,与调查标志具有 共同性质或密切关系。这种排序标志,在 我国抽样调查实践中有广泛应用,如农产 量调查,以本年平均亩产为调查变量,以 往年已知平均亩产作为排序标志。利用这 些辅助标志排序,有利于提高等距抽样的 抽样效果。
相关文档
最新文档