抽样技术第6章_系统抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
精度比较
简单随机抽样估计量的方差与分层(一列 为层)随机抽样的方差结果分别为16.6176 与10.1344. 由于系统抽样(群)内方差小于总体方差, 因此系统抽样的效果不如简单随机抽样, 更不如分层随机抽样。
(2)随机排列
总体单元按随机顺序重新排列后行列平均数与方差
1 1 2 3 4 5 层平均 层内方差 39 19 30 12 25 25.0 106.5 2 28 18 36 39 48 33.8 129.2 3 40 29 33 44 28 34.8 48.7 4 36 26 52 28 24 33.2 131.2 5 29 46 50 34 29 37.6 96.3 群平均 群内方 差 34.4 27.6 40.2 31.4 30.8 32.88 102.38 103.86 31.3 127.3 102.2 152.8 96.7
13
四.等距抽样的特点 (1)将总体各单元按一定的顺序排列后再抽样, 使得样本单元的分布更加均匀,因而样本也就更 具代表性,比简单随机抽样更精确,在某些场合 下甚至可以不用抽样框。 (2)等距抽样简单明了,快速经济,操作灵活 方便,使用面广,是单阶段抽样中变化最多的一 种抽样技术。
14
(3)当N=nk时,等距抽样就等同于每层只抽一 个单元的分层抽样或群的大小相等时只抽一个群 的整群抽样。 (4)等距抽样的样本常被视为一个集体单元, 一般不计算样本调查变量的方差,所以它只能抽 象地进行理论分析,而不能对抽样方差进行估计。
9
三.排序标志 等距抽样需要有作为排序依据的辅助标志。 排序标志各式各样,可自由选择,但归纳起来, 可分为两类,即无关标志和有关标志。
10
按无关标志排序 所谓无关标志排序,即用来对总体单元进行 排序的标志,与所要调查研究的标志是不同性质 的,二者没有任何必然的关系。如研究人口的收 入状况时,按身份证号码、按门牌号码排序非常 方便。
2
wsy
其中
1 (n 1)( N 1) S 2
( y
i j u
K
n
ij
Y )( y iu Y )
为同一等距样本内(群内)成对的单元之间的相关系 数。
23
(3)用同一等距样本内单元对关于层平 均值的相关系数表示 2 S wst N n 1 f 2 V ( ysy ) [1 (n 1) wst ] S wst [1 (n 1) wst ]
E ( yrj y. j )( yru y.u ) E ( yrj y. j )2
r 1 j u
k
n
( yrj y. j )( yru y.u )
2 Swst
是等距样本内单位对关于层平均值的相关系数。
24
例:给定一个包含25个单元的人为总体, 排成5行5列的形式,每行每列均包含5个单 元,如下表所示。我们考虑n=k=5的系统抽 样,以行为“群”(组成系统样本),以 列为“层”,用前面给出的公式计算系统 抽样估计量的方差,并与简单随机抽样及 分层随机抽样的方差进行比较。
第6章 系统抽样
第一节 定义与实施方法 第二节 等概率情形:估计量及其性质 第三节 方差估计及其改进 第四节 不等概率系统抽样
6.1 定义与实施方法
一、系统抽样的定义
系统抽样也称为机械抽样.
1.它是将总体中的单元按某种顺序排列 2.在规定的范围内随机抽取起始单元 3.按一套规则确定其他样本单元的一种抽样方法。
(5)若总体中的单元呈周期性的变化,等距抽 样的精度可能很高也可能很差。这时要慎重地选 择k。
15
五、系统抽样的特点与局限性: 特点: 1.简便易行。 2.对抽样框的要求比较简单。 3.精度与总体单元的排列顺序密切相关。 局限性: 1.注意周期性变化。 2.系统抽样的方差估计。
6.2 等概率情形:估计量及其性质
一个包含25个单元的人为总体及行列平均数与方差
1 1 2 3 4 5 层平均 层内方差 12 24 18 26 29 21.8 46.2 2 19 28 30 34 29 28.0 30.5 3 25 29 36 40 46 35.2 70.7 4 28 33 39 48 52 40.0 100.5 5 28 36 39 44 50 39.4 68.8 群平均 群内方 差 22.4 30.0 32.4 38.4 41.2 32.88 47.3 21.5 78.3 74.8 128.7 70.12 103.86
(2)用等距样本内(群内)相关系数表示
(群内)相关系数为:
wsy 1
2 NSwsy
( N 1)S 2
2 1 0.0100295Swsy 0.2967314
S 2 N 1 V ( ysy ) ( )[1 (n 1) wsy ] n N 103.86 24 [1 4 0.2967314] 43.6096 5 25
一、估计量及其性质: 1.当N=nk时,k个系统样本的组成如下:
样本号 (随机起点)
1
Y1 Y2 Yr Yk
2
Yk 1 Yk 2 Yk r Y2k
…
n
1 2 … r … k
Y( n1)k 1 Y( n1)k 2 Y( n1)k r Ynk
定义 1 设总体中的N个单元按一定顺序(随机的或按某 种规律排列),编号为1,2,„,N,采取如下方法从总 体中抽取一个样本量为n的样本: 先抽取一个或一组随机数字作为起始单元的编 号,然后按一个确定的规则抽取其他单元。称为系 统随机抽样,简称系统抽样。
定义 2 设总体中的N个单元按一定顺序(随机的或按某 种规律排列),编号为1,2,„,N。如抽样程序是先按 简单随机抽样抽取一个起始单元的编号,然后按照 固定间隔k选取其他单元的编号,直到满n个为止, 则这种抽样称为等距系统抽样,简称等距抽样。
解:已给出 Y 32.88, S 2 103.86 (1)自然排列(上表) 5个可能系统样本的均值分别为
y1 22.4, y2 30.0, y3 32.4, y4 38.4, y5 41.2
根据方差定义,
1 V ( ysy ) 5
1 ( yr Y ) [ yr2 5Y 2 ] 5 r 1 r 1
4
最简单的系统抽样是等距抽样 :
在抽取起始单元的编号后,按一确定间距k, 逐个抽取样本单元 ,其中k称为抽样间距。具体 地说,先在1至k之间随机抽取一个整数r,以它作 为起始单元的编号,则整个样本是由以下编号的 单元组成的:
r ( j 1)k
( j 1,2,,n)
5
如果总体容量N是所需样本容量n的整数倍, 则抽样间隔k=N/n也是一个整数。 但当总体容量N不是n的整数倍时,可以考虑 采用以下一些变通方法: 取k为最接近于N/n的整数; 可以挑选k以使得大于nk,但小于(n+1)k; 用等概率的方法删去一些单元,以使k=N/n ;
n N n
2 Swst 其中:
1 n( K 1)
j 1 r 1
n
k
( yrj y. j )2 为层内方差;
2 S wst N n 1 f 2 S wst n N n
恰为比例分配分层随机抽样的方差;
1 y. j k
wst
y
r 1
k
rj
是第j层的平均值;
2 n(n 1)(k 1)
1 S N 1
2
r 1 j 1
k
n
( yrj Y )2 为总体方差。
22
(2)用等距样本内(群内)相关系数表示
N 1 2 V ( ysy ) S [1 (n 1) wsy ] N
E ( y ij Y ) E ( y iu Y ) E ( yij Y )
这实质上相同于简单随机抽样,二者只是抽 样形式不同而已,完全无损于随机原则,它们在 估计精度上也是一致的。
11
按有关标志排序 所谓有关标志排序,即用来对总体单元规定 排列次序的辅助标志,与调查标志具有共同性质 或密切关系。
12
此外,在对某些总体进行排序时,也可以使 用时间标志,即按时间先后顺序进行等距抽样。 如对连续性生产(或作业)的产品每隔一定时间抽 取一件或若干件样品作质量检验;每隔若干天进 行市场物价抽查;按时间先后顺序排列的发票每 隔多少张抽取一张进行审核等。时间标志等距抽 样有时与调查标志无关,有时则可能有关,这要 视具体情况而定。
为
N N n 或 n 1 。 k k
为避免这种样本量不能确定的情况,确保样本量 n不变,1952年拉希里提出了循环等距抽样的方法。
8
定义 4 N nk 情形:圆形等距抽样(循环等距抽样)
在 N nk 时,把总体中的N个单元按一定 顺序排列成一个首尾相接的环。取最接近于N/n 的整数为抽样间隔k。随机抽取一个单元(设为第 单元i)作为起点,再沿着圆圈按一定方向每间隔 k抽取一个单元,直到抽够n个单元为止。 按此方法,可以保证样本量n不变。不过此 时首尾两个样本单元的间隔不一定恰好为k。循 环等距抽样从本质上看仍然是随机起点等距抽样。
6
二、实施方法
定义 3:直线等距抽样(适用于N=nk 情形)
是最简单的系统抽样。当总体中的N个单元按直线 排列时,根据样本量n确定k=N/n,在1~k范围内随机 抽取一个整数r,以单元r为起始单元,以后每隔k抽 取一个单元作为样本单元。k称为抽样间距。
由于N不一定恰好是k的整数倍,所以按上述方法得 到的等距样本的样本量可能
1 n y r y rj , r 1, , k n j1
假设起始值为r,则系统抽样时,总体均值的估计量为:
1 y sy y r n
j 1
n
1 yrj n
Y
j 1
n
rj
Yr
性质 : E ( ysy ) Y
估计量的方差 如前所述,如果总体单元ຫໍສະໝຸດ Baidu按无关标志排列 的,则其方差可按简单随机抽样去做。若总体单 元是按有关标志排列的,则此时的等距抽样可以 看作是整群抽样或分层抽样的特例,因此,等距 抽样估计量的方差可以比照整群抽样或分层抽样 的方法构造,有几种表示方法:
2
5
5
1 2 (5623.52 5 32.88 ) 43.6096 5
(1)用等距样本内(群内)方差表示
根据公式(1)计算,样本(群内)方差为: 1 2 S wsy [47.3 21.5 78.3 74.8 128.7] 70.12 5 N 1 2 k (n 1) 2 V ( ysy ) S S wsy N N 24 20 103.86 70.12 43.6096 25 25
将总体单元按随机顺序重新排列以后,
V ( ysy ) 18.0576,Vst 16.3808,VSRS 16.6176 相差不多。 2 事实上,此时群(行)内方差Swsy 102.06, 层(列)方差102.38与总体方差 S 2 103.86 相差不多。
21
(1)用等距样本内(群内)方差表示 设等距样本为表中第i行单元,且i是随机决 定的,则
N 1 2 k (n 1) 2 V ( ysy ) S S wsy N N
2 其中 Swsy
1 k (n 1)
( y
r 1 j 1
k
n
rj
yr )
2
为等距样本(群)内方差;
1
2
…
n
群平均
1 2 „ r „ k 层平均
Y11 Y21 Yr 1 Yk 1
Y.1
Y12 Y22 Yr 2 Yk 2
Yn1 Yn 2 Ynr Ykn
Y1. Y2. Yr . Yk .
Y.2 Y.n
为了讨论方便,将上表中的第r列第j行的单元指标记为Yrj 因此相应于起始值r的系统样本的平均值(样本“群”平均)
每个系统样本都是由上表中的一行单元所组 成的,如果将每一行单元看作为一个群(大小为 n),则总体由k个群组成。 若将上表中的列看成为层,则每个系统样本 都包含每层中的一个单元,因此系统抽样也是一 种分层抽样,不过由于样本单元在层中的位臵都 是一样的,因此它不是分层随机抽样。
18
样本号 (随机起点)