系统抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评价:对于循环等距抽样,即使对于N/n不为整数的情况, 不仅样本量不会随起始值而变化,且是严格等概率的。 例:见P143
注意:以下为了处理方便,我们假定N总 是n的整数倍。在实际工作中,若n充分 大,则由于N/n非整数而带来的影响就充 分小,可以忽略不计。
(三)不等概系统抽样法 常用的不等概率系统抽样是πPS系统抽样 令: M 0
一、符号说明
第r行第j列的单元指标值:Yrj Yrj=Y(j-1)k+r ,r=1,2,…k; j=1,2,…,n 总体单元数:N 样本单元数: n n 1 系统样本平均数: y yrj r n j 1
系统样本均值估计量:
ysy
层均值: y j , j=1,2…,n 总体方差: S 2 2 k n 1 2 系统样本(群)内方差: Swsy k (n 1) ( yrj yr )
k
k
n
三、估计量方差的不同表示形式
如前所述,如果总体单元是按无关标志 排列的,则其方差可按简单随机抽样去 做。 若总体单元是按有关标志排列的,则此 时的等距抽样可以看作是整群抽样或分 层抽样的特例,因此,等距抽样估计量 的方差可以比照整群抽样或分层抽样的 方法构造,有几种表示方法。
为方便起见,假定 N= nk,因此系统样本的平 均数 ysy 是总体均值的无偏估计,它的方差按 定义为:
2
k
n
2
为总体方差。
1 k n 2 Swsy ( yrj yr ) k (n 1) r 1 j 1
2
为系统样本(群)内方差
如果从总体中直接抽取样本量为n的简单随机样本,则总 体均值 Y 的估计量 y srs 的方差为:
N n 2 1 f 2 V ( ysrs ) S S Nn n
(三)根据各单元原有的自然 位置进行排序
例如:学生按学号抽样,入户调查根据 街道门牌号按一定间隔抽取等。 这种自然状态的排列有时与调查标志有 一定的联系,但又不完完一致,这主要 是为了抽样方便。
四、系统抽样的特点
优点: 1.简便易行,容易确定样本单元
等距抽样简单明了,快速经济,操作灵活方便,使用面广, 是单阶段抽样中变化最多的一种抽样技术。 在某些场合下甚至可以不用抽样框。例如若要对公路旁的树 木进行病虫害调查,确定每 20 棵数检查一棵,只要在初始被 检树确定后,每隔 20 棵检查一棵即行,根本不需要在事先对 公路旁的所有树木进行编号,或者不需要知道抽样框即所有 树木的棵数。 在我国,等距抽样已成了最主要、最基本的抽样方式,一些 大规模的抽样调查,如农产量抽样调查、城乡住户调查、人 口抽样调查、产品质量抽样检查中都普遍采用了等距抽样。
比较等距抽样方差和简单随机抽样方差:
n 1 2 V ( ysrs ) V ( ysy ) ( S wsy S 2 ) n
可见:
当S wsy 2 S 2 , 即等距样本内方差大于 总体方差时, 机抽样; 系统抽样法优于简单随 2 2 当 S S , 即等距样本内方差小于 总体方差时, wsy 抽样法; 简单随机抽样优于系统 当S wsy 2 S 2时,即等距样本内方差 等于总体方差时, 抽样法抽样效果相同 系统抽样法与简单随机
三、排序标志
等距抽样需要有作为排序依据的辅助标志。 排序标志各式各样,可自由选择,但归纳起 来,可分为两类,即无关标志和有关标志, 它们对等距抽样的作用和相应的估计精度各 有不同的影响。
(一)按无关标志排队 (无序系统抽样)
即各单元的排列顺序与所研究的内容无关. 如研究人口的收入状况时,按身份证号码、按 门牌号码排序非常方便,一般说来,这些号码 与调查项目没有关系,因此可以认为总体单元 的次序排列是随机的 无关标志排序的等距抽样也称无序等距抽样。
第八章 系统抽样
第一节 第二节 第三节 第四节
概述 等概率系统抽样估计量 不同特征总体的系统抽样 系统抽样的方差估计
第一节 概述
一、系统抽样的定义 二、系统抽样的实施方法 三、排序标志 四、系统抽样的特点 五、系统抽样、整群抽样与分层抽样的关系
一、系统抽样的定义
性质1 当 N=nk 时,有 k 个可能样本:
1 1 E ( ysy ) yr yrj Y k r 1 nk r 1 j 1
ysy 是无偏估计量. 当 N nk , 采用直线等距方法时, ysy
是有偏的.但 N和n均比较大时,其偏倚不会很 大,可以忽略不计.若采用循环等距抽样, ysy 是无偏的.
1.将总体分为n段,每段k个单元 2.在第一段的k个单元中随机抽取一个单元r 3.每隔k个单元抽出一个单元,共抽取n个单元,则被抽中的单元 编号分别为: r, r+k, r+2k, … r+(n-1)k
例见课本P142
方法评价:
当N/n=k为整数时,总体中每个单元的入样概率 都相等(都等于1/k),从而是一种严格的等概率抽 样。 当N/n=k不是整数时,实际抽取到的样本单元数 可能是[N/k],也可能是[N/k]+1,也即与原来设 定的样本量可能相差1。每个单元的入样概率也是 不相等的。这时等距抽样有可能产生偏倚。
E ( yrj y. j )( yru y.u ) E ( yrj y. j )
2
二、估计量
设起始值为r,则相应系统样本的平均数为:
1 1 yr yrj Yrj n j 1 n j 1
总体均值 Y 的估计量为:
n
n
ysy
1 n yr yrj n j 1
(二)循环等距抽样
为克服直线等距抽样的上述缺陷,拉希里(Lahiri)提出一种替 代方法,称为循环(或圆形)等距抽样。 实施方法:
1.将总体排成首尾相连的圆形。 2.在1~N范围内随机抽取整数r作为起始单元编号。 3.每隔间距k(k为最接近N/n的整数)抽取样本单元。直到抽足n个单 元为止。
M i表示总体所有单元大小的总和,
i 1
N
M i 则有入样概率为: Biblioteka Baidu n M0
在实际中,实施不等概率抽样最简单的方法是代码法。
实施方法:
1.先将单元 Mi值累加,取最接近M0/n 的整数 k为抽样间距。 2.从 [1,k]中随机抽取一个整数作为起始单 元编号。 3.每间隔k抽取样本单元,则代码 r, r+k, … ,r+(n-1)k 所对应的单元即样本单元.
系统抽样(Systematic sampling):也称机械 抽样,它是将总体中的单元按某种顺序排列, 在规定的范围内随机抽取起始单元,然后按一 套规则确定其它样本单元的一种抽样方法。 上述定义是广义的,事实上,总体单元的排列 可以是一维的(直线或圆形的),也可以是二维 的(平面的);起始单元可以是一个,也可以是 一组;对总体单元的抽取可以是等概的也可以 是不等概的。
即各单元的排列顺序与所研究的内容是有关的, 用来对总体单元规定排列次序的辅助标志,与 调查标志具有共同性质或密切关系。 这种排序标志,在我国抽样调查实践中有广泛 应用,如农产量调查,以本年平均亩产为调查 变量,以往年已知平均亩产作为排序标志。 利用这些辅助标志排序,有利于提高等距抽样 的抽样效果。
如:调查某航空公司每月班机旅客人数(淡季、旺 季)k=12
2.系统抽样的方差估计较复杂,一般系统抽样没 有设计意义下的无偏估计量,并且在很多实际应 用中所采用的系统抽样都不是严格的概率抽样, 这就给系统抽样方差的估计带来很大的困难.
五、系统抽样、整群抽样和分层
抽样的关系
系统抽样可以看成是一种特殊的整群抽样,也 可以看成是一种分层抽样。 为了看清其中的关系,我们以一般的等距抽样 为例,将总体中的 N(=nk)个单元按 k 个一组 排成表,共有k行n列。 等距抽样,即将总体N个单元排列成k行n 列的 矩阵,在从1~k之间随机地产生一个随机数r, 则取第r行的全体单元作为样本.
r 1 j 1
样本(群)内相关系数: wsy
E ( yrj Y )( yru Y ) E ( yrj Y ) 2
2
层内方差:
S wst
2
n k 1 ( yrj y. j ) n(k 1) j 1 r 1
同一系统样本内对层均值离差的相关系数:
wst
如果将表的行看作群,实际上相当于将总 体划分为 k群,系统抽样相当于从这 k个 群中随机地抽出一个大小为n的群实行整 群抽样,这是最简单的整群抽样. 因此,在讨论传统抽样的参数估计时,很多 场合将引用整群抽样的一些现成结果.
系统抽样与整群抽样参数的对照
如果将表的列看作层,那么系统抽样又是 一种分层抽样:在每层中抽取一个单元,不 过这个单元在每个层中的位置是相同的, 因此不是分层随机抽样.
【例7.1】设总体由10个行政村组成,N=10,每个行政村的人 数 Mi见下表,利用πPS 系统抽样抽取 n = 3 个行政村 行政村编号 1 2 3 人数(Mi) 103 432 96 累计人数 103 535 631 抽中代码 100
4 5 6 7 8 9 10
246 84 73 205 168 146 317
系统抽样中最简单的是等间隔抽取,这 种系统抽样又称为等距抽样。 等距抽样的随机性是有限制的,因此也 被称为伪随机抽样,但要注意:等距抽 样并未真正丧失随机性原则。 例:工业产品质量检查,每隔2小时抽选 一个或若干样品进行检验。
二、系统抽样的实施方法
(一)直线等距抽样
假设:总体N个单元按直线排列,样本容量为n, 且有 N/n=k,k为整数,称为抽样间距(sampling interval)。 实施方法:
2.样本单元在总体中分布比较均匀,有 利于提
高估计精度.
将总体各单元按一定的顺序排列后再抽样,使得样 本单元的分布更加均匀,因而样本也就更具代表性, 比简单随机抽样更精确 。
缺点: 1.如果单元 的排列存在周期性的变化,而抽样 者对此缺乏了解或缺乏处理的经验,抽取出样本 的代表性就可能很差可能很高。这时要慎重地 选择K。
系统抽样的总体单元 1 1 2
…
2 Yk+1 Yk+2
…
…
j
…
n
平均
Y1 Y2
…
… Y(j-1)k+1 … Y(n-1)k+1 … Y(j-1)k+2 … Y(n-1)k+2
… …
y1
y2
…
r
…
Yr
…
Yk+r
…
… Y(j-1)k+r … Y(n-1)k+r
… …
yr
…
k
Yk
Y2k
…
Yjk
…
Ynk
yk
k 1 2 2 V ( ysy ) E ( ysy Y ) ( yr Y ) k r 1
性质2 用样本(群)内方差 S 2 表示系统抽 wsy 样估计量的方差: ( N 1) 2 k (n 1) 2 V ( ysy ) S S wsy N N
式中:
1 S ( yrj Y ) N 1 r 1 j 1
系统抽样的总体单元按行列重新编号
1
1 2 : Y11 Y21
2
Y12 Y22
…
j
Y1j Y2j
…
n
Y1n Y2n
群平均
Y1
Y2
r
: K
Yr1
Yk1
Yr2
Yk2
Y2
Yrj
Ykj
Yj
Yrn
Ykn
yn
Yr
Yk
层平均 Y1
Y
第二节 等概率系统抽样估计量
一、符号说明 二、估计量 三、估计量方差的不同表示形式
877 961 1034 1239 1407 1553 1870
723
1346
解:
M 0 M i 1870 , n 3,
i 1
N
M0 k 623 n
在 [1,623]中随机抽取整数r,设r=100,则 r+k=723, r+2k=1346,则对应的行政村为 1,4,8.
注: 对于特别大的单元一般直接作为样本,然 后对剩余的单元组成的总体实施抽样.
评价: 在无关标志排序的条件下,各单元的位次排定, 并不等于各单元的调查标志值也按同一次序排 定,虽然是等距抽样,它与随机抽样在性质上 并无不同. 故无关标志排序的等距抽样,实质上相同于简 单随机抽样,二者只是抽样形式不同而已,完 全无损于随机原则,它们在估计精度上也是一 致的。
(二)按有关标志排序