第七章 系统抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 9 Yi Y 9
无偏
例如:若总体单元数 N 10, n 3, k 取3 ,
i 1 时,n=4,Y 1 Y 4 Y 7 Y 10 y1
i 2 时,n=3 ,Y2 Y5 Y 8 i 3 时,n=3 ,Y3 Y6 Y 9
y2
y3
1 3 E ( y sy ) y i 3 1 Y1 Y4 Y7 Y10 Y2 Y5 Y8 Y3 Y6 Y9 ( ) 3 4 3 3 Y 有偏
同理可证 k=4 时, E ( y sy ) Y 2. 如何解决有偏问题 (1)圆形等距抽样
1
2
3
10 9
8 7 6
从 [1,10] 选取一个起点 4
5
y1 y2 y3 y4 y5
1 ( y1 y4 y7 ) 3 1 ( y2 y5 y8 ) 3 1 ( y3 y6 y9 ) 3 1 ( y4 y7 y10 ) 3 1 ( y5 y8 y1 ) 3
例:1.调查某作物品种产量时,按种植面积排序;
2.学生的某科成绩按从低到高排序
系统抽样
其实抽样单元的位置偏高或偏低 直接影响整个样本的代表性。
周期性波动总体:
周期性波动是指总体单元指标值按其顺序 呈一定间隔即周期变化。例如:超市的销售额 对于周期性波动总体的系统抽样,其效 果与抽样间距k及单元指标值的变化周期T直 接有关。
1 ( y6 y9 y2 ) 3 1 y7 ( y7 y10 y3 ) 3 1 y8 ( y8 y1 y4 ) 3 1 y9 ( y9 y2 y5 ) 3 1 y10 ( y10 y3 y6 ) 3 y6
1 10 E ( y ) ( y i ) Y 10 1
* r
* * 2K- r +1 r +2K
* 4K- r +1
* r +(n-2)K
* nK- r +1
对线性趋势总体的抽样方法的改进
例:当N=200时,抽取10个样本单元。 3,38;43,78;83,118;123,158;163, 198;为依次抽得的结果 当N=nk,n为奇数时,前面和上面步骤类似,最后增加 靠近终端的一个单元[r+(n-1)k] 当N=180时.抽取9个样本,k=20 除了选取 3,38;43, 78;83,118;123,158;再增加一样本单元: 3+8*20=163 例如:35位学生,r=4为随机起点,利用Sethi对称系 统抽样从中抽出7位。 4 ,7 ;14 ,17; 24, 27; 4+6*5=34即为抽样结果。
系统抽样的排序 随机排列总体:
当总体单元的排列顺序与其指标值不相关时,单元 的排列顺序就可以看作是随机排列的(按无关标识 排列)。如研究人口的收入状况时,按身份证号码、按门
牌号码排序非常方便。
系统抽样的排序
趋势总体:
当总体单元按指标值的从小到大顺序排列 。 对于线性趋势总体,系统抽样优于简单随机抽样,但比分层随机抽样差。
对线性趋势总体的抽样方法的改进
当N=nk, n为奇数时,和上面步骤类似, 最后增加靠近中间的一个单元 r+(n-1)k /2 例如:36位学生,r=5为随机起点,利用Singn对称 系统抽样从中抽出6位。 5,32;11,26;17,20; 即为抽样结果. 例如:35位学生,从中抽出7位,利用Singn对称系统 抽样, r=4为随机起点。 4, 32; 9 ,27; 14 ,22 ;19 即为抽样结果。
对线性趋势总体的抽样方法的改进
Sethi对称系统抽样
对称等距抽样法 Singh对称系统抽样
对线性趋势总体的抽样方法的改进
对称等距抽样法
• (1) Sethi对称系统抽样 当N=nk, n为偶数时,将总体分为n/2个组, 每组内包含2K个单位,在每组中随机确定与 两端等距的两个单位作为样本单位,设起始 样本单位的顺序号为r (1<r<K),则入选样本 的这些单位的顺序号为: [r+2jK,2(j+1)K- r +1] (j=0,1,2,…, )
循环等距抽样是无偏的
7.3 不同特征总体的系统抽样的 方差估计和改进
一、随机排列总体:
系统抽样单元的排列位置不同,则方差也不同,假设总体个数是N, 有N!种不同的排列,从而有N!个不同的系统抽样方差,可证明这N! 个系统抽样方差的均值是简单随机抽样的方差:
E (V (Y sy )) V ( y srs ) 从平均意义上来说,系统抽样方差等于简单随机抽样的方差 因此,当总体单元按无关标志排列,即随机顺序排列时, 就可用简单随机抽样的方差作为系统抽样的方差: N n 2 1 f 1 n v(ysy )=v(ysrs )= S ( yi ysy ) Nn n n 1 1 1 n ysy yi n 1
抽样间隔K的计算公式: 总体面积A K 样本量n
每块的边长为K,然后在1~K之间抽选两个随机起点, 设为i和j,则点( i,j )即为初始样本点; 然后按直角坐标的方向, i和j每隔距离K所确定的位置,
就是每个样本点在每个小格的固定位置。
.
.
.
Baidu Nhomakorabea
.
.
.
.
. . .
. . .
. . .
. . .
. . .
M0 45 n 假设在[1, 45]中产生随机数为36, 解:M 0 135, n 3, k 则36、 81、 126分别属于5、6、部门 7 的代码范围,这三个部门被抽中。 当单元的M i 太大时有可能被重复抽到。
5
6 7
15
85 8
36
121 129
8
6
135
系统抽样特点:
简便易行,对抽样框的要求较低 将总体各单元按一定的顺序排列后再抽样,使得样本单 元的分布更加均匀,因而样本也就更具代表性,比简单随 机抽样更精确, 易被不熟悉抽样的非专业人员所掌握 系统抽样的精度与总体单元的排列顺序密切相关 局限性: 对于一般的直线等距抽样,当N≠nk时,样本平均数作 为总体均值的估计不是无偏的 系统抽样和排列方式有关,方差估计较为复杂
实施方法:
一、直线等距抽样:在总体中的N个单元按直线排列时
1、若N是n的k整数倍,即
N= n k:在1到k范围内随机抽取
一个整数r,以单元r为起始单元,以后每隔k抽取一个单元 , 一共抽取n个样本单元,其中k称为抽样间距。
例:某县有30000个农户,要抽300个作为样本,进行某种 农作物品种产量调查。试用直线等距抽样方法进行抽样。 解:将30000个农户的名单按一定的顺序排列,编上序号。 抽样间隔=30000/300=100 在1~100中抽取一个随机数,假设为12 ,则序号为12的单 元为抽中单元,以此为起点,相应被抽中的序号为:12、112、 212 、312 、412等等,这300户组成一个样本。 2、若N不是n的整数倍,根据样本量n确定最接近不大于N/n 的一个整数k。此时样本均值是总体均值的有偏估计。用等 概率的方法删去一些单元,以使k=N/n ;也可采用下面, 圆形等距抽样
对线性趋势总体的抽样方法的改进
(2)Singh对称系统抽样(总体对称等距抽样)
若n为偶数,当在1—K之间确定一个随机整数之后, 对样本单位由下式确定 [r+jK,N-jK- r +1] (j=0,1,2,…, n/2-1)
*
K * r+K
2K 3K * i +2K
r
(n-3)K (n-2)K (n-1)K nK * * (n-2)K- i +1 (n-1)K- r +1 nK- r +1
1 n y sy yi n i 1
2. 连续差:从第二个样本单元开始,每个样本单元 与前一个样本单元组成一对,共n-1对。
第七章 系统抽样
1. 系统抽样的具体实施:直线型,循环等距 2. 有趋势的总体系统抽样方法的改进
3. 系统抽样估计量及其抽样误差
4. 周期波动总体的交叉子样本
第一节 概述
定义:系统抽样(systematic sampling)也称为机
械抽样,将总体中的单元按某种顺序排列,在规定的范围内随 机抽取起始单元,然后按一套规则确定其他样本单元的一种抽 样方法。
三、未知趋势情形:
由科克伦(1946)、耶茨(1948)提出,对线性趋势总体也 可按下面的公式计算。
1. 合并层:把系统看作是每层抽取一个单元的分层 抽样,设n为偶数,将样本观察值按顺序两两分为 一组。
1 f 2 1 n /2 v1 ( y sy ) ( yi1 yi 2 )2 n n 2 i 1
1 n 174 psy yi 0.87 n 1 200 1 f v ( psy ) psy (1 psy ) 0.00056266 n 1 v ( psy ) 0.0237 成活率的95%的置信区间为: psy 1.96 0.0237 [0.8236, 0.9165], 成活的棵树[16471,18330]
对线性趋势总体的抽样方法的改进
对称等距抽样既不违反随机原则,又能避免样本产 生系统性偏差,改进样本的代表性,因而其估计效率 比一般等距抽样要高,所以是实际中应用最多的方法。
一 、 估 计 量 性 质
7.2 等概率系统抽样——等距抽样
( 一 ) 估 计 量 Y 的 1 . 当 N = n K ,
y 为的 无 偏 估 计 量 , Y sy
. . .
. . .
K K K
例:设有10公顷林地,欲调查木材畜积量,拟用抽样40块样地来推 断总体,每块样地是半径5米的一个圆形,是说明如何布点。
解:抽样间隔为:
10 10000 K 50 (米) 40
样地的边长为50米,每个样本点中心间距50米,在1~50确定两 个随机起点i和j, 以( i,j )为圆心做半径为5米的圆,以此作为第 一个样本点,依次找到其余样本点。
田间常用的系统抽样方式:
以农作物田间测产的抽样调查为例,如小麦成熟前的测产,在面 积不大的田块上常用棋盘式五点抽样,遍布整块麦田。
4、pps系统抽样
例:设总体由8个村庄组成,N=8,每个村庄的人数Mi如下。 利用PPS系统抽样抽取n=3个行政村。
代码法:
i
Mi
累计
1
2 3 4
2
4 5 10
2
6 11 21
2 . 当 N ,y 为的 有 偏 估 计 量 nK Y sy
1 ysy yi n i 1
n
例: N 9, n 3, k 3,1 i 3 ,
i 1 时,Y1 Y 4 Y 7
i 2 时,Y2 Y 5 Y 8 i 3 时,Y3 Y 6 Y 9
y1
y2
y3
1 3 1 Y Y4 Y7 Y2 Y5 Y8 Y3 Y6 Y9 E ( y sy ) y i ( 1 ) 3 3 3 3 3
二、 循环/圆形等距抽样:
当N不是n的整数倍,即抽样间距N/n不是整数时,实际抽取的样本
量是不固定的,每个总体单元的入样概率也是不等的,用直线等距抽 样就有可能产生偏倚,为得到无偏估计,采用循环等距抽样方法。
方法 : 编号不是直线排列而是环状(圆形) 排列, 是随机起点的选择范围由1到k 扩展到 1到N,抽取的样本量是固定的。 例:从总体为10个的单元中,循环 等距抽选3个单元。 解:抽样间隔= [10/3]=3
2 1 10 3 4
9 6 8 7
5
假设从1~10中随机抽 取7,则抽中的样本 单元号为:7、10、3
3.二维系统抽样:在平面上直接抽取样本。
例如进行农产量或病虫害调查时,要在一大块土地上布设样本点; 进行森林的木材蓄积量调查时,要在某一林区布设样本点等,这种方法 又称平面系统抽样。 具体实施过程:设总面积为A,代表总体N,现欲从中抽取样本量 为n的样本,即把总面积划分成n个面积相等的小方块;
2
例如:居民家庭调查中按姓氏排列的总体单位,
农产品调查中按地理区域顺序排队的总体单位等, 这种按无关标志排列的总体单元可以看做是随机排列的。
例:某乡村公路两旁种植了20000棵小树,一年后检查小树的成活率, 采用系统抽样的方法抽取200棵,其中成活了174棵,试估计成活率及其 95%的置信区间。 解:小树的排列可看作是随机的,因此可按简单随机抽样来估计其抽样误差: