最新抽样调查教案-6系统抽样
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样调查教案-6系统
抽样
第6章 系统抽样
§6.1 引言
6.1.1定义
定义6.1 /6.2系统抽样(systematic sampling )又称为等距抽样、机械抽样。按照这种抽样方法,从总体中抽取第一个样本点(随机起点),然后按某种固定的顺序和规律依次抽取其余的样本点,最终构成样本。这种抽样被称为系统抽样是因为这种抽样的第一个样本点虽然随机,但其余样本点的抽取看起来好像不再随机,因而是系统的。“牵一发而动全身”。比如要对居民用户抽样,可按户口册每隔多少户抽一户;工厂为检查产品质量,在连续的生产线上每隔20分钟抽选一个或若干个样品进行检查;农业上为估计农作物产量或病虫危害,对一大片农田每隔一定距离抽取一块进行实际测量或调查,等等。 本章只作简单方法介绍。更多内容参见文献2、文献3。 6.1.2系统抽样的一般方法 定义6.3 直线等距抽样
假设总体单元数为N ,样本容量为n ,N 为n 的整数倍。把总体单元排列成一直线。先计算出系统抽样间隔n N k ,(当N 不是n 的整数倍时,可令k 等
于最接近的整数)。然后在第一阶段1~k 个单元中随机抽取一个单元,假设为r ,然后每隔k 个单元抽取一个单元,即分别为:r +k ,r +2k ,…….,直至抽取了n 个单元。抽取的样本编号为:r+(j-1)k (j=1,2,…,n )。 1 2 … r ……k k +1 k +2 … k +r ……2k 2k +1 2k +2 … 2k +r ……3k … … … … …… …
例如某学院有200个学生,要抽取10个学生作为样本。首先计算n
N
k ==20,然后在1~20中随机抽取一个数字,假设抽中排列中第3位的学生,则其它入样单元依次为23,43,63,83,103,123,143,163,183。 定义6.4 圆形等距抽样(Lahiri )
这种方法主要适用于n N k =不为整数时。因为当k 不为整数,取其最接近的
整数时,实际样本容量可能与n 相差1,而且每个单元入样的概率不等,这时用直线等距抽样可能产生偏倚。
例:设总体N =10,其标志值分别为1210,,
,Y Y Y ,总体均值为
10
1
110i Y Y =∑。若要求样本容量为n =3,采用直线等距抽样,验证样本均值是否
为总体均值的无偏估计?
解:先计算间距n N k ==10/3=3.33….,取k =3,在1~3中取一个随机
起点,然后每隔3个单元抽取1个单元可得下列的可能样本:
三个可能的系统抽样样本均值分别为:
()114710/4sy y Y Y Y Y =+++,()2258/3sy y Y Y Y =++,()3369/3sy y Y Y Y =++
k k k
k +r 2k +r (n -1)k +r
r k
(k 为抽取间隔)
所有()sy E y =()1231
3
sy sy sy y y y ++Y ≠,因此样本均值不是总体均值的无偏估计。
在这种情况下,样本均值将不等于总体均值,因而估计不是无偏的。为了使得样本均值是总体均值无偏估计,将N 个总体单元排成首尾相接的一个圆。抽样间距k 取最接近n N 的整数,从1——N 中随机抽取一个随机起点作为起
始单元,然后每隔k 个抽取一个,直到抽取n 个为止。如果序号大于N 时,将其减去N 得到的在1——N 中的号码入选。
正是因为排列为圆形而非直线且随机起点在1~N 中而非在1~[k ](或[k ]+1)中,导致了该抽样下的每个样本严格等概率地被抽中,因而估计是无偏的。
若是圆形等距抽样,则在1~10中抽取一个随机起点,假设为7,然后每隔3个单元取一个,它们的序号是7、10、13。事实上是7Y 、10Y 、3Y 入样。 考虑到实际问题中,n 通常比较大(大于等与50),多一个少一个并无关宏旨,因此可以不必考虑N /n 不是整数的影响,故通常我们都假定N 是n 的整数倍。
3 不等概率抽样法
不等概率抽样中每个单元入样的概率不相等。最简单也是最常用的是PS π系统抽样,即入样的概率i π与单元规模大小i M 成比例的系统抽样。令
∑=N
i M M 1
0表示所有单元规模大小总和,则0
M M n
i
i =π(包含概率,见不放回不等概率抽样)。
在实际中,不等概率的实施常采用代码法。如下所示:
先将单元规模i M (不失一般性,设其为整数)值累加,欲从总体中抽取容量为n 的样本,取最接近
n
M 0
的整数k 为抽样间距,从[1,k ]中随机抽取一个整数r 作为起点,则代码r ,r +k ,…,r +(n -1)k 所对应的单元入样。
例7.1 设总体由10个行政村组成,N =10,每个行政村人数为i M ,见表7.1。利用PS π系统抽样抽取n =3个行政村样本。
表7.1 用PS π系统抽样抽取行政村
0/623k M n ==,从1~623中抽取一整数,例如是100r =,则100r =,
723r k +=,21346r k +=所对应的行政村入样,其序号分别为1、4、8。 这种方法,当所有单元规模k M i <时,每个单元不可能重复,是一种不重复抽样;当k M k i 2<<时(超过抽样间隔),第i 个单元为必然被抽中单元,且有可能重复抽中;当k M i 2>,第i 个单元为必然被重复抽中。实际中应尽量避免这种重复抽中现象。一种简单的方法就是把这种大规模单元作为必然调查
单元,不再列入抽样总体,另一种方法是将大规模单元划分为几个小规模单元。
6.1.3总体单元排序
1 按无关标志排序,如调查学生视力,按学号排列,显然视力与学号没有关系
2 按有关标志排序调查身高时,按入校体检的身高顺序排列
3 介于以上两者之间
6.1.4系统抽样的优缺点
优点:系统抽样是实际中常用的一种抽样方法,
1其简单易行,只要确定起点和间距,便于推广
2便于利用已知信息,系统抽样的误差大小与总体单元的排列顺序有关,因此当对总体的结构有一定的认识了解,并有相关的标志可以利用时,可以运用已知的信息先对总体单元进行排列,再采用系统抽样,就能提高系统抽样的效率。
但缺点也很明显:
1 方差复杂,难以估计
2 如果单元排列存在周期性,而抽样者缺乏对此了解,则很容易抽取出的样本代表性很差。例如,要调查70路每天的客流量,采用系统抽样,每周取一天,即每隔7天抽取一次。不管取了星期一到星期五,还是星期六到星期日中的哪天作为起点,样本代表性都很差。
6.1.5系统抽样与整群抽样和分层抽样的关系
系统抽样可以看作特殊的整群抽样和分层抽样
表6-1 系统抽样的总体单元