Chap03简单随机抽样
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N i j
(Yi
Y
)(Yj
Y
)
1 nN
1
n 1 N 1
N i 1
(Yi
Y
)2
n 1 N 1
N i 1
(Yi
Y
2 )
1 n
N N
n
1 N 1
N i 1
(Yi
Y
)2
1 f S2
n
证明Ⅱ:仍引进随机变量 ai :
N 1 n 1
N n
n N
ˆ
f
E(ai )
n N
f
(3.5)
借助 ai ,样本均值 y 可以表示成:
y
1 n
N i 1
aiYi
(3.6)
E( y) 1
n
N
E(ai )Yi
i 1
1 n
n N
N
Yi
i 1
Y
推论: Y 的简单估计量Yˆ Ny 也是无偏的,即: E(Ny ) Y
所有可能的样本求平均: E( y)
N 1 y n
N n
个样本中,包含特定单元
Yi
的样
本数为
N 1 n 1
,也有同样多样
本含有任何其他单元,因此
y 1
n
( y1
y2
yn )
1 n
N 1 n 1
数,则编号为这些随机数的 n 个单元组成一个简单随机样本。
随机数的产生可使用随机数骰子或随机数表。
图 3.1 随机数骰子 随机数骰子:标上 0~9 数字的正 20 面体(每个数字出现在两面)
m 个不同颜色的骰子同时掷或用一个骰子连续掷 m 次可产生一个 m 位的随机数。
随机数表:由 0~9 的随机数字组成的表,排列的顺序也是随机的。 例 3.2 设 N 872 , n 10 ,利用随机数表抽取一个简单随机样本。
也可以用计算机产生(伪)随机数。通常产生的是 [0,1] 范围内均 匀分布的随机数,通过它进而产生1 N 范围的随机(整)数。
3
3.1.3 简单随机抽样在抽样理论中的地位与作用
1) 简单随机抽样是其他抽样方法的基础。
4
2) 简单随机抽样的实施要求一个完整的抽样框。简单随机样本常很 分散,在实际中实施调查时会遇到很多困难。
-2
84
15 2,4,6 12,24,18
18
2
36
16 2,5,6 12, 6,18
12
-4
36
17 3,4,5
15,24,6
15
-1
81
18 3,4,6 15,24,18
19
3
21
19 3,5,6 15, 6,18
13
-3
39
20 4,5,6 24, 6,18
16
0
84
平均
16
0
42
简单随机抽样也可以考虑放回情形,此时样本中的单元有可能重
nN
n
证明 I:(对称性论证法)
(3.9) (3.10)
7
V (y) E(y Y )2
1
2
E[n( y Y )]
n2
1 n2
E
n i 1
( yi
Y
2 )
1 n2
E
n i 1
( yi
Y
)2
2E
n i j
( yi
Y
)(
y
j
Y
)
根据对称性论证法,我们有
(3.11)
E
n i 1
( yi
Y
)2
n N
N
(Yi Y )2
i 1
(3.12)
E
n i j
( yi
Y
)( y j
Y
)
n(n 1) N (N 1)
N i j
(Yi
Y
)(Yj
均值 y
16 19 13 17 20 14 18 17 21 15 17 11
y -Y
0 3 -3 1 4 -2 2 1 5 -1 1 -5
方差 s2
21 39 57 21 21 57 9 93 9 63 39 21
1
13 2,3,6 12,15,18
15
-1
9
14 2,4,5 12,24,6
14
i 1
n(N 1) S 2 N
E[n( y Y )2 ] nV ( y) N n S 2 N
故
10
E(s2
)
(n
S2 1) N
[n(N
1)
(N
n)]
S
2
由此可以分别得到V ( y ) 及V (Ny) 的无偏估计估计如下:
v(y) 1 f s2 n
v(Ny) N (N n) s2 n
的单元个数计算,这个倍数恰为 n N 。因而
E( y)
1 n nN
N
Yi
i 1
1 N
N
Yi
i 1
Y
证明Ⅲ:引进 N 个随机变量:
ai
1,若第i个单元入样 0,否则
i 1, 2,, N
(3.4)
6
ai 服从二点分布,它的均值即是第 i 个单元的入样概率,后者应是包含 该单元的样本数与样本总数之比,即抽样比
N i 1Yi2V (ai ) N Nhomakorabea2
i j
YiYj
Cov(ai
,
a
j
)
1 f
nN
N N 1
N
Yi 2
i 1
1 N 1
N i 1
Yi
2
1 f n(N 1)
N i 1
(Yi
Y )2
1 f S2 n
V ( y) 直观意义:
, 则 这 种 抽 样 称 为 不 放 回 的 简 单 随 机 抽 样 ( simple
random
sampling without replacement),所得的样本称为不放回简单随机样
本。
例 3.1 考虑从一个 N 6 的总体中抽取 n 3 的样本。设这 6 个
单元的值分别为Y1=21,Y2 =12,Y3 =15,Y4 =24,Y5 =6,Y6 =18,则总共 可能有 20 个样本。
(3.18) (3.19)
Y 的置信度为1 的近似置信区间为:
y
u
1 f s, n
y u
1
f
s
n
例 3.5 为调查某城镇成年居民的年服装消费水平,在全体 N =5
第三章 简单随机抽样
3.1 概述
3.1.1 什么是简单随机抽样
简单随机抽样(simple random sampling)也称单纯随机抽样。考虑
一个包含 N 个单元的总体,从中抽取 n 个单元作为样本。如果抽样是
不放回的,共有
N n
个可能的不同样本。若每个被抽中的概率都等于
1
N n
3.2.2 估计量的方差
有限总体方差的一般定义为:
2
E(Yi Y )2
1 N
N
(Yi Y )2
i 1
(3.8)
为使公式表达更为简练,在本书中定义总体方差:
S 2
1 N 1
N i 1
(Yi
Y )2
1)对简单随机抽样, y 的方差为:
V( y ) N n S2 1 f S2
Y
)
(3.13)
这是因为总体中任意两个不同单元同在一个样本中出现的概率
为:
N 2 n 2
N n
n(n 1) N(N 1)
将(3.12) 式与(3.13)式代入(3.11)式,即有
V
(y)
1 nN
N i 1
(Yi
Y
)2
2
n 1 N 1
3)尽管简单随机抽样的精度(在相同样本量下),比许多实际抽样 要高,但由于简单随机抽样没有用到总体单元的信息,因而比起使用 总体辅助信息的那些抽样策略效率要低。
其他抽样方法都是针对简单随机抽样的局限发展的,或为实施方 便,或为提高精度。
3.2 总体均值与总量的简单估计
3.2.1 简单估计量及其无偏性
有关总体的量用大写字母表示,有关样本的量用小写字母表示。
记总体 N 个单元的指标值为 Y1,Y2,,YN ;记一个简单随机样本的指
标值为 y1, y2,, yn 。我们的目的是根据样本,估计
总体均值
Y1 N
N
Yi
i 1
或 总体总量
N
Y NY Yi
i 1
自然想法:用样本观测值 yi 的简单线性函数
a. 若不考虑1 f N n 的影响,V ( y) 与样本量 n 成反比;
N
b. 抽样比 f 对V ( y) 影响不大;
c. V ( y ) 与总体方差 S 2 ,也即总体变异程度成正比。
例 3.4 在例 3.1 的总体中若改变其中两个单元的值:Y1=3,Y5 =36, 则可以验证总体方差 S 2 126 ,比原来的 S 2 42 大很多。
是总体方差 S2 的无偏估计,即
E(s2) S2
(3.17)
证明:将 s2 改写成:
s2
1 n 1
n i 1
[( yi
Y
)
(y
Y
)]2
1 n 1[
n i 1
(
yi
Y
)2
n(
y
Y
)2
]
根据对称性论证,有:
n
E[ ( yi Y )2 ]
i 1
n N
N
(Yi Y )2
复出现,而全部可能的样本数为 N n (考虑样本单元的顺序),如果每个
被抽中的概率也相等,则称为放回简单随机抽样(simple random
sampling with replacement)。
非特别说明,以后简单随机抽样均是指不放回的。
3.1.2 简单随机抽样的实施方法
1)全样本抽取方法
如做 N 个签,依次编上 1 至 N 的号码,并均匀混合,同时抽取其
N i 1
Yi
于是
N -1 N
E( y)
n 1 i1 Yi N
n n
1 N
N
Yi
i 1
Y
证明Ⅱ:对称性论证法
由于总体中每个单元出现在全部可能样本的次数都相等,因此
n
N
E i1 yi 作为对所有可能的样本求平均,必定是 i1 Yi 的倍数,按求和中
等于1
N n
,从而是一个不放回简单随机样本。
随机抽取是通过抽取随机数(random number)来实现:
2
在 1 至 N 范围内随机抽取一个整数(即随机数),记为 r1 ,则第 r1 个
单元入样;再在同一范围内随机抽取另一随机数,记为 r2 ,若 r2 r1 ,
则第 r2 个单元入样,若 r2 r1 ,则舍弃重抽;直至抽中 n 个不同的随机
(3.14)
8
于是
V (ai )
n N
1
n N
f
(1
f
)
Cov(
ai
,a
)
j
E(
ai a
)
j
E(
ai)E(
a
)
j
N((n nN11))
n N
2
(f 1 f) N 1
V ( y)
V
1 n
N i 1
aiYi
1 n2
3.2.3 估计量的方差估计
(3.15)
简单随机样本的简单估计量的方差均与总体方差 S 2 有关,而 S 2 通
常是未知的,因此为了估计V ( y) ,必须先对 S 2 作估计。事实上
对于简单随机抽样,样本方差:
s2
1 n 1
n i 1
( yi
y)2
1n n 1 ( i1
yi2
ny 2 )
中 n 个签,则这 n 个签上的号码即为入样的单元号码。
对不太大的 N ,方法可行;对大的 N ,不方便。
2)逐个抽取法
在总体 N 个单元中,随机抽取(即等概率抽取)一个单元,不放回, 然后再在其余 N 1个单元中随机抽取一个单元,也不放回;继续上述
步骤,直至抽足 n 个单元为止。
不难证明按这种方法抽到的 n 个单元的样本,每个被抽到的概率皆
表 3.3 从一个 N 6 的总体抽 n 3 的全部可能样本 (Ⅱ) 如果忽略 2 与 S 2 的微小差异,从有限总体中抽取的(不放回)简
单随机样本均值的方差比从无限总体(或有限总体中放回抽样)抽取的
9
简单样本均值的方差小,倍数约为1 f 。1 f 称为有限总体修正系数
(finite population correction),简记为 fpc。 推论: Yˆ Ny 的方差为: V (Yˆ) N (N n) S 2 n
y
1 n
n i 1
yi
估计 总体均值Y
Yˆ Ny
N n
n i 1
yi
估计 总体总量Y
简单估计量 y 与Yˆ 的性质。分析例 3.1(p29-p30)。 1)对简单随机抽样,简单估计量 y 是无偏的,即:
5
E(y) Y
(3.3)
证明 I:对于固定的有限总体,估计量的期望或均值的含义即是对
表 3.1 从一个 N 6 的总体中抽 n 3 的全部可能样本 (Ⅰ)
序号
1 2 3 4 5 6 7 8 9 10 11 12
单元号
1,2,3 1,2,4 1,2,5 1,2,6 1,3,4 1,3,5 1,3,6 1,4,5 1,4,6 1,5,6 2,3,4 2,3,5
样本数值
21,12,15 21,12,24 21,12,6 21,12,18 21,15,24 21,15,6 21,15,18 21,24,6 21,24,18 21,6,18 12,15,24 12,15,6