讲稿2-简单随机抽样
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N N 1 2 V y 2 V iY i 2 Y V ( i ) n n i 1 i i 1 N 1 n n 2 2 (1 ) Y n N N i 1 i
n
(1
N
N
1 n n n ) (1 ) N N 1 N N N n
i 1
N
Y iY j cov V ( i , j ) ji ) N 1 1
i 1 ji
N
N
Y iY j
N
n N
N
(1
n N
1 n n 1
2
N n 1 2 (1 ) Y N N i 1 i N 1
i 1 N
Y iY j ji
p a n
2
1 N
i 1
N
Yi
Y i 0或 1
N N 1
1
n
n
yi
n
y i 0或 1
y
2
i 1
S
2
Y 1
i 1
i
Y
2
2
s
y n 1
i 1
1
i
Y
R
i 1
N
i
i 1
N
X
i
Y X
Y X
ˆ R
i 1
n
yi xi
y x
三、地位与作用
优点
简单直观 理论基础 N很大时难以获得抽样框 样本分散不易实施,调查费用高
缺点
很少单独使用,一般结合其他方法使用 没有其他信息时使用 多变量复杂数据分析
2.2
简单估计量及其性质
判断下面要估计的总体目标量分别属于什么 类型?
调查城市居民家庭平均用电量。 估计湖中鱼的数量。 测试日光灯的寿命。 估计居民家庭用于做饭菜及饮用的用水量占家庭 总用水量的比重。 估计婴儿出生性别比。 检测食盐中碘含量。
i
n N
(Y
i 1
N
Y)
2
1 n
2
n ( n 1) N (N
(Y 1)
i j
i
Y )( Y j Y )
n 1 N n 1 N 2 2 1 N n 1 2 (Y i Y ) (Y i Y )( Y j Y ) N 1 1 (Y i Y ) N 1 1 (Y i Y ) i i nN i 1 N 1 i j
1,5
2,5
3,5
4,5
5,5
(2)不放回简单随机抽样 (SRS without replacement)
当从总体N个抽样单元中依次抽取n个抽样 单元时,每个被抽中的单元不再放回总体, 而是从总体剩下的单元中进行抽样。 不放回简单随机抽样的样本量要受总体大 小的限制。 在实际工作中,更多的采用不放回简单随 机抽样。
n n 2 E ( y i Y ) N i 1
E ( y i Y )( y i j
j
i 1
N
(Y i Y )
2
n ( n 1) Y ) N ( N 1)
i j
(Y i Y ) (Y j Y )
E ( y
N
ij P(i, j )
( 2 )( n 2 ) (n )
N
n(n 1) N ( N 1)
Mean
Y
N
1
1
N
Yi
y
y n
n
i
1
Y n
i
N
i
i
1 i s = 0 is
随机变量
E (i ) E (i )
2
P (i 1)
【例2.1】
设总体有5个单元(1、2、3、4、5), 按放回简单随机抽样的方式抽取2个单元, 则所有可能的样本为25个(考虑样本单 元的顺序):
1,1 1,2 1,3 1,4 2,1 2,2 2,3 2,4 3,1 3,2 3,3 3,4 4,1 4,2 4,3 4,4 5,1 5,2 5,3 5,4
2.1定义与符号
有 限
简单随机抽样也称为单纯随机抽样。 从含有 N 个单元的总体中抽取 n 个单元组成 样本,如果抽样是不放回的,则所有可能的样 n 本有 C N个,若每个样本被抽中的概率相同,都 n 为 1 C N,这种抽样方法就是简单随机抽样。 具体抽样时,通常是逐个抽取样本单元,直到 抽满n个单元为止。
样本编号 单元1 1 2 3 4 5 6 7 8 9 10 平均 0 0 0 0 1 1 1 3 3 5
S
2
=6.5;给出
单元2
1 3 5 6 3 5 6 5 6 6
样本均值
0.5 1.5 2.5 3 2 3 3.5 4 4.5 5.5 3
方差1.95
y
-Y
样本方差
0.5 4.5 12.5 18 2 8 12.5 2 4.5 0.5 6.5
1 N 1
i 1
N
(Y i Y )
2
N n nN
S
1 f n
S
2
利用无限总体理论
每个特定单位被选入样本的概率:
1 N 1
i =P(i)=
故其定义为:
* 不放回抽样
(1 )( n 1 ) (n )
N
n N
1 (n )
2 N 2
* 每个样本被抽中的概率为
* 每个单位被选入样本的概率
放回简单随机抽样 不放回简单随机抽样
放回简单随机抽样(SRS with replacement)
当从总体N个抽样单元中抽取n个抽样单元时,如果依次抽取单元时, 不管以前是否被抽中过,每次都从N个抽样单元中随机抽取,这时, n 所有可能的样本为 N 个(考虑样本单元的顺序), 1 每个样本被抽中的概率为 N
i 1
n
总体指标值上面带符号“^”的表示由样 本得到的总体指标的估计。 称 n N 为抽样比,记为f 。 V Yˆ 的 估计量的方差用大写的V表示,对 样本估计,不用 Vˆ Yˆ 而用 v Yˆ 表示。
二、抽选方法
1.抽签法 2.随机数法——随机数表、随机数骰子、摇 奖机、计算机产生的伪随机数 随机数表法: N=327 n=5 讨论: (1) 总体编号为1~35,在00~99中产生随机 数,若=00或>35,则抛弃重抽。 (2) 总体编号为1~35,在00~99中产生随机 数,以除以35,余数作为被抽中的数,如果余 数为0,则被抽中的数为35。
一、对总体均值的估计
y 1
n
n
yi
i 1
以样本均值作为总体均值的估计
性质1:对于简单随机抽样, y 是 Y 的无偏估计。
Ey Y
例设总体为{0,1,3,5,6},计算总体均值Y =3、总体方差 n 全部 2 的样本,并验证 E y Y 及 E s 2 S 2 。
2
1 f n
S
2
式中: f
n N
1 f
为抽样比, 为有限总体校正系数。
证明性质2(对称论证法):
V y E y Y
1 n2Fra bibliotek2
2
1 E n
1 n
2
i 1
n
yi Y
2
n E ( y i Y ) i 1
1 n 2 E ( y i Y ) 2 E ( y i Y )( y j Y ) i 1 n i j
y
n
C N 1 Y i nC
i 1 n N
1 N
CN
Y
i 1
N
i
Y
证明 性质1(对称性论证法)
由于每个单元出现在总体所有可能样本 中的次数相同,因此 E y y y 一定是Y Y Y 的倍数,且这个倍数 就是 n N ,
1 2 n
1 2 N
n
n N
N
证明性质2
1
n n n 2 V (i ) E (i ) E (i ) (1 ) N N N N n n 1 E (i j ) p(i 1 & j 1) ( ) N N 1 2
2
n
2
cov(i , j ) E (i j ) E (i ) E ( j )
【例2.2】
设总体有5个单元(1、2、3、4、5), 按不放回简单随机抽样的方式抽取2个单 元,则所有可能的样本为10个:
1,2
1,3 1,4 1,5
2,3
2,4 2,5
3,4
3,5
4,5
符号
Y 1 N
大写符号表示总体的标志值, 用小写符号表示样本的标志值
y 1
i 1
N
Yi
2 N N 1 n 1 n 1 2 1 (Y i Y ) (Y i Y ) nN N 1 i 1 N 1 i 1
1 nN
N n N 1
2
i 1
N
(Y i Y )
2
1 N n n N
n
放回简单随机抽样在每次抽取样本单元时,都将前一次抽取 的样本单元放回总体,因此,总体的结构不变,抽样是相互 独立进行的,这一点是它与不放回简单随机抽样的主要不同 之处。 放回简单随机抽样的样本量不受总体大小的限制,可以是任 意的。
简单随机抽样的抽取原则:
(1)按随机原则取样; (2)每个抽样单元被抽中的概率都是已知 的或事先确定的; (3)每个抽样单元被抽中的概率都是相等 的。
N 2 Yi i 1 N
2 2 (1 ) ( N 1) Y i ( Y i ) n N N ( N 1) i 1 i 1 n 1 (1 ) N n N N ( N 1) 1 n 1 S
2
i 1
N
Y
2
i
2 ( Yi ) i 1 N
-2.5 -1.5 -0.5 0 -1 0 0.5 1 1.5 2.5 0
证明 性质1
对于固定的有限总体,估计量的期望是对所有可能样本求平均得 到的,因此 y y1 y 2 y n
Ey CN
n
nC
n N
总体中每个特定的单元
yi
在不同的样本中出现的次数。 C
第2章 简单随机抽样(SRS)
Simple Random Sampling (SRS) 2.1 2.2 2.3 2.4 2.5 定义及其抽选方法 简单估计量及其性质 样本量的确定 设计效应 比估计与回归估计
抽样方案设计
第一、确定抽样调查的目的、任务和要求; 第二、确定调查对象的范围和抽样单位; 第三、确定抽取样本方法; 第四、对主要抽样指针的精度提出要求;确 定必 要的样本数; 第五、确定总体目标量的估算方法; 第六、制订实施总体方案的办法和步骤。
1 n C N 1 Y i
n 1 i 1 N
n 1 N 1
n
y
1
y n
N!
1
y2 yn
N ( N 1 )!
CN
n ! ( N n )!
n ( n 1)! ( N n )!
N n 1
N n
C N 1
n 1
Ey
Y1 Y 2 Y N N
n
n
yi
y1 y 2 y n n
i 1
Y
Y
i 1
N
i
Y1 Y 2 Y N
i 1
n
y i y1 y 2 y n
符号
P A N
1 N
N
大写符号表示总体的标志值, 用小写符号表示样本的标志值
1 n n Ey E yi n i 1 n N 1
Y
i 1
N
i
Y
性质2:
对于有限总体的方差定义 :
2
1 N
Y
i 1
N
i
Y
2
S
2
N
1
Y 1
i 1
N
i
Y
2
性质2:对于简单随机抽样,y 的方差
V y N n Nn S
(1
n N
)
n
简单随机抽样下,简单估计量 估计精度影响因素:
V y 估计量的方差 是衡量估计量精度 的度量。影响估计量方差的因素主要是样本量 n,总体大小N和总体方差S 。
i j
i
(Y
i j
Y )( y j Y )
中的求和是对
n ( n 1) 2 项的,
i
Y ) (Y j Y )
2 中的求和是对 N ( N 1) 项的
V y
1 n
2
1 n
2
1 n 2 E ( y i Y ) 2 E ( y i Y )( y j Y ) i 1 n i j
n
(1
N
N
1 n n n ) (1 ) N N 1 N N N n
i 1
N
Y iY j cov V ( i , j ) ji ) N 1 1
i 1 ji
N
N
Y iY j
N
n N
N
(1
n N
1 n n 1
2
N n 1 2 (1 ) Y N N i 1 i N 1
i 1 N
Y iY j ji
p a n
2
1 N
i 1
N
Yi
Y i 0或 1
N N 1
1
n
n
yi
n
y i 0或 1
y
2
i 1
S
2
Y 1
i 1
i
Y
2
2
s
y n 1
i 1
1
i
Y
R
i 1
N
i
i 1
N
X
i
Y X
Y X
ˆ R
i 1
n
yi xi
y x
三、地位与作用
优点
简单直观 理论基础 N很大时难以获得抽样框 样本分散不易实施,调查费用高
缺点
很少单独使用,一般结合其他方法使用 没有其他信息时使用 多变量复杂数据分析
2.2
简单估计量及其性质
判断下面要估计的总体目标量分别属于什么 类型?
调查城市居民家庭平均用电量。 估计湖中鱼的数量。 测试日光灯的寿命。 估计居民家庭用于做饭菜及饮用的用水量占家庭 总用水量的比重。 估计婴儿出生性别比。 检测食盐中碘含量。
i
n N
(Y
i 1
N
Y)
2
1 n
2
n ( n 1) N (N
(Y 1)
i j
i
Y )( Y j Y )
n 1 N n 1 N 2 2 1 N n 1 2 (Y i Y ) (Y i Y )( Y j Y ) N 1 1 (Y i Y ) N 1 1 (Y i Y ) i i nN i 1 N 1 i j
1,5
2,5
3,5
4,5
5,5
(2)不放回简单随机抽样 (SRS without replacement)
当从总体N个抽样单元中依次抽取n个抽样 单元时,每个被抽中的单元不再放回总体, 而是从总体剩下的单元中进行抽样。 不放回简单随机抽样的样本量要受总体大 小的限制。 在实际工作中,更多的采用不放回简单随 机抽样。
n n 2 E ( y i Y ) N i 1
E ( y i Y )( y i j
j
i 1
N
(Y i Y )
2
n ( n 1) Y ) N ( N 1)
i j
(Y i Y ) (Y j Y )
E ( y
N
ij P(i, j )
( 2 )( n 2 ) (n )
N
n(n 1) N ( N 1)
Mean
Y
N
1
1
N
Yi
y
y n
n
i
1
Y n
i
N
i
i
1 i s = 0 is
随机变量
E (i ) E (i )
2
P (i 1)
【例2.1】
设总体有5个单元(1、2、3、4、5), 按放回简单随机抽样的方式抽取2个单元, 则所有可能的样本为25个(考虑样本单 元的顺序):
1,1 1,2 1,3 1,4 2,1 2,2 2,3 2,4 3,1 3,2 3,3 3,4 4,1 4,2 4,3 4,4 5,1 5,2 5,3 5,4
2.1定义与符号
有 限
简单随机抽样也称为单纯随机抽样。 从含有 N 个单元的总体中抽取 n 个单元组成 样本,如果抽样是不放回的,则所有可能的样 n 本有 C N个,若每个样本被抽中的概率相同,都 n 为 1 C N,这种抽样方法就是简单随机抽样。 具体抽样时,通常是逐个抽取样本单元,直到 抽满n个单元为止。
样本编号 单元1 1 2 3 4 5 6 7 8 9 10 平均 0 0 0 0 1 1 1 3 3 5
S
2
=6.5;给出
单元2
1 3 5 6 3 5 6 5 6 6
样本均值
0.5 1.5 2.5 3 2 3 3.5 4 4.5 5.5 3
方差1.95
y
-Y
样本方差
0.5 4.5 12.5 18 2 8 12.5 2 4.5 0.5 6.5
1 N 1
i 1
N
(Y i Y )
2
N n nN
S
1 f n
S
2
利用无限总体理论
每个特定单位被选入样本的概率:
1 N 1
i =P(i)=
故其定义为:
* 不放回抽样
(1 )( n 1 ) (n )
N
n N
1 (n )
2 N 2
* 每个样本被抽中的概率为
* 每个单位被选入样本的概率
放回简单随机抽样 不放回简单随机抽样
放回简单随机抽样(SRS with replacement)
当从总体N个抽样单元中抽取n个抽样单元时,如果依次抽取单元时, 不管以前是否被抽中过,每次都从N个抽样单元中随机抽取,这时, n 所有可能的样本为 N 个(考虑样本单元的顺序), 1 每个样本被抽中的概率为 N
i 1
n
总体指标值上面带符号“^”的表示由样 本得到的总体指标的估计。 称 n N 为抽样比,记为f 。 V Yˆ 的 估计量的方差用大写的V表示,对 样本估计,不用 Vˆ Yˆ 而用 v Yˆ 表示。
二、抽选方法
1.抽签法 2.随机数法——随机数表、随机数骰子、摇 奖机、计算机产生的伪随机数 随机数表法: N=327 n=5 讨论: (1) 总体编号为1~35,在00~99中产生随机 数,若=00或>35,则抛弃重抽。 (2) 总体编号为1~35,在00~99中产生随机 数,以除以35,余数作为被抽中的数,如果余 数为0,则被抽中的数为35。
一、对总体均值的估计
y 1
n
n
yi
i 1
以样本均值作为总体均值的估计
性质1:对于简单随机抽样, y 是 Y 的无偏估计。
Ey Y
例设总体为{0,1,3,5,6},计算总体均值Y =3、总体方差 n 全部 2 的样本,并验证 E y Y 及 E s 2 S 2 。
2
1 f n
S
2
式中: f
n N
1 f
为抽样比, 为有限总体校正系数。
证明性质2(对称论证法):
V y E y Y
1 n2Fra bibliotek2
2
1 E n
1 n
2
i 1
n
yi Y
2
n E ( y i Y ) i 1
1 n 2 E ( y i Y ) 2 E ( y i Y )( y j Y ) i 1 n i j
y
n
C N 1 Y i nC
i 1 n N
1 N
CN
Y
i 1
N
i
Y
证明 性质1(对称性论证法)
由于每个单元出现在总体所有可能样本 中的次数相同,因此 E y y y 一定是Y Y Y 的倍数,且这个倍数 就是 n N ,
1 2 n
1 2 N
n
n N
N
证明性质2
1
n n n 2 V (i ) E (i ) E (i ) (1 ) N N N N n n 1 E (i j ) p(i 1 & j 1) ( ) N N 1 2
2
n
2
cov(i , j ) E (i j ) E (i ) E ( j )
【例2.2】
设总体有5个单元(1、2、3、4、5), 按不放回简单随机抽样的方式抽取2个单 元,则所有可能的样本为10个:
1,2
1,3 1,4 1,5
2,3
2,4 2,5
3,4
3,5
4,5
符号
Y 1 N
大写符号表示总体的标志值, 用小写符号表示样本的标志值
y 1
i 1
N
Yi
2 N N 1 n 1 n 1 2 1 (Y i Y ) (Y i Y ) nN N 1 i 1 N 1 i 1
1 nN
N n N 1
2
i 1
N
(Y i Y )
2
1 N n n N
n
放回简单随机抽样在每次抽取样本单元时,都将前一次抽取 的样本单元放回总体,因此,总体的结构不变,抽样是相互 独立进行的,这一点是它与不放回简单随机抽样的主要不同 之处。 放回简单随机抽样的样本量不受总体大小的限制,可以是任 意的。
简单随机抽样的抽取原则:
(1)按随机原则取样; (2)每个抽样单元被抽中的概率都是已知 的或事先确定的; (3)每个抽样单元被抽中的概率都是相等 的。
N 2 Yi i 1 N
2 2 (1 ) ( N 1) Y i ( Y i ) n N N ( N 1) i 1 i 1 n 1 (1 ) N n N N ( N 1) 1 n 1 S
2
i 1
N
Y
2
i
2 ( Yi ) i 1 N
-2.5 -1.5 -0.5 0 -1 0 0.5 1 1.5 2.5 0
证明 性质1
对于固定的有限总体,估计量的期望是对所有可能样本求平均得 到的,因此 y y1 y 2 y n
Ey CN
n
nC
n N
总体中每个特定的单元
yi
在不同的样本中出现的次数。 C
第2章 简单随机抽样(SRS)
Simple Random Sampling (SRS) 2.1 2.2 2.3 2.4 2.5 定义及其抽选方法 简单估计量及其性质 样本量的确定 设计效应 比估计与回归估计
抽样方案设计
第一、确定抽样调查的目的、任务和要求; 第二、确定调查对象的范围和抽样单位; 第三、确定抽取样本方法; 第四、对主要抽样指针的精度提出要求;确 定必 要的样本数; 第五、确定总体目标量的估算方法; 第六、制订实施总体方案的办法和步骤。
1 n C N 1 Y i
n 1 i 1 N
n 1 N 1
n
y
1
y n
N!
1
y2 yn
N ( N 1 )!
CN
n ! ( N n )!
n ( n 1)! ( N n )!
N n 1
N n
C N 1
n 1
Ey
Y1 Y 2 Y N N
n
n
yi
y1 y 2 y n n
i 1
Y
Y
i 1
N
i
Y1 Y 2 Y N
i 1
n
y i y1 y 2 y n
符号
P A N
1 N
N
大写符号表示总体的标志值, 用小写符号表示样本的标志值
1 n n Ey E yi n i 1 n N 1
Y
i 1
N
i
Y
性质2:
对于有限总体的方差定义 :
2
1 N
Y
i 1
N
i
Y
2
S
2
N
1
Y 1
i 1
N
i
Y
2
性质2:对于简单随机抽样,y 的方差
V y N n Nn S
(1
n N
)
n
简单随机抽样下,简单估计量 估计精度影响因素:
V y 估计量的方差 是衡量估计量精度 的度量。影响估计量方差的因素主要是样本量 n,总体大小N和总体方差S 。
i j
i
(Y
i j
Y )( y j Y )
中的求和是对
n ( n 1) 2 项的,
i
Y ) (Y j Y )
2 中的求和是对 N ( N 1) 项的
V y
1 n
2
1 n
2
1 n 2 E ( y i Y ) 2 E ( y i Y )( y j Y ) i 1 n i j