抽样技术 人大课件 讲稿2-简单随机抽样
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N − n 2 1− f 2 V (y) = S = S Nn n
证明性质2(对称论证法): 性质2 性质
V ( y ) = E (y − Y )
2
2
1 = E ∑ yi − Y n i =1
n
2
1 n 1 n 1 2 = 2 E ∑ ( y i − Y ) = 2 E ∑ ( y i − Y ) + 2 E ∑ ( y i − Y )( y j − Y ) n i =1 n i =1 n i≠ j
第2章 简单随机抽样(SRS) 章 简单随机抽样( )
Simple Random Sampling (SRS) 2.1 2.2 2.3 2.4 2.5 定义及其抽选方法 简单估计量及其性质 样本量的确定 设计效应 逆抽样
抽样方案设计
第一、确定抽样调查的目的、任务和要求; 第一、确定抽样调查的目的、任务和要求; 目的 第二、确定调查对象的范围和抽样单位 调查对象的范围和抽样单位; 第二、确定调查对象的范围和抽样单位; 第三、确定抽取样本方法 抽取样本方法; 第三、确定抽取样本方法; 第四、对主要抽样指针的精度提出要求; 第四、对主要抽样指针的精度提出要求;确 要的样本数 样本数; 定必 要的样本数; 第五、确定总体目标量的估算方法 估算方法; 第五、确定总体目标量的估算方法; 第六、制订实施总体方案的办法和步骤。 第六、制订实施总体方案的办法和步骤。 实施总体方案的办法和步骤
1 n 1 n E ( y ) = E ∑ yi = n i =1 n N
∑Y
i =1
N
i
=Y
性质2: 性质 :
对于有限总体的方差定义 :
1 σ = N
2
∑ (Y − Y )
N i i =1
2
2 1 N 2 S = ∑ (Yi − Y ) N − 1 i =1
性质2:对于简单随机抽样, 性质 :对于简单随机抽样,y 的方差 式中: 为抽样比, 式中: f = n N 为抽样比, 1 − f 为有限总体校正系数。 为有限总体校正系数。
1,1 , 1,2 , 1,3 , 1,4 , 1,5 , 2,1 , 2,2 , 2,3 , 2,4 , 2,5 , 3,1 , 3,2 , 3,3 , 3,4 , 3,5 , 4,1 , 4,2 , 4,3 , 4,4 , 4,5 , 5,1 , 5,2 , 5,3 , 5,4 , 5,5 ,
(2)不放回简单随机抽样 不放回简单随机抽样 (SRS without replacement)
三、地位与作用
优点
简单直观 理论基础
缺点
N很大时难以获得抽样框 很大时难以获得抽样框 很大时难以获得 样本分散不易实施, 样本分散不易实施,调查费用高
很少单独使用, 很少单独使用,一般结合其他方法使用 没有其他信息时使用 没有其他信息时使用 多变量复杂数据分析
2.2 简单估计量及其性质
判断下面要估计的总体目标量分别属于什么 类型? 类型?
当从总体N个抽样单元中依次抽取 个抽样 当从总体 个抽样单元中依次抽取n个抽样 个抽样单元中依次抽取 单元时,每个被抽中的单元不再放回总体, 单元时 , 每个被抽中的单元不再放回总体 , 而是从总体剩下的单元中进行抽样。 而是从总体剩下的单元中进行抽样。 不放回简单随机抽样的样本量要受总体大 小的限制。 小的限制。 在实际工作中, 在实际工作中,更多的采用不放回简单随 机抽样。 机抽样。
2 2
样本编号 单元1 1 2 3 4 5 6 7 8 9 10 平均 0 0 0 0 1 1 1 3 3 5
单元2 1 3 5 6 3 5 6 5 6 6
样本均值 0.5 1.5 2.5 3 2 3 3.5 4 4.5 5.5 3
方差1.95 方差1.95
y -Y
样本方差 0.5 4.5 12.5 18 2 8 12.5 2 4.5 0.5 6.5
调查城市居民家庭平均用电量。 调查城市居民家庭平均用电量。 估计湖中鱼的数量。 估计湖中鱼的数量。 测试日光灯的寿命。 测试日光灯的寿命。 估计居民家庭用于做饭菜及饮用的用水量占家庭 总用水量的比重。 总用水量的比重。 估计婴儿出生性别比。 估计婴儿出生性别比。 检测食盐中碘含量。 检测食盐中碘含量。
C =
n −1 N −1
∑Y
i =1 n N
N
i
nC
1 = N
∑Y
i =1
N
i
=Y
证明 性质1(对称性论证法) 性质1 对称性论证法)
由于每个单元出现在总体所有可能样本 中的次数相同, 中的次数相同,因此 E ( y1 + y 2 + L + y n ) 的倍数, 一定是Y1 + Y2 + L + YN 的倍数,且这个倍数 就是 n N ,
y
1 1 n −1 N ∑ y = n ∑ ( y1 + y 2 + L + y n ) = n C N −1 ∑ Yi i =1
( N − 1)! N! N N n −1 C = = = C N −1 n!( N − n)! n (n − 1)!( N − n)! n
n N
E( y ) =
∑y
C
n N
n n 2 E ∑ ( y i − Y ) = i =1 N
(Yi − Y ) 2 ∑
i =1
N
n ( n − 1) E ∑ ( y i − Y )( y j − Y ) = ∑j (Yi − Y )(Y j − Y ) i≠ j N ( N − 1) i ≠
【例2.2】 例
设总体有5个单元( 、 、 、 、 ), 设总体有 个单元(1、2、3、4、5), 个单元 按不放回简单随机抽样的方式抽取2个单 按不放回简单随机抽样的方式抽取 个单 则所有可能的样本为10个 元,则所有可能的样本为 个:
1,2 , 1,3 , 1,4 , 1,5 , 2,3 , 2,4 , 2,5 , 3,4 , 3,5 , 4,5 ,
E ∑ ( y i − Y )( y j − Y ) i≠ j
中的求和是对
n(n − 1) 2 项的,
∑ (Y
i≠ j
i
− Y )(Y j − Y )
2 中的求和是对 N ( N − 1) 项的
1 n 1 2 V ( y ) = 2 E ∑ ( y i − Y ) + 2 E ∑ ( y i − Y )( y j − Y ) n i =1 n i≠ j
简单随机抽样的抽取原则: 简单随机抽样的抽取原则:
(1)按随机原则取样; )按随机原则取样; (2)每个抽样单元被抽中的概率都是已知 ) 的或事先确定的; 的或事先确定的; (3)每个抽样单元被抽中的概率都是相等 ) 的。
【例2.1】 例
设总体有5个单元 ( 、 、 、 、 ) 设总体有 个单元( 1、 2、 3、 4、 5) , 个单元 按放回简单随机抽样的方式抽取2个单元 个单元, 按放回简单随机抽样的方式抽取 个单元, 则所有可能的样本为25个 则所有可能的样本为 个( 考虑样本单 元的顺序) 元的顺序):
一、对总体均值的估计
1 n y = ∑ yi n i =1
以样本均值作为总体均值的估计
性质1 对于简单随机抽样, 性质1:对于简单随机抽样, y 是 Y 的无偏估计。 的无偏估计。
E( y ) = Y
例设总体为{0, , , , , 例设总体为 ,1,3,5,6},计算总体均值Y =3、总体方差 σ =5.2和 S =6.5; 、 和 ; n=2 E ( s 2 )。 S 2 = 的样本, 给出全部 的样本,并验证 E ( y及= Y )
有 限
放回简单随机抽样 不放回简单随机抽样
放回简单随机抽样(SRS with replacement) 放回简单随机抽样
当从总体N个抽样单元中抽取 个抽样单元时 如果依次抽取单元时, 当从总体 个抽样单元中抽取n个抽样单元时,如果依次抽取单元时, 个抽样单元中抽取 个抽样单元时, 不管以前是否被抽中过,每次都从N个抽样单元中随机抽取 这时, 个抽样单元中随机抽取, 不管以前是否被抽中过,每次都从 个抽样单元中随机抽取,这时, n 考虑样本单元的顺序), 所有可能的样本为 N 个(考虑样本单元的顺序 考虑样本单元的顺序 1 每个样本被抽中的概率为 N n
()
()
二、抽选方法
1.抽签法 . 随机数法——随机数表、随机数骰子、摇 随机数表、 2.随机数法 随机数表 随机数骰子、 奖机、 奖机、计算机产生的伪随机数 随机数表法 随机数表法: N=327 n=5 = 讨论: 讨论: (1) 总体编号为 ~ 35,在 00~99中产生随机 总体编号为1~ , ~ 中产生随机 数,若=00或>35,则抛弃重抽。 或 ,则抛弃重抽。 (2) 总体编号为 ~35,在00~99中产生随机 总体编号为1~ , ~ 中产生随机 以除以35,余数作为被抽中的数, 数,以除以 ,余数作为被抽中的数,如果余 数为0,则被抽中的数为35。 数为 ,则被抽中的数为 。
1 n 2 2 s = ∑ ( yi − y ) n − 1 i =1
R=
∑Y
i =1 N i =1
N
i
∑X
Y Y = = X X
i
ˆ R=
∑y ∑x
i =1 i =1 n
n
i
y = x
i
总体指标值上面带符号“ 总体指标值上面带符号“^”的表示由样 本得到的总体指标的估计。 本得到的总体指标的估计。 为抽样比,记为f 称 n N 为抽样比,记为f 。 ˆ V (Y ) 的 估计量的方差用大写的V表示, 估计量的方差用大写的V表示,对 ˆ ˆ ˆ 表示。 样本估计, 样本估计,不用 V Y 而用 v Y 表示。
i =1
∑y
i =1
n
பைடு நூலகம்
i
= y1 + y 2 + L + y n
符号
A 1 P= = N N
N 2
大写符号表示总体的标志值, 大写符号表示总体的标志值, 用小写符号表示样本的标志值
∑ Yi
i =1
N
Yi = 0或1
a 1 n p = = ∑ yi n n i =1
y i = 0或1
1 N 2 (Yi − Y ) = S = σ2 ∑ N − 1 i =1 N −1
1 n = 2 n N 1 n(n − 1) ∑ (Yi − Y ) + n 2 N ( N − 1) ∑ (Yi − Y )(Y j − Y ) i =1 i≠ j
放回简单随机抽样在每次抽取样本单元时, 放回简单随机抽样在每次抽取样本单元时 , 都将前一次抽取 的样本单元放回总体,因此,总体的结构不变,抽样是相互 的样本单元放回总体 , 因此 , 总体的结构不变 , 抽样是相互 独立进行的 进行的, 独立 进行的 , 这一点是它与不放回简单随机抽样的主要不同 之处。 之处。 放回简单随机抽样的样本量不受总体大小的限制,可以是任 放回简单随机抽样的样本量不受总体大小的限制, 意的。 意的。
2.1定义与符号 定义与符号
简单随机抽样也称为单纯随机抽样。 简单随机抽样也称为单纯随机抽样。 从含有 N 个单元的总体中抽取 n 个单元组成 样本,如果抽样是不放回的, 样本,如果抽样是不放回的,则所有可能的样 n 若每个样本被抽中的概率相同, 本有 CN个,若每个样本被抽中的概率相同,都 n 这种抽样方法就是简单随机抽样。 为 1 C N,这种抽样方法就是简单随机抽样。 具体抽样时,通常是逐个抽取样本单元, 具体抽样时,通常是逐个抽取样本单元,直到 抽满n个单元为止。 抽满n个单元为止。
符号
1 Y = N
N
N
大写符号表示总体的标志值, 大写符号表示总体的标志值, 用小写符号表示样本的标志值
y1 + y 2 + L + y n 1 n y = ∑ yi = n i =1 n
Y1 + Y2 + L + YN ∑ Yi = N i =1
Y = ∑ Yi = Y1 + Y2 + L + YN
-2.5 -1.5 -0.5 0 -1 0 0.5 1 1.5 2.5 0
性质1 证明 性质1
对于固定的有限总体, 对于固定的有限总体,估计量的期望是对所有可能样本求平均得 到的, 到的,因此 ∑ y = ∑ ( y1 + y 2 + L + y n ) E(y ) = n n CN nC N 在不同的样本中出现的次数。 总体中每个特定的单元 在不同的样本中出现的次数。 n −1 C N −1 i
证明性质2(对称论证法): 性质2 性质
V ( y ) = E (y − Y )
2
2
1 = E ∑ yi − Y n i =1
n
2
1 n 1 n 1 2 = 2 E ∑ ( y i − Y ) = 2 E ∑ ( y i − Y ) + 2 E ∑ ( y i − Y )( y j − Y ) n i =1 n i =1 n i≠ j
第2章 简单随机抽样(SRS) 章 简单随机抽样( )
Simple Random Sampling (SRS) 2.1 2.2 2.3 2.4 2.5 定义及其抽选方法 简单估计量及其性质 样本量的确定 设计效应 逆抽样
抽样方案设计
第一、确定抽样调查的目的、任务和要求; 第一、确定抽样调查的目的、任务和要求; 目的 第二、确定调查对象的范围和抽样单位 调查对象的范围和抽样单位; 第二、确定调查对象的范围和抽样单位; 第三、确定抽取样本方法 抽取样本方法; 第三、确定抽取样本方法; 第四、对主要抽样指针的精度提出要求; 第四、对主要抽样指针的精度提出要求;确 要的样本数 样本数; 定必 要的样本数; 第五、确定总体目标量的估算方法 估算方法; 第五、确定总体目标量的估算方法; 第六、制订实施总体方案的办法和步骤。 第六、制订实施总体方案的办法和步骤。 实施总体方案的办法和步骤
1 n 1 n E ( y ) = E ∑ yi = n i =1 n N
∑Y
i =1
N
i
=Y
性质2: 性质 :
对于有限总体的方差定义 :
1 σ = N
2
∑ (Y − Y )
N i i =1
2
2 1 N 2 S = ∑ (Yi − Y ) N − 1 i =1
性质2:对于简单随机抽样, 性质 :对于简单随机抽样,y 的方差 式中: 为抽样比, 式中: f = n N 为抽样比, 1 − f 为有限总体校正系数。 为有限总体校正系数。
1,1 , 1,2 , 1,3 , 1,4 , 1,5 , 2,1 , 2,2 , 2,3 , 2,4 , 2,5 , 3,1 , 3,2 , 3,3 , 3,4 , 3,5 , 4,1 , 4,2 , 4,3 , 4,4 , 4,5 , 5,1 , 5,2 , 5,3 , 5,4 , 5,5 ,
(2)不放回简单随机抽样 不放回简单随机抽样 (SRS without replacement)
三、地位与作用
优点
简单直观 理论基础
缺点
N很大时难以获得抽样框 很大时难以获得抽样框 很大时难以获得 样本分散不易实施, 样本分散不易实施,调查费用高
很少单独使用, 很少单独使用,一般结合其他方法使用 没有其他信息时使用 没有其他信息时使用 多变量复杂数据分析
2.2 简单估计量及其性质
判断下面要估计的总体目标量分别属于什么 类型? 类型?
当从总体N个抽样单元中依次抽取 个抽样 当从总体 个抽样单元中依次抽取n个抽样 个抽样单元中依次抽取 单元时,每个被抽中的单元不再放回总体, 单元时 , 每个被抽中的单元不再放回总体 , 而是从总体剩下的单元中进行抽样。 而是从总体剩下的单元中进行抽样。 不放回简单随机抽样的样本量要受总体大 小的限制。 小的限制。 在实际工作中, 在实际工作中,更多的采用不放回简单随 机抽样。 机抽样。
2 2
样本编号 单元1 1 2 3 4 5 6 7 8 9 10 平均 0 0 0 0 1 1 1 3 3 5
单元2 1 3 5 6 3 5 6 5 6 6
样本均值 0.5 1.5 2.5 3 2 3 3.5 4 4.5 5.5 3
方差1.95 方差1.95
y -Y
样本方差 0.5 4.5 12.5 18 2 8 12.5 2 4.5 0.5 6.5
调查城市居民家庭平均用电量。 调查城市居民家庭平均用电量。 估计湖中鱼的数量。 估计湖中鱼的数量。 测试日光灯的寿命。 测试日光灯的寿命。 估计居民家庭用于做饭菜及饮用的用水量占家庭 总用水量的比重。 总用水量的比重。 估计婴儿出生性别比。 估计婴儿出生性别比。 检测食盐中碘含量。 检测食盐中碘含量。
C =
n −1 N −1
∑Y
i =1 n N
N
i
nC
1 = N
∑Y
i =1
N
i
=Y
证明 性质1(对称性论证法) 性质1 对称性论证法)
由于每个单元出现在总体所有可能样本 中的次数相同, 中的次数相同,因此 E ( y1 + y 2 + L + y n ) 的倍数, 一定是Y1 + Y2 + L + YN 的倍数,且这个倍数 就是 n N ,
y
1 1 n −1 N ∑ y = n ∑ ( y1 + y 2 + L + y n ) = n C N −1 ∑ Yi i =1
( N − 1)! N! N N n −1 C = = = C N −1 n!( N − n)! n (n − 1)!( N − n)! n
n N
E( y ) =
∑y
C
n N
n n 2 E ∑ ( y i − Y ) = i =1 N
(Yi − Y ) 2 ∑
i =1
N
n ( n − 1) E ∑ ( y i − Y )( y j − Y ) = ∑j (Yi − Y )(Y j − Y ) i≠ j N ( N − 1) i ≠
【例2.2】 例
设总体有5个单元( 、 、 、 、 ), 设总体有 个单元(1、2、3、4、5), 个单元 按不放回简单随机抽样的方式抽取2个单 按不放回简单随机抽样的方式抽取 个单 则所有可能的样本为10个 元,则所有可能的样本为 个:
1,2 , 1,3 , 1,4 , 1,5 , 2,3 , 2,4 , 2,5 , 3,4 , 3,5 , 4,5 ,
E ∑ ( y i − Y )( y j − Y ) i≠ j
中的求和是对
n(n − 1) 2 项的,
∑ (Y
i≠ j
i
− Y )(Y j − Y )
2 中的求和是对 N ( N − 1) 项的
1 n 1 2 V ( y ) = 2 E ∑ ( y i − Y ) + 2 E ∑ ( y i − Y )( y j − Y ) n i =1 n i≠ j
简单随机抽样的抽取原则: 简单随机抽样的抽取原则:
(1)按随机原则取样; )按随机原则取样; (2)每个抽样单元被抽中的概率都是已知 ) 的或事先确定的; 的或事先确定的; (3)每个抽样单元被抽中的概率都是相等 ) 的。
【例2.1】 例
设总体有5个单元 ( 、 、 、 、 ) 设总体有 个单元( 1、 2、 3、 4、 5) , 个单元 按放回简单随机抽样的方式抽取2个单元 个单元, 按放回简单随机抽样的方式抽取 个单元, 则所有可能的样本为25个 则所有可能的样本为 个( 考虑样本单 元的顺序) 元的顺序):
一、对总体均值的估计
1 n y = ∑ yi n i =1
以样本均值作为总体均值的估计
性质1 对于简单随机抽样, 性质1:对于简单随机抽样, y 是 Y 的无偏估计。 的无偏估计。
E( y ) = Y
例设总体为{0, , , , , 例设总体为 ,1,3,5,6},计算总体均值Y =3、总体方差 σ =5.2和 S =6.5; 、 和 ; n=2 E ( s 2 )。 S 2 = 的样本, 给出全部 的样本,并验证 E ( y及= Y )
有 限
放回简单随机抽样 不放回简单随机抽样
放回简单随机抽样(SRS with replacement) 放回简单随机抽样
当从总体N个抽样单元中抽取 个抽样单元时 如果依次抽取单元时, 当从总体 个抽样单元中抽取n个抽样单元时,如果依次抽取单元时, 个抽样单元中抽取 个抽样单元时, 不管以前是否被抽中过,每次都从N个抽样单元中随机抽取 这时, 个抽样单元中随机抽取, 不管以前是否被抽中过,每次都从 个抽样单元中随机抽取,这时, n 考虑样本单元的顺序), 所有可能的样本为 N 个(考虑样本单元的顺序 考虑样本单元的顺序 1 每个样本被抽中的概率为 N n
()
()
二、抽选方法
1.抽签法 . 随机数法——随机数表、随机数骰子、摇 随机数表、 2.随机数法 随机数表 随机数骰子、 奖机、 奖机、计算机产生的伪随机数 随机数表法 随机数表法: N=327 n=5 = 讨论: 讨论: (1) 总体编号为 ~ 35,在 00~99中产生随机 总体编号为1~ , ~ 中产生随机 数,若=00或>35,则抛弃重抽。 或 ,则抛弃重抽。 (2) 总体编号为 ~35,在00~99中产生随机 总体编号为1~ , ~ 中产生随机 以除以35,余数作为被抽中的数, 数,以除以 ,余数作为被抽中的数,如果余 数为0,则被抽中的数为35。 数为 ,则被抽中的数为 。
1 n 2 2 s = ∑ ( yi − y ) n − 1 i =1
R=
∑Y
i =1 N i =1
N
i
∑X
Y Y = = X X
i
ˆ R=
∑y ∑x
i =1 i =1 n
n
i
y = x
i
总体指标值上面带符号“ 总体指标值上面带符号“^”的表示由样 本得到的总体指标的估计。 本得到的总体指标的估计。 为抽样比,记为f 称 n N 为抽样比,记为f 。 ˆ V (Y ) 的 估计量的方差用大写的V表示, 估计量的方差用大写的V表示,对 ˆ ˆ ˆ 表示。 样本估计, 样本估计,不用 V Y 而用 v Y 表示。
i =1
∑y
i =1
n
பைடு நூலகம்
i
= y1 + y 2 + L + y n
符号
A 1 P= = N N
N 2
大写符号表示总体的标志值, 大写符号表示总体的标志值, 用小写符号表示样本的标志值
∑ Yi
i =1
N
Yi = 0或1
a 1 n p = = ∑ yi n n i =1
y i = 0或1
1 N 2 (Yi − Y ) = S = σ2 ∑ N − 1 i =1 N −1
1 n = 2 n N 1 n(n − 1) ∑ (Yi − Y ) + n 2 N ( N − 1) ∑ (Yi − Y )(Y j − Y ) i =1 i≠ j
放回简单随机抽样在每次抽取样本单元时, 放回简单随机抽样在每次抽取样本单元时 , 都将前一次抽取 的样本单元放回总体,因此,总体的结构不变,抽样是相互 的样本单元放回总体 , 因此 , 总体的结构不变 , 抽样是相互 独立进行的 进行的, 独立 进行的 , 这一点是它与不放回简单随机抽样的主要不同 之处。 之处。 放回简单随机抽样的样本量不受总体大小的限制,可以是任 放回简单随机抽样的样本量不受总体大小的限制, 意的。 意的。
2.1定义与符号 定义与符号
简单随机抽样也称为单纯随机抽样。 简单随机抽样也称为单纯随机抽样。 从含有 N 个单元的总体中抽取 n 个单元组成 样本,如果抽样是不放回的, 样本,如果抽样是不放回的,则所有可能的样 n 若每个样本被抽中的概率相同, 本有 CN个,若每个样本被抽中的概率相同,都 n 这种抽样方法就是简单随机抽样。 为 1 C N,这种抽样方法就是简单随机抽样。 具体抽样时,通常是逐个抽取样本单元, 具体抽样时,通常是逐个抽取样本单元,直到 抽满n个单元为止。 抽满n个单元为止。
符号
1 Y = N
N
N
大写符号表示总体的标志值, 大写符号表示总体的标志值, 用小写符号表示样本的标志值
y1 + y 2 + L + y n 1 n y = ∑ yi = n i =1 n
Y1 + Y2 + L + YN ∑ Yi = N i =1
Y = ∑ Yi = Y1 + Y2 + L + YN
-2.5 -1.5 -0.5 0 -1 0 0.5 1 1.5 2.5 0
性质1 证明 性质1
对于固定的有限总体, 对于固定的有限总体,估计量的期望是对所有可能样本求平均得 到的, 到的,因此 ∑ y = ∑ ( y1 + y 2 + L + y n ) E(y ) = n n CN nC N 在不同的样本中出现的次数。 总体中每个特定的单元 在不同的样本中出现的次数。 n −1 C N −1 i