第2章-简单随机抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y 推论 2.4:对于简单随机抽样, 为: 2 1 f 2
Ny
的方差
V (Y ) N
n
S
推论 2.5:对于简单随机抽样, P p 的方差 为: 1 f 1
V ( P) n N 1 NP (1 P )
推论 2.6:对于简单随机抽样,当n较大时, R 的方差为:
1 1 f 1 N 2 V ( R) 2 ( Y RX ) i i X n N 1 i1
i 1 i 1 n
n
总体指标值 上面带符号 “^”的表 示由样本得 到的总体指 标的估计。
i
y x
i
2.2 简单估计量及其性质
引理 2.1:从大小为N的总体中抽取一个样本量为n的 简单随机样本,则总体中每个特定单元入样的概率为 n/N,两个特定单元都入样的概率为: n n 1
N N 1
是总体协方差
S yx
的无偏估计。
2.3 比率估计量及其性质
主要变量 Y 与Y有关的辅助变量 X
辅助变量必须与主要变量高度相关 辅助变量与主要变量之间的相关关系整体上相当 稳定 辅助变量的总体总值或总体均值必须是已知的, 或是容易获得的 辅助变量的信息质量更好,或信息更容易取得即 调查成本更低。 比率估计量一般用来估计主要 变量的总体总值和总体均值
序号
i
1 4
2 5
3 2
4 0
5 4
6 6
7 6
8 15
9 0
10 8
yi
1 n 50 y yi 5 n i 1 10
1 n 172 2 s ( y y ) 19.1111 i n 1 i 1 9
2
ˆ Y y 5
1 f 2 1 0.1 v y s 19.1111 1.72 n 10
i 1
y
i 1
i
A 1 P N N
2
Y
i 1
N
i
Yi 0或1
a 1 n p yi n n i 1
2
yi 0或1
2 1 N S Yi Y N 1 i 1
1 n yi y 2 s n 1 i 1
R
Y
i 1 N i 1
符号
1 Y N
N N
大写符号表示总体的标志值, 用小写符号表示样本的标志值
样
y
n
总 体
Y Y2 YN Yi 1 N i 1
本
y y2 yn 1 n yi 1 n i 1 n y1 y 2 y n
Y Yi Y1 Y2 YN
(i, j 1, 2,...., N ; i j )
定理 2.1:对于简单随机抽样,作为 Y 的简单估计, Y y 是无偏的,即
E (Y ) E y Y
始终成立。
Y 推论 2.1:对于简单随机抽样, 为: E (Y ) E Ny NY Y
Ny
引理2.4 :对于简单随机抽样, n较大时, Rr 的方差为: V ( R) V (r ) 1 1 f 1 N (Y RX )2 i i 2
X
n
N 1 i1
YR NyR 定理 2.7:对于简单随机抽样,n较大时, 的方差为:
1 f 1 N 2 V (YR ) N ( Y RX ) i i n N 1 i1
是 V (Y ) 的无偏估计。
推论 2.9:对于简单随机抽样,
1 f 2 1 f V ( P) v( p) v( y01 ) sp p(1 p) n n 1
推论 2.10:对于简单随机抽样,当n较大时, 有
1 1 f 1 n 2 V ( R) v(r ) 2 yi rxi x n n 1 i1
2.4 回归估计量及其性质
引理2.2 从总体规模为N的总体中抽取一个样本量为n 的简单随机样本,若对总体中的每个单元 Yi ,引进 ai 1 ; Yi 不入样, ai 0 ),则 随机变量 a i(Yi 入样,
n f (i 1, 2,...., N ) N n N n V (ai ) f (1 f ) (i 1, 2,...., N ) N N n n f (1 f ) cov(ai , a j ) (1 ) N ( N 1) N N 1 E (ai )
S yx YX
Y与X的相对协方差
2 S Cx2 x2 X
X的相对方差(变异系数)
1 1 f 2 2 ˆ V ( R ) V (r ) 2 ( S 2 RSS x R 2 S x ) X n 1 f 2 2 ˆ V ( yR ) V ( XR) ( S 2 RSS x R 2 S x ) n 1 f 2 2 V (YR ) N ( S 2 RSS x R 2 S x ) n
引理 2.3:对于简单随机抽样,n较大时, R r 的期望为:
E ( R) E r R
(1) R 不是无偏的; (2)但在某种条件下,R 是近似无偏的。
定理 2.6:对于简单随机抽样,n较大时,YR yR 的期望为: E ( y ) XR Y
R
推论 2.11:对于简单随机抽样, n较大时, YR NyR 的期望为: E (YR ) NXR NY Y
定理 2.4:简单随机抽样的方差
n 1 2 2 s yi y n 1 i1
2 S 是总体方差 的无偏估计。
推论 2.7:对于简单随机抽样,
V (Y ) v( y ) 1 f 2 s n
是 V ( y ) 的无偏估计。
推论 2.8:
V (Y ) v( Ny ) N 2 (1 f ) 2 s n
【例2.4】
在20世纪90年代初的一项工资研究中,人们发现IT行 业中,从业者的现薪与起薪之间相关系数 高达0.88, 已知某IT企业474名员工的平均起薪为17016.00/年, 现根据对100个简单随机抽样方式选出的员工现薪的调 查结果,估计该企业员工的现薪平均水平。
【例2.5】
根据例【2.4】的数据和结果,比较两种思路下对应的 方差估计结果。
2
比率估计量的方差估计
1 f 2 ˆ R ˆ 2s2 ) v1 ( yR ) ( s 2Rs xy x n X 2 1 f 2 ˆ R ˆ 2s2 ) v2 ( yR ) 2 ( s 2Rs xy x x n
1 f 2 ˆ R ˆ 2s2 ) ( s 2 Rs xy x n 2 X 1 f 2 ˆ R ˆ 2s2 ) v2 (YR ) N 2 2 (s 2Rs xy x x n v1 (YR ) N 2
第2章 简单随机抽样(SRS)
2.1概述
抽样总体
样本容量
简单随机抽样也称为纯随机抽样。 从含有 N 个单元的总体中抽取 n 个单元组成 样本,如果抽样是不放回的,则所有可能的样 本有 C 个,若每个样本被抽中的概率相同,都 为 1 C ,这种抽样方法就是简单随机抽样。 称 n N 为抽样比,记为 f 。
NBaidu Nhomakorabea
i
X
Y Y X X
i
r
y x
i 1 i 1 n
n
i
y x
i
简单估计量
y y2 1 n Y y yi 1 n i1 n yn
N Y Ny n
y
i 1
n
i
a 1 n P p yi y Y n n i1
ˆ R
y x
大样本下,抽样调查样本均值的估计量近似服 从正态分布,
y Y ~ N (0,1) v( y )
P(
Y y v( y )
Z / 2 ) 1
Y y Z v ( y ), y Z v ( y ) / 2 / 2
【例2.3】
我们从某个N=100的总体中抽出一个大小 为n=10的简单随机样本,请估计总体平 均水平,并给出置信度为95%的区间估计。
定义2.1 从总体的N个单元中,一次整批抽取n个单元 ,使任何一个单元被抽中的概率都相等,任何n个不同 单元组成的组合被抽中的概率也都相等,这种抽样称为 简单随机抽样。 定义2.2 从总体的N个单元中,逐个不放回地抽取单元 ,每次抽取到尚未入样的任何一个单元的概率都相等, 直到抽足n个单元为止,这样所得的n个单元组成一个简 单随机样本。 定义2.3 按照从总体的N个单元中抽取n个单元的所有 n n 可能不同的组合构造所有可能的 CN 个样本,从 CN 个样 本随机抽取1个样本,使每个样本被抽到的概率都等于 n , 这种抽样称为简单随机抽样。 1 CN
协方差定义:cov( y , x ) E y E ( y ) x E ( x )
定理 2.3:对于简单随机抽样,有
1 f cov( y , x ) S yx n
1 N 式中, S yx N 1 Yi Y X i X i 1
为总体协方差。
定理2.2:对于简单随机抽样,y 的方差
1 f 2 V y S n
评价调查成功 与否的重要指标
其中, 1 f 称为有限总体校正系数。(未入样率)
估计量的方差 V y 是衡量估计量精度的 度量。影响估计量方差的因素主要是样本量n, 未入样率 1-f和总体方差 。 S2
在简单随机抽样的条件下,只有通过加大 样本量来提高估计量的精度。
的期望
推论 2.2:对于简单随机抽样, P p 的期望 为:
E ( P) E p P
推论 2.3:对于简单随机抽样,n较大时, Rr 的期望为:
E ( R) E r R
对于有限总体的方差定义 :
1 2 N
Y Y
i i 1
N
2
2 1 N S Yi Y N 1 i1 2
1, 1 1, 2 1, 3 1, 4 1, 5 2, 1 2, 2 2, 3 2, 4 2, 5 3, 1 3, 2 3, 3 3, 4 3, 5 4, 1 4, 2 4, 3 4, 4 4, 5 5, 1 5, 2 5, 3 5, 4 5, 5
简单随机抽样的抽取规则
(1)按随机原则取样; (2)每个抽样单元被抽中的概率都是已知 的或事先确定的; (3)每个抽样单元被抽中的概率都是相等 的。(等概随机抽样)
比率估计、回归估计需要有足够的样本量才能 保证估计的有效性。
有偏估计:当样本量足够大时,估计的偏倚趋于0。
符号定义
总体均值的比率估计量:
y 1 YR yR X XR x N
总体总值的比率估计量:
YR NYR NyR X y XR x
R 属于简单估计量,不属于比率估计量。
n N
n N
【例2.1】
设总体有5个单元(1、2、3、4、5), 按不放回简单随机抽样的方式抽取2个单 元,则所有可能的样本为10个:
1, 2
1, 3 1, 4 1, 5
2, 3
2, 4 2, 5
3, 4
3, 5
4, 5
【例2.2】
设总体有5个单元(1、2、3、4、5),按放回 简单随机抽样的方式抽取 2 个单元,则所有可 能的样本为25个(考虑样本单元的顺序):
v y 1.3115
由置信度95%对应的 z 1.96,因此,可以 以95%的把握说总体平均水平大约在 5 1.96 1.3115 之间,即 2.4295 和 7.5705 之间。
/2
定理 2.5:简单随机抽样的协方差
1 n s yx yi y xi x n 1 i1
2
推论 2.12:对于简单随机抽样,n较大时, YR yR 的方差为:
1 f 1 N 2 V ( yR ) ( Y RX ) i i n N 1 i1
设:
S yx SS x
是Y和X的总体相关系数 Y的相对方差(变异系数)
SS x YX
2 S C2 2 Y
C yx