第四章 抽样分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t分布的密度函数曲线的特点:
(1) t分布受自由度df的制约,每一个自 由度对应一条密度函数曲线;
(2)关于t 0对称;
(3)形状同标准正态曲线类似。与标准正态曲线相比, t分布曲线的顶部略低,两尾部稍高而平。df越小,这种 趋势越明显。n 时,t分布与标准正态分布完全一致。
(4) t分布的平均数和标准差为t 0, t df /(df 2)
s12 / 12 s / s 是一个随机变量,在研究它的分布前,一般先标准化 2 2 , s2 / 2
2 1 2 2
它服从自由度分别为n1 1和n2 1的分布,记为Fn1 1,n2 1
定理:
2 s1 / 12 ~ Fn1 1, n2 1 2 2 s2 / 2
F分布的取值范围是(0, ) .
卡方分布的单侧、双侧临界值
2
2 附表6给出了卡方分布的的上侧临界值 :
的下侧临界值,记为 ,只要查出 1 的上侧临界值即可。
2 1-
12-
2 的双侧临界值记为 / 2和12 / 2, -
按单侧临界值的求法求。
/2
12 / 2
2 / 2
y
(2) 该抽样分布的方差与母总体方差间存在如下关系:
2 y 2 n 相应地, y n
其中n为样本容量。抽样分布的标准差又称为
标准误,它可以度量抽样分布的变异。
假定用一个很小的总体 N=3,其观察值为2、
2 (n1 1 s12 (n2 1) s 2 ) (n1 1) (n2 1)
1 1 n n 2 1
~ t n1 n2 2
~ t 2n2
当n1 n2 n时,简化为
y 1 y 2 ( 1 2 ) s s n
2 1 2 2
解:(a)记男子的体重为Y
P (100 Y 165 ) P( 100 Y 165
)
100 172 165 172 P( U ) 29 29 P ( 2.48 U 0.24 ) 0.4052 0.0066 0.3986
1
df 1 2
, 其中( p )
0
y p 1e y dy,
t的取值范围是( , );df n 1为自由度。
自由度(degree of freedom)
独立观测值的个数或者计算某一统计量时,取值不
受限制的变量的个数。
任何统计量的自由度都是n减去限制条件的个数。
3、以n为除数的样本方差 s 偏估计值。
2 不是σ2的无 0
4、s不是σ的无偏估计值。 再以样本容量n=4,n=8从上述总体中抽样,
并将抽出的全部样本列表
同样,可算得n=4时:
_
y
f y 324 4 f 81
_
2
_
y
8 f (y _ ) 2 54 2 3 y 81 3 4 n f
y1、y2、 、ym 等。
如果将抽样所得到的所有可能的样本平均数 集合起来便构成一个新的总体,平均数就成 为这个新总体的变量。
由于每次随机抽样所得的平均数可能会存在
差异,所以由平均数构成的新总体也应该有
其分布,由平均数构成的新总体的分布,称
为平均数的抽样分布。
新总体与母总体在特征参数上存在函数关系。以平均 数抽样分布为例,这种关系可表示为以下两个方面。 (1) 该抽样分布的平均数 y 与母总体平均数相等。
t分布的单侧、双侧临界值
求法与标准正态分布类似,只是多了个参数df:
附表4a给出了t分布的上侧临界值 t :
下侧临界值: t 双侧临界值:t (双侧)=t / 2
t
例二,求df=15时,α =0.05的上侧临界值,下侧临界值和双 侧临界值。
解:查表4a得到,上侧临界值t0.05 1.753; 下侧临界值 t0.05 1.753; 双侧临界值t0.05 (双侧) t0.05 / 2 t0.025 2.131
查表
二、样本方差的分布
从方差为 2的正态总体中,随机抽取含量为n的样本,样本方差 s 2是一个随机变量,其数值随样本的不同而不同。
样本方差的分布:
2 先标准化样本方差得到一个无单位的纯数,记为 n 1,即
=
2 n 1
(n 1) s 2
2
,
它服从自由度为n 1的 2 分布(读作:卡方分布)。
2 假定有两个正态总体,分别是N ( 1 , 12 )和N ( 2 , 2 )。从第一个
总体随机抽取容量为n1的样本,并独立地从第二个总体中抽取
2 容量为n2的样本。y1 , y 2 分别代表两个样本的平均数,s12 和s 2 分别
代表两个样本的标准差。
定理:y1 y 2是一个随机变量,它的分布是一个正态分布,即
卡方分布的密度函数曲线为: f (y ) K (y )
2 2 df / 2 1
e
y2 / 2
, y 2 0。
卡方分布的密度函数曲线的特点:
(1) 2分布受自由度的约束, 每一个自由度对应一条密度曲线;
(2)不对称。但随着自由度的增大, 曲线由偏斜渐趋于对称;
(3)df 30时,卡方分布密度曲线的形状 非常接近于正态分布曲线。
6
6
总 和
6
6
12
72
6
36
0
12
0
24
0.0000
11.3136
从表中我们可以算出样本平均数 y 的平均数:
_
y
Nn
_
y
36 4 9
以自由度为除数的样本方差的平均数:
s
2
s2 Nn
24 8 2 9 3
以样本容量为除数的样本方差的平均数:
s
2 0
2 s0
2
n
)
因此,在已知的情况下,y的概率分布是N ( ,
2
n
)。
y 换句话说,标准化后, U 服从标准正态分布。 / n
例一,假设男子的体重服从正态分布,其平均值=172 磅,标准差
=29磅。
(a)如果随机选择一名男子,求该男子体重在 磅到165磅之间的概率; 100 (b)如果81名男子被随机抽取组成样本,求样本平均值在 磅到165磅 100 之间的概率。
y 1 y 2 ~ N ( 1 2 ,
将y1 y 2 标准化:
12
n1
2 2
n2
)
y 1 y 2 ( 1 2 )
2 1
n1
2 2
~ N (0,1)
n2
2.总体标准差 σi未知但相等时,两个样本平 均数的和与差的分布
1和 2未知时,考虑以样本标准差s1和s2代替:
2 总体标准差σ未知时的平均数的分布
当已知时,y ~ N ( , 2 / n), 即 y
/ n
~ N (0,1)。
如果未知,以样本标准差s替代,得到新的统计量 y s/ n 记为t。
t y s/ n
f (t )
,
不再服从正态分布,而是服从t分布 ,它的密度函数为
[( df 1) / 2] (1 t 2 / df ) ( df / 2) df
注意:总体标准差 σi未知且不相等时,两 但自由度的计算较为复杂。具体请参考
有关统计学书籍。
个样本平均数的和与差的分布仍为t分布,
3. 两个样本方差比的分布-F分布
2 从N ( 1 , 12 )和N ( 2 , 2 )两个正态总体中,抽出含量为n1和n2的样本, 2 分别求它们的方差s12和s2。
F分布的密度函数曲线的特点:
体,那么可以得到
无限多个随机样本。
随机样本1 2 3
……
无穷个样本
图4.1 总体和样本的关系示意图
如果从容量为N的有限总体抽样,若每次抽取容量
为n的样本,那么一共可以得到Nn 个样本(所有可
能的样本个数)。
抽样所得到的每一个样本可以计算一个平均数, 全部可能的样本都被抽取后可以得到许多平均数, 如
2
_
当n=8时:
_
y
f y f
_ 2
_
26244 4 6561
2
_
y
8 f (y _ ) 2187 1 3 2 y 6561 3 8 n f
抽样误差的概念: 抽样误差的度量:
y
2 y
2
n
n
y 称为标准误(standarderror, )。 SE
4、6以样本容量n=2从中进行抽样。
首先计算出总体参数:μ=(2+4+6)/3=4
σ2=〔(2-4)2+(4-4)2+(6-4)2〕/3=8/3
所有可能的样本数=Nn=32=9
总体N=3,样本容量n=2时所有样本的总和数、平均数和方差表
第一个 观察值 2 第二个 观察值 2 2 样本 2 ∑(y) 4
y的概率分布
定理: (该定理也称中心极限定理)
( )如果原总体是正态总体N ( , 2 ),那么样本平均数y的概率 1 分布也是正态分布,且有 y , y y ~ N ( ,
n
,即
2
n
)
(2)如果原总体服从平均数是,方差是 2的分布(不必是 正态分布),则样本平均数y的概率分布在样本容量n相当大 时(n 30)非常逼近正态分布,即有 y ~ N ( ,
第四章 抽样分布
第一节 从一个正态总体中抽取的样本统计量的分布
第二节 从两个正态总体中抽取的样本统计量的分布
一、样本平均数的分布
1 总体标准差σ已知时的平均数的分布 2 总体标准差σ未知时的平均数的分布
二、样本方差的分布
1、总体标准差σ已知时的平均数分布
总体
如图4.1从一个 总体进行随机抽样 可以得到许多样本, 如果总体是无限总
2 0.975
查表
6.262
第二节 从两个正态总体中抽取的样 本统计量的分布
1. 总体标准差 σi已知时,两个样本平均数的和与差的分布 2. 总体标准差 σi未知但相等时,两个样本平均数的和与差 的分布
3. 两个样本方差比的分布-F分布
1.总体标准差 σi已知时,两个样本平均数的和 与差的分布
/2
例三,求卡方分布在df 15, 0.05时的上侧临界值、来自百度文库下侧临界值和双侧临界值。
查表
解:上侧临界值
2 0.05
24.996;
下侧临界值:
2 10.05
2 0.95
查表
7.261;
双侧临界值:
2 0.05 / 2
2 0.025
查表
27.488,
2 1 0.05 / 2
(b)记81名男子的平均体重为y, 根据y的概率分布得
y 172 ,
y
n
29 81
3 .2
y ~ N (172 , 3.2 2 )
P (100 y 165 ) P( 100 y
y
y y
y
165 y
y
)
100 172 165 172 P( U ) 3 .2 3 .2 P ( 22 .5 U 2.19 ) 0.0143 0.00001 0.0143
y1 y 2 ( 1 2 )
2 2 1 2 2
y1 y 2 ( 1 2 ) 1 1 n1 n2
2
12
n1
2 2
n2
定理:
2 2 以s1 和s2的加权平均 替代未知的 2
y1 y 2 ( 1 2 )
Nn
12 4 2 9 3
样本标准差s的平均数:
s 11.3136 1.257 s n 9 N
在统计上,如果所有可能样本的某一统计数等于
总体的相应参数,则称该统计数为总体相应参数
的无偏估计值(unbiased estimate)
_
1、y 是μ的无偏估计值。
2、s2是σ2的无偏估计值。
_
y
2
s s
22 00
2 s0s2
s 0.0000
0
0
2
2 4 4 4 6 6
4
6 2 4 6 2 4
2
2 4 4 4 6 6
4
6 2 4 6 2 4
6
8 6 8 10 8 10
3
4 3 4 5 4 5
1
4 1 0 1 4 1
2
8 2 0 2 8 2
1.4142
2.8284 1.4142 0.0000 1.4142 2.8284 1.4142