5-4三大抽样分布
chapter5 抽样分布.
2分布表及有关计算
(1)构成 P{2(n)<λ}=p,已知n,p可查表求得λ;
(2)有关计算
P 2 (n) p
2 p
(n)
上侧分位数
λ
2分布的极限分布
• 2分布的极限分布是正态分布
5.3.2 t分布
f (t)
1、定义 若X~2(n1),Y~2(n2) ,X,Y独立,则
F
X Y
n1 n2
~
F (n1,
n2 )
称为第一自由度为n1 ,第二自由度为n2的F—分布, 其概率密度为
h(
y)
(
n1
2
n
2
)(n1
/
(
n1 2
)(
n2 2
)(1
0,
n2
n1 n2
) y n1 / 2
lim f (t) (t)
1
t2
e 2 , x
n
2
t分布表及有关计算
上侧分位数:
P{t(n)>λ}=p
双侧分位数:
p
P{|t(n)|>λ}=2p,λ=tp(n)
t1 p (n)
t p (n)
t1 p (n) t p (n)
t分布的极限分布是正态分布
5.3.3 F分布
分层抽样的适用情形
分层随机抽样是判断抽样和随机抽样相结合的一种混合型抽样 方法。 分层抽样适宜于由差异较大的单位所组成的总体。它将分组法 与随机原则结合起来,减少了各组内标志值的差异程度,使各组都有 抽取样本单位的机会,有利于提高样本的代表性,能得到比简单抽样 更为准确的结果,因此在实际工作中应用较广泛。
抽样框和样本抽取过程说明
抽样框和样本抽取过程说明一、抽样单位本方案采用分层的四阶段不等概率抽样,各阶段的抽样单位为:第一阶段:以区(地级市、省会城市和直辖市的各大城区和郊区)、县(包括县级市)为初级抽样单位。
第二阶段:以街道、乡镇为二级抽样单位。
第三阶段:以居民委员会、村民委员会为三级抽样单位。
第四阶段:以家庭住户并在每户中确定1 人为最终单位。
二、构建抽样框根据行政区划资料,全国(含22 个省、4 个自治区、4 个直辖市;不含西藏自治区、港澳台)共有2801 个区县单位,这些区县单位作为PSU(初级抽样单元)构成调查总体,具体划分为5 个抽样框。
抽样框1:三大直辖市市辖区具体包括北京、天津、上海三个直辖市的共44 个市辖区,需要说明的是,这一部分未包括直辖市重庆,原因如下:(1) 从设立直辖市的时间来看,1997 年全国行政区划正式设立重庆直辖市,而1949 年建国之初即存在京津沪三大直辖市的行政区划。
(2) 从各省、直辖市人类发展指数(HDI)的排名来看,重庆与京津沪三大直辖市相比差距较大(见表一);(3) 从所处经济地理区域上来看,重庆位于内陆地区,而京津沪三大直辖市均位于沿海发达地区;(4) 从经济发展水平来看,重庆的人均GDP 与京津沪三大直辖市相比差距较大(见表一);(5) 从城乡人口对比来看,重庆的农业人口与非农业人口的比例与京津沪三大直辖市相比差距较大(见表一);表一重庆与京津沪三大直辖市部分指标对比总之,从人文、经济、城乡人口对比、地理、历史等多方面相比较,重庆与京津沪三大直辖市的同质性并不明显;若简单地按行政区划的标准将重庆划分至直辖市这一抽样框,将对结果产生一定的影响。
抽样框2:省会城市市辖区具体包括全国26 个省会城市和重庆市的共175 个市辖区。
依照各城市的经济地理区域分为三层。
东部:沈阳市、济南市、杭州市、南京市、福州市、广州市中部:哈尔滨市、长春市、石家庄市、郑州市、太原市、合肥市、南昌市、武汉市、长沙市、海口市、南宁市西部:呼和浩特市、乌鲁木齐市、银川市、兰州市、西宁市、昆明市、贵阳市、西安市、成都市、重庆市抽样框3:东部地区区县具体包括京津沪三大直辖市和东部6 省的所有区县,除去直辖市和6 个省会城市市辖区部分;共611 个区县。
常用的三种抽样分布
如果总体服从正态分布N(m,s2),
则从该正态总体中抽取样本,得到的
样本均数也服从正态分布,但该分布
为N(m,s2/n ),此时的方差是总 体的1/n倍,即有
mx m,
sx
s
n
中心极限定理
• 如果总体不是正态总体,但其均数和标
准差分别为μ和σ,则当样本含量n不断
增大时,样本均数的分布也趋近于正态
由度的大小有关。
自由度越小,则t值越分散,曲线越低平; 自由度逐渐增大时,t分布逐渐逼近Z分 布(标准正态分布);当趋于∞时,t分布即 为Z分布。
t 界值表
(P279,附表2)
问单侧t0.025,10 ?
f (t) ν=10的t分布图
✓ 举例:
t
1.812 -2.228
2.228
① 10,单 =0.05,t , t0.05,10 1.812 ,则有
单侧t0.05,9=1.833 双侧t0.01/2,9=3.250
=单侧t0.005,9 单侧t0.01,9=2.821 双侧t0.05/2,∞=1.96
=单侧t0.025,∞ 单侧t0.05,∞ =1.64
三、 F 分布
令 2 (1) 和 2 ( 2 ) 分别为服从自由度为 1 和 2 的
独立变量的卡方分布,则称 F 2 (1) 1 服从分子自由度
F 分布曲线
1 1, 2 5
1 5, 2 5
1 10, 2 10
F 界值表
5
附表5 F界值表(方差分析用,单侧界值) 上行:P=0.05 下行:P=0.01
分母自由度
分子的自由度,υ1
υ2
1
2
3
4
5
抽样与参数统计
4
4,1
4,2
4,3
4,4
19 5-
统计学
STATISTICS
样本均值旳抽样分布
(例题分析)
计算出各样本旳均值,如下表。并给出样本均 值旳抽样分布
16个样本旳均值(x)
第一种 第二个观察值
观察值 1
2
3
4
1
1.0 1.5 2.0 2.5
2
1.5 2.0 2.5 3.0
3
2.0 2.5 3.0 3.5
=10
n= 4
x 5
n =16 x 2.5
= 50 X
总体分布
x 50
x
抽样分布
22 5-
统计学
STATISTICS
中心极限定理
(central limit theorem)
中心极限定理:设从均值为 ,方差为 2旳一种任意 总体中抽取容量为n旳样本,当n充分大时,样本均值 旳抽样分布近似服从均值为μ、方差为σ2/n旳正态分布
统计学
STATISTICS
第 5 章 抽样与参数估计
1 5-
统计学 第 5 章 抽样与参数估计
STATISTICS
5.1 抽样及其分布 5.2 抽样方法 5.3 参数估计
5.4 样本容量旳拟定 5.5 Excel旳应用
2 5-
统计学
STATISTICS
学习目的
1. 了解抽样和抽样分布旳基本概
念
2. 了解点估计旳概念和估计量旳
30 5-
统计学
STATISTICS
样本百分比旳抽样分布
(数学期望与方差)
• 样本百分比旳数学期望
E( p)
• 样本百分比旳方差
4抽样分布定理
6.3 抽样分布定理
下证Y1 ,Y2 ,,Yn相互独立且均服从正态分布N (0, 2 )
事实上:
由定理2.4.6易知,Y1 , Y2 , , Yn的联合密度函数为 其中J B 1 , 故|J |= |B 1 | 1 g y1 , y2 , yn f X1 ,, X n ( x ( ,x( )| J | 1 y1 , , yn), n y1 , , yn)
易知B是正交矩阵
6.3 抽样分布定理
则 1 Y X 1 1 [ X1 X 2 ] 1 2 1 Y2 X2 [ X1 X 2 2 X 3 ] 2 3 Y BX B 1 Y X [ X 1 X 2 X n 1 X n ] n 1 n 1 ( n 1) n 1 [X X X X ] 2 n 1 n Yn Xn n 1 为正交线性变换。 (6.3.1)
i 1
n
1
2
1
)
n
e
i 1
n
xi2 2 2
(
1
2
2 x i 2 2 i 1 n ( ) e
1
n
2
) e
n
1 2
2
X X
g y1 , y2 , yn f X1 ,, X n x1 y1 , , yn , ,xn y1 , , yn | J | f X1 ,, X n B Y (
若X~F(m,n), X的概率密度为
mn m 1 m n 2 x 2 2 2 f x; m , n m n mn m n mx n 2 2 2
数理统计知识小结
数理统计知识小结------缪晓丹 20114041056第五章 统计量及其分布§5.1总体与样本一、 总体与样本在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。
对于实际问题,总体中的个体是一些实在的人或物。
这样,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这个意义上说:总体就是一个分布,而其数量指标就是服从这个分布的随机变量。
例5.1.1考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以1记不格品,若以p 表示不合格品率,则各总体可用一个二点分布表示:不同的p 反映了总体间的差异。
在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机向量及其联合分布来描述总体。
这种总体称为多维总体。
若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体。
实际中总体中的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象。
二、样本与简单随机样本 1、样本为了了解总体的分布,从总体中随机地抽取n 个个体,记其指标值为 n x x x ,,,21 , 则n x x x ,,,21 称为总体的一个样本,n 称为样本容量或简称为样本量,样本中的个体称为样品。
当30 n 时,称n x x x ,,,21 为大样本,否则为小样本。
首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此样本是随机变量,用大写字母 n X X X ,,,21 表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母n x x x ,,,21 表示。
简单起见,无论是样本还是其观测值,本书中均用n x x x ,,,21 表示,从上下文我们能加以区别。
每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有具体的数值,只有一个范围,则称这样的样本为分组样本。
概率论与数理统计(王明慈第二版)第5章数理统计的基本知识4-5
2
t 分布的概率密度函数图形如图所示
①关于x =0 对称; ②当k充分大时,其图形
k 30 k 3
与标准正态分布图形相似.
k 1
lim
k
ft ( x)
( x)
1
x2
e 2 ,xR
2π
t(30) N(0,1)
4/4/2020
13
例3. 设总体X和Y相互独立 ,且都服从 N (0,9),
X1, X 2 , , X 9和Y1,Y2 , ,Y9来自总体 X ,Y的样本,
自由度k:指χ 2
X
2 1
X
2中包含独立
k
变
量的个数.
特别地,当k=1时,若X1 ~ N (0,1),则X12 ~ (2 1)
4/4/2020
2
其概率密度函数:
1
k 1 x
f
2
(
x)
2
k 2
(
k 2
)
x
2
e 2 , x 0;
0,
x 0.
其图形随着参数k的变化而改变,如图所示
k2
k 6
k 1
26
第五节 正态总体统计量的分布
基本内容: 一、抽样分布——统计量的分布; 二、正态总体下的抽样分布
4/4/2020
27
一、统计量的分布
统计量是对样本信息的“加 它依赖于样本,
工”, 由于样本是随机变量,
所以统计量也是随机变量,
故统计量有一定的概率分布.
我们称统计量的分布为抽样分布.
4/4/2020
在这样的背景下,十九世纪初英国一位年经
酿酒化学技师Gosset W S,他在酒厂从事试验和
§5.4三大抽样分布
所以 Y ( y1 ,, yn )T 的各分量相互独立.
n 1 由于 x y1 , ( n 1) s 2 yi2 . x与s 2相互独立. n i 2
1 n 1 21 1 A 3 2 1 n( n 1)
n
( n 1) s 2 yi2,
i2
yi N (0, ), i 2,3, , n.
2
y2 ,, yn相互独立.
( n 1)
2
yi 2 s ~ (n 1). i 2
n
2
2
15
定理2:设( X 1 , X 2 ,, X n )是来自正态总体N ( , )的
1 n 1 21 1 3 2 1 n( n 1)
1 n 0
1 3 2 1 n( n 1)
0 0 1 n( n 1) 1 n
14
(3)
( n 1)
2
s 2 ~ 2 ( n 1).
2 i 1 2 i 2 1 2 2 n 2 n
服从自由度为n的 2分布, 记作 2 ~ 2 (n) . 注:服从 2分布的随机变量取值非负,其密度函数为 n x 1 1 x2 e 2 , x 0 n 2 n 2 ( x; n) 2 ( ) Γ ( s ) x s1e x dx , s 0, 2 0 0, x0
4
n=4
2 分布的性质:
n=6 n=10
1、随n的增大,其偏度越来越小。
2、 2分布表——P425 附表三
2
即是分布函数数值表.
2
n 1 3、 分布是Ga分布的特例,即有 ( n) Ga( , ) . 2 2 4、 2分布具有可加性:
5-4三大抽样分布
三、t 分布 设X1~N(0,1) , X2~ (n ) , 且X1与X2相 X1 互独立,则称变量 t
1、定义:
2
X2 n
所服从的分布为自由度为 n的 t 分布.
例2:
若总体X ~ N ( 0,1),从此总体中取一个容量为
6的样本X 1 , X 2 ,X 6 , 设 Y ( X1 X 2 X 3 ) ( X 4 X 5 X 6 )
2 2 2
试决定常数C,使随机变量CY服从 分布 .
解:
因为
X 1 X 2 X 3 ~ N (0, 3), 所以
2
( y 0)
F
( y1 ym ) / m ( x1 xn ) / n
2 2
p( y )
( m2 n )
m
m 2
1
( ) ( )
m 2 n 2
( ) 2 ( y)
m n
1
m n
y
n n 2
m (n 2) (n 4)
2
( y 0)
1
1 2 2 3 43 5 4 6 5 6
2. F分布的性质
(1).F分布的数学期望
E(F )
n n2
(n>2)
即它的数学期望并不依赖于第一自由度m. (2).F分布的分位数
对于给定的 (0 1), 称满足条件
P F F1 (m, n)
F ( m , n ) 1
p( y )dy 1
的点F1 (m, n)为F (m, n)分布的1- 分位数. 如图所示.
三大抽样分布
F(n1, n2)为F(n1, n2)的上侧分位点;
1 注: F1 (n1 , n2 ) F (n2 , n1 )
F (n1 , n2 )
若X 1 , Y1 ,
, X n1 来自正态总体X, X ~ N ( 1 , 12 ),
2 , Yn2 来自正态总体Y, Y ~ N ( 2 , 2 ), 且两样本独立.
当
2 ( n)
2.t 分布
关于t分布的早期理论工作,是英国统计学家威廉· 西利· 戈塞 特(Willam Sealy Gosset)在1990年进行的。 t分布是小样本分布,小样本一般是指n<30。t分布适用于 当总体标准差未知时用样本标准差s代替总体标准差σ,由
样本平均数推断总体平均数及两个小样本之间差异的显著性
χ2 分布是海尔墨特(Hermert)和卡· 皮尔生(K· Pearson) 分别于1875年和1890年导出的。它主要适用于对拟合优度检 验和独立性检验,以及对总体方差的估计和检验。 χ2 分布是一种抽样分布。当我们对正态随机变量随机地重 复抽取个数值,将每一个值变换成标准正态变量,并对这个 新的变量分别取平方再求和之后,就得到一个服从χ2分布的 变量,即
F分布的主要性质有: ①F分布是一种非对称的分布,呈右偏态; ② F分布两个自由度:n1-1和n2-1,相应的分布记作F(n1-1,n2-
1)。通常n1-1称为分子自由度, n2-1称为分母自由度。
③随n1,n2的不断增大,F分布的右偏程度逐渐减弱,但不会趋向 正态;
④具有倒数性质即若X~F(n1,n2),则1/X~F(n1,n2);
(4) t 分布是一个分布族,对于不同的样本容量对应不同的 分布,且均值都为0;随着自由度的增大,分布也逐渐趋 于标准正态分布。
概率论抽样分布
例1-1 设X1, X2,, Xn为来自正态总体N (, 2 )
的一个简单随机样本,则样本均值X n
服从____,又若 ai为常数,则 ai X i i 1
服从____. 解 因同为样相互独立的正态随机变量的线性和服从
正态分n布
n
n
n
E[
因而
i
ai X
1EX
i]
, DiX1
ai ,D2[i
确定样本容量n,使得两样本均值的距离
超过的概率不超过0.01.
解
由于X
~
N(,
2
), i
1,2,且独立,故
X1
X2
n ~
N (0, 2 2
n
)
于是
P(
X1
X2
)
P(
X1 X2
2 2 / n
) 2 2 / n
2[1 ( n)] 0.01 2
等价于
n
n
Φ( ) 0.995 2
2 u10.995 2.575 n 13.26
n
X n1
~
N (,
2)
所以,由正态分布的线性性得
因此
(
X n1
X
)
~
N (0, n n
1
2)
( Xn1 X ) n ~ N (0,1)
n1
从而有
[( Xn1 X ) n ]2 ~ 2(1)
n1
另一方面,有样本方差的性质知
nSn2
2
~
2(n
1)
且
[( Xn1 X )
n
n
]2 1
例2-2
设X
1
,
X
5-4三大抽样分布
2
1 2
e x2 / 2dx
3
E
(
X
2 i
)
3
D(
2
)
nD(
X
2 i
)
n{ E (
X
4 i
)
[E(
X
2 i
)]2
}
2n
4、上侧分位数(重点)
设X : 2 (n),对给定的正数(0< 1),称满足条件: P{ X 2 (n)} 的点2 (n)为 2分布的上分位点.
说明:
(1)即随机变量X 落在点2 (n)右侧的概率等于的点.
其值可以查表求得.
f (y) n1
2 分布图形:
n4
n 10
y0 y0
O
5 10 15 20
y
3、主要特征:
(1)可加性: 如果 X ~ 2(n1 ), Y ~ 2(n2 ),并且X , Y相互独立, 则 X Y ~ 2(n1 n2 )
(2) 若 2 ~ 2 (n), 则 E( 2 ) n, D( 2 ) 2n
U ~ 2(n1 ),
F ( n2 , n1 )
V
~
2 (n2 ) , 使F
U / n1 V / n2
(2) 若 t ~ t(n), 则 t 2 ~ F (1, n) (P130-习8)
简证: t : t(n) X : N (0,1), Y : 2(n),使t X
Y /n t 2 X 2 , X 2 : 2(1), Y : 2(n), F分布定义
(2)上 分位点 2 (n) 可查 2(n) 分布表求得(见P250附表5).
(3)当 n 45 时,费歇证明: 2 2(n) 近 似 N ( 2n 1 , 1).
概率论数理统计基础知识第五章
C
]
(A)Y ~ 2 (n). (B)Y ~ 2 (n 1). (C)Y ~ F (n,1). (D)Y ~ F (1, n).
【例】设 随机变量X和Y都服从标准正态分布,则[ C ]
(A)X+Y服从正态分布.
2 2 2
(B)X2 +Y2服从 2分布. Y
2
2 X (C)X 和Y 都服从 分布. (D)
(X ) ~ t ( n 1) S n
客、考点 10,正态总体的抽样分布
33/33
34/33
35/33
【例】设总体 X ~ N (0,1),X 1 , X 2 , X1 X 2
2 2 X3 X4
, X n 是简单随机
2 X i. i 4 n
样本 , 试问下列统计量服从什么分布? (1 ) ; (2 ) n 1X1
记:F分布是两个卡方分布的商
2. F 分布的上侧分位数
设 F ~ F (k1 , k2 ) ,对于给定的 a (0,1) ,称满足条件
P{F Fa (k1 , k2 )}
Fa ( k1 ,k2 )
f F ( x)dx a
的数 Fa (k1 , k2 ) 为F 分布的上侧a 分位数。
服从F分布.
§5.5 正态总体统计量的分布
一、单个正态总体情形 总体
X ~ N ( , 2 ) ,样本 X1 , X 2 , , Xn ,
1 n 样本均值 X X i n i 1
n 1 2 样本方差 S 2 ( X X ) i n 1 i 1
1. 定理1 若设总体X~N(μ,σ2), 则统计量
有一约束条件
(X
i 1
中级质量工程师题库附答案 (11)
质量专业理论与实务一、单选[共5题,每题1分,总计5分]1、P i做为离散分布应满足的条件为()。
A.Pi≥0B.P1+P2+…+Pn=1C.Pi≤0D.Pi ≥0且P1+P2+…+Pn=12、以下分别用来表示分布的中心位置和散布的大小的特征值是()。
A.均值、方差B.方差、均值C.标准差、均值D.方差、标准差3、对下列常见密度函数所对应的方差的形式正确的一项是()。
A.两点分布b(1,p) 方差np(1-p)B.超几何分布h(h,N,M) 方差n(N-n)/(N-1)·(M/N)(1-(M/N)) C.均匀分布U(a、b) 方差((b+a)2/12D.对数正态分布LN(μ,σ2) 方差]1[222++σσeue4、改变直方图的形状可用()方法。
A.精确制图B.改变组距C.数据变换D.组限变换5、“三大抽样分布”不包括()。
A.t分布B.正态分布C.F分布D.X2分布6、10个螺丝钉中有3个不合格品;随机取4个使用,4个全是合格品的概率是()。
A.1/6B.1/5C.1/4D.1/3错一个字的概率是()。
A.0.2231B.0.3679C.0.4493D.0.60658、设X1,X2,…,Xn是从某正态总体随机抽取的一个样本,在σ未知情况下,考察以下假设的检验问题:H 0:μ=μH1:μ≠μ则给定α下,该检验的拒绝域为()。
A.|t|>tB.|t|>t(1-α)(n-1)C.|t|>tα/2(n-1)D.|t|>t1-α/2(n-1)9、在单因子方差分析中,如果因子A有γ个水平,在每一水平下进行m次实验,试验结果用y ij表示,λ=1、2、…、γ;j=1、2、…、m;i y表示第i个水平下试验结果的平均,y表示试验结果的总平均,那么误差平方和为()。
A.∑∑==-yimjijyy112)(B.∑∑==-yimjiijyy112)(C.∑=-yiiyy12)(D.∑=-yiiyym12)(10、()检验是根据被检样本中的不合格产品数,推断整批产品的接收与否。
概率论与数理统计 华东师大茆诗松版 第五章 2014
华东师范大学
第五章 统计量及其分布
第13页
例5.1.5 设有一批产品共N个,需要进行抽样检 验以了解其不合格品率p。现从中采取不放回 抽样抽出2个产品,这时,第二次抽到不合格 品的概率依赖于第一次抽到的是否是不合格 品,如果第一次抽到不合格品,则 P(x2 = 1 | x1 = 1) = (Np1)/(N1) 而若第一次抽到的是合格品,则第二次抽到不合 格品的概率为 P(x2 = 1 | x1 = 0) = (Np)(N1)
27 May 2014
华东师范大学
第五章 统计量及其分布
第19页
更深刻的结果也是存在的,这就是格里纹科定理。
定理5.2.1(格里纹科定理) 设x1,x2,…,xn是取自 总体分布函数为F(x)的样本, Fn(x) 是其经验分 布函数,当n时,有 PsupFn(x) F(x)0 = 1 格里纹科定理表明:当n 相当大时,经验分布函 数是总体分布函数F(x)的一个良好的近似。 经典的统计学中一切统计推断都以样本为依据, 其理由就在于此。
E( x )=, Var( x )=2 /n, E(s2) =2
27 May 2014
华东师范大学
第五章 统计量及其分布
第28页
5.3.4 样本矩及其函数
样本均值和样本方差的更一般的推广是样本 矩,这是一类常见的统计量。
定义5.3.4 ak = (xik)/n 称为样本 k 阶原点矩, 特别,样本一阶原点矩就是样本均值。 bk = (xi x)k/n 称为样本k阶中心矩。 特别,样本二阶中心矩就是样本方差。
第8页
例5.1.4 考察某厂生产的某种电子元件的 寿命,选了100只进行寿命试验,得到 如下数据:
第五章抽样分布
以下分两种情况来讨论样本均值 的 抽样分布类型。
第二节 几个常见的抽样分布
正态分布:若 的概率密度函数为
f (x)
其中, 和
1
( x )2
e 2 2
(三)样本方差的数字特征 设总体 的方差为 ,采取重复抽样
的方式,从中抽取独立同分布的样本: , …, 。根据数学期望和方差的性质,可 推出样本方差的数学期望、方差与总体的
方差之间的关系为:
E(S2) 2
2 S2
2 4
n1
(5.5)
第一节 抽样分布基本概念
由式(5.5)可知:样本方差的平均数为 ,方差为 ,随着 的增大,其方差 越来越小,从而 的取值越来越向着 靠 拢,故用 去估计 理论依据成立。
服从正态分布
。
实际应用中,一般取 ,此时的样
本称为大样本。若为小样本,且总体分布
不是正态分布,此时不能按照正态分布来
处理,要运用小样本的相关理论来讨论。
第二节 几个常见的抽样分布
总体(, 2) 正态分布 非正态分布
大样本 小样本
正态分布
N (, 2 n)
非正态分布
图5-2 样本均值的抽样分布图
。
这种用商品质量数据的样本平均数 、 样本方差 作为总体平均数 、总体方差
【典型案例6】如何决定是否购买一批苹 果?
的作法,是人们购买商品时常用的有效 估计方法,其理论依据是本章将要学习的 内容。
第一节 抽样分布基本概念
一、样本容量和样本个数 二、参数和统计量 三、抽样分布 四、抽样分布的数字特征
5.4三大抽样分布
X 1 ~ χ 2 (n1 )
X 2 ~ χ 2 (n2 )
X1,X2 相互独立,则X1+X2 ~χ2(n1+n2) 相互独立, 例1
X ~ N (µ ,σ 2 )
2
(X1,X2,X3)为X的一个样本 为 的一个样本
2 2
求 X 1 − µ + X 2 − µ + X 3 − µ 的分布。 的分布。
1-α α α
t1−α (n)
tα (n) t1−α (n)
(2)对称性
t1−α (n) = −tα (n)
求t 0.05 (10)
三、 F—分布 分布
问题:1/F服从什么分布?
1、定义 若X~χ2(n1),Y~χ2(n2) ,X,Y独立,则 、 独立, , 独立
X n1 F= ~ F (n1 , n2 ) Y n2
称为第一自由度为n1 ,第二自由度为 2的F—分布, 第二自由度为n 分布, 称为第一自由度为 分布 其概率密度为
n1 −1 n1 + n 2 n1 / 2 2 )(n1 / n2 ) y Γ( 2 , h( y ) = n1 n2 n1 ( n1 + n2 ) / 2 Γ( 2 )Γ( 2 )(1 + n y ) 2 0, y≤0
解:a=1/20, b=1/100
2.设t 1−α (n)为t分布的1 − α分位数 P (T < t 1−α (n)) = P (| T |> t 1−α (n)) =
1-α 2α
P(T < − t 1−α (n)) =
α
三、有关正态总体的几个主要结果
X −µ X 1 , X 2 ,⋯, X n ~ N ( µ , σ 2 ) 则 U = ~ N (0, 1) 1、若 、
三大抽样分布课件
n4 n6
n10
n4 n6
n10
n20
当随机变量 2 ~ 2 (n) 时,对给定的 (01),称满足
P (21 2 (n))1
的
2 1
(n)是自由度为n的卡方分布的
1-
分位数.
1 2 - 0.0 ( 5 1) 0 0 2 = .9 ( 5 1) 01.= 3 81
2 (10)
5.4.2 F分布
y2 n
n1
) 2,
2
y .
这就是自由度为n的t分布的密度函数。
t分布的密度函数的图象是一个关于纵轴对称的分布 与标准正态分布的密度函数形状类似,只是峰比标准正态
分布低一些,尾部的概率比标准正态分布的大一些。
N(0,1)
t(4)
t (1)
●自由度为1的t分布就是标准柯西分布,它的均值不存在; ●n>1时,t分布的数学期望存在且为0。 ●n<1时,t分布的方差存在,且为n/(n-2); ●当自由度较大比如 n30时,t分布可以用N(0,1)分布近似 (见下页图)
•
m n
2 2
)
m
mnm2
2 n
mn
ym211
m
mn
y 2
n
2 2
这就是自由度为m与n的F分布的密度函数。
n40 n10
n4 n 1
若 F~F(m,n)对 , 给定 (0的 1)称 , 满足
PFF1m,n1
的 F1(m,n)是自由 m与 度 n的 F分 为布 1的 分位 .
F(4,10)
P(0ty)P(0ty)P(yt0) P(0ty)1P(t2y2) 2
由于 t2 XX2212/n~F(1,n)
概率论与数理统计--第五章 统计量及其分布
5.2.2 频数--频率分布表
样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。
例5.2.2 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下
(1) 对样本进行分组:作为一般性的原则,组数通 常在5~20个,对容量较小的样本;
这是一个容量为10的样本的观测值,(体会抽样作用) 对应的总体为该厂生产的瓶装啤酒的净含量。
这样的样本称为完全样本。
例5.1.4 考察某厂生产的某种电子元件的 寿命,选了100只进行寿命试验,得到 如下数据:
表5.1.2 100只元件的寿命数据
表5.1.2中的样本观测值没有具体的数值, 只有一个范围,这样的样本称为分组样本。
设总体X具有分布函数F(x), x1, x2, …, xn 为取自该总体的容量为n的样本,则样本联合分布函数为
用简单随机抽样方法得到的样本称为 简单随机样本,也简称样本。
于是,样本 x1, x2, …, xn 可以看成是 独立同分布( iid ) 的随机变量, 其共同分布即为总体分布。
5.2.1 经验分布函数
(2) 确定每组组距:近似公式为 组距d = (最大观测值 最小观测值)/组数;
(3) 确定每组组限: 各组区间端点为 a0, a1=a0+d, a2=a0+2d, …, ak=a0+kd, 形成如下的分组区间 (a0 , a1] , (a1, a2], …, (ak-1 , ak]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
样本均值和样本方差分别为
则有
(1) x与S 2 独立.
2 (2) x ~ N ( , ) n (n 1) S 2 2 (3) ~ (n 1) 2
引理1
设X=(x1,x2,…,xn)T, Y=(y1,y2,…,yn)T,
1、定义:
2
所服从的分布为自由度为 n的 t 分布. 记为 t ~ t ( n).
t分布又称为学生氏分布.
其密度函数为(过程见P273):
1 [(n 1) 2] y 2 n2 p( y ) (1 ) , y n (n 2) n
0.4 0.4 0.3 0.2 0.2 0.1
二、F 分布
2 2 X ~ ( m ), X ~ (n), X1 与X2 相互独 1 定义: 设 1 2 立,则称随机变量 F X 1 m X2 n
服从自由度为m及 n 的F分布,m称为第一 自由度,n称为第二自由度,记作 F~F(m, n) .
其密度为(过程见P271)m n 2 m Nhomakorabeam 2 n
图形对称
n= 1 n=20
-3 -3
-2 -2
-1
1 1 2 2
33
t 分布的图形(浅红色的是标准正态分布)
t 分布的尾部比标准正态分布的尾部具有更大的概率;
峰值也低于标准正态分布 (峰低尾重)
2. t分布的性质:
(1). 具有自由度为n的t分布t ~ t (n), 其数学期与方差 分别为:E (t ) 0, Var (t ) n (n 2) (n 2), 而 自由度为 1的t分布为标准Cauchy分布,此时无均值.
第四节
分布 一、
2
三大抽样分布
二、F分布
三、t分布
四、一些重要结论
一、 分布
2
1 定义: 设 X 1 , , X n 相互独立, 都服从标准正 态分布N(0,1), 则称随机变量:
Xn 2 所服从的分布为自由度为 n 的 分布. 2 2 ~ (n) 记为
2 2 1 2 2
X X2
2
1 故C . 3
期望
方差
x xn
2 2 1
2 1 2 1 2
2
n
2n
2 n2 (m n 2) m (n 2)2 (n 4)
( y ym )/ m F ( x xn2 )/ n
( y 0) m m n n n 1 ( m2 ) m m 2 2 p( y ) m n ( n ) 2 ( y) 1 m n y n2 ( 2 ) ( 2 )
其密度为:
1 p( y ) n 2 y 2 (n 2)
n y 1 2 2
e , ( y 0)
其中 ( )
0
e t
t 1
dt , 0
注: 已知 2 (1)就是Ga 1/ 2,1/ 2 分布. 由定义X 2 ~ 2 (1), i
n 1 1 n 1 2 2 2 即X i ~ Ga , .再由Ga分布的可加性知 X i ~Ga , . 2 2 2 2 i 1 由Ga 分布即可得密度表达式.
0.8
0.8 0.6
0.4 0.4 0.2
m = 4, n =10 m = 10, n = 10 m = 15, n = 10
1
1 2 2 3 43 5 4 6 5 6
n (1).F分布的数学期望 E ( F ) (n>2) n2 即它的数学期望并不依赖于第一自由度m. (2).F分布的分位数
1 F
~F(n,m), 因此
1 F (n, m) F1 (m, n)
F 分布的1- 分位点可查表求得. 例
F0.95 (9,12) F10.05 (9,12) 2.80
1 1 F0.05 (12,9) 0.357 F10.05 (9,12) 2.80
三、t 分布 设X1~N(0,1) , X2~ (n) , 且X1与X2 X1 相互独立,则称变量 t X2 n
( y 0)
n 1 ) n 1 2 y 2 p( y) (1 ) 2 n (n 2) n ( ( y )
(n>2)
t
y1 ( x12 xn2 )/ n
0
(n>1)
(n>4) n n2 (n>2)
四、一些重要结论
定理1 设x1,x2,…,xn是来自正态总体 N ( , 2 ) 的样本,
特别地, B= σ 2In , 且 A为正交阵时, 则Y~N(AEX,σ 2In).即正交变 换将独立同方差的正态变量变为独立同方差的正态变量.
推论1 设x1,x2,…,xn是取自正态总体 的样本, 则有
N ( , )
2
x和S 2 分别为样本均值和样本方差,
证
x t ~ t (n 1) S n 由定理1及t分布的定义可得
的点t1 (n)为t (n)分布的1- 分位数. 如图所示.
P t t1 (n)
t1 ( n )
p( y)dy 1
t分布的1- 分位数的性质: t (n) t1 (n)
t1 (n)
t10.025 (15) t0.975 (15) 2.1314. t0.05 (10) t0.95 (10) 1.8125
n
(5). 分布的分位点
2
对于给定的正数 (0 1), 称满足条件
P
2
2 1
(n)
2
12 ( n )
p( y )dy 1
的点
2 1
(n)为 (n)分布的1- 分位数.
如图所示.
2 1
( n)
2 2 12 (n)可通过查表求,例 0.9 (25) 1-0.1 (25) 34.3816
E ( ) n, Var ( ) 2n.
2 2
2
(3).若 X ~ 近似标准正态分布N(0,1). (由中心极限定理 ) (4). 设
X n 的分布 (n), 则当n充分大时, 2n
N ( , ), 则 2
2
X1 ,
, X n 相互独立, 都服从正态分布
1
2 2 ( X ) ~ ( n) i 2 i 1
m 1 2
( ) p( y ) m n ( ) ( y) ( 2 ) ( 2 )
m 1 n y
m n 2
, ( y 0)
0.8
0.8 0.6 0.4 0.2
图形不对称
0.4
m = 10, n = 4 m = 10, n = 10 m = 10, n = 15
1
1 2 2 3 4 3 5 46 5 6
令Y=AX, 其中A=(aij)n , 则 EY=A EX, VarY = A VarX AT.
其中 VarX E[( X EX )( X EX )T ]
引理2 若X=(x1,x2,…,xn)T 服从n维正态分布 N (a, B), 且A=(aij)n , 则
y1 Y AX ~ N ( AEX , A VarX AT ) N ( Aa, ABA ) y n 即正态分布在线性变换下具有不变性.
解
12.5 12 x 12 (1) P x 12.5 P 2 25 2 25
x 12 P 1.25 1 (1.25) 0.1056 0.4 x 12 12.5 12 (2) P x 12.5 P P t 1.32 S 25 S 25
解
因为 X 1 X 2 X 3 ~ N (0,3), 所以
2
X1 X 2 X 3 3
~ N (0,1)
2
X1 X 2 X 3 2 从而 ~ (1) 3
同理
X4 X5 X6 2 ~ (1) 3
2
由 2分布的性质可知 1 X X 2 X 3 X1 X 2 X 3 2 Y 1 ~ ( 2) 3 3 3
x (n 1) S 2 2 ~ N (0,1), ~ (n 1)且相互独立 2 n
x 则 n
2
(n 1) S 2
2
(n 1)
~ t (n 1)
注:在未知总体 时,可用本推论计算样本均值 x 的分布.
推论2 (两总体样本方差比、样本均值差的分布)
设X ~ N ( 1 , ),Y ~ N ( 2 , 2 ),且X与Y独立,
当n 45时,对于常用的的值,可用正态近似 t1 (n) u1
t分布的1- 分位点t1 (n)可查表求得,例
设x1 ,
三大统计量的构造与抽样分布 , xn与y1 , , ym是来自标准正态分布的两个
相互独立的样本:
统计量的构造
抽样分布密度
n y 1 1 p( y ) n 2 y2 e 2 , 2 (n 2)
2 1 2
x1,x2,…,
xm是来自X的样本, y1,y2,…, yn是取自Y 的样本, 2 2 分别是这两个样本的 样本均值, S x 和S y 分别是 x和 y
S x2 12 (1)、F 2 2 ~ F (m 1, n 1) Sy 2
2 (2)若 12 2 2 , 记Sw 2 (m 1) S x2 (n 1) S y