14数理统计课程

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 c K.Pearson的 分布拟合检验法的步骤:
(1)用极大似然估计法求出 F0 ( x;q1 ,L,q r ) 的 所有未知参数的估计值 qˆ1 ,L,qˆr ; (2)把总体 x 的值域划分成k个互不相交的区 间 [a0 , a1 ), [a1, a2 ), …… [ak -1 , ak ); (3)假定 H 0 成立,计算各区间上的理论概率 ˆ i. 的估计值 p 2 c (4)根据样本观测值计算出 的观测值
c 拟合检验法 一、
2
§ 4.5 分布拟合检验
前面我们讨论了正态总体的参数的假 设检验问题。但是,我们只根据总体 x 的样本 (x1 ,L , x n ) ,怎样来检验总体 x 是服 从正态分布的呢?更一般地,设总体 x 的 F0 (x) 是某个确定的分 分布函数F(x)未知, 布函数,可以提出下列假设检验问题:
H 0 : F ( x) = F0 ( x); H1 : F ( x) ¹ F0 ( x)
这是分布检验问题,属于非参数假设检验 问题。从解决实际问题的角度来看,在获 得样本 (x1,L, xn ) 的观察值后,应设法找 到一个分布函数,把它作为总体的分布是 与观察值相吻合的。这就是所谓的分布拟 合问题。因此,检验总体分布是否是某一 个确定的分布,也称为分布拟合检验。很 明显,分布拟合问题是难度很大的问题, 2 因为已知的东西太少,下面只介绍 c 拟合 检验法,但不给出理论证明。
2 7 2
这时检验统计量 c —分布,自由度为 7-1-1=5。如果取检验水平a = 0.05,查表可 知:自由度为5的—分布的0.95分位 2 数 c0.95 =11.07 ,大于2.9046,因此接受原假 设,即上海夏季发生暴雨的天数服从泊松分 布。
2
2 c 渐近
例:随机抽取某城市200名成年男子,测量身 高,得平均身高为170(厘米),方差40及下组 资料 : (- ¥ [160, [164, [168, [172, [176, [180, 身高
n× j n i× ˆ i× = , i = 1,L, s; p ˆ × j = , j = 1,L, t p n n
³
H 0 : x 服从泊松分布
; H1 : x 不服从泊松分布
现子样容量为n=63,样本均值为 x = 2.8571 它就是泊松分布参数的最大似然估计值。将 的取值分为7组(x 为离散型随机变量,可用按 取值划分代替区间划分) {0},{1},{2},{3},{4},{5},{6,7,……} ˆ k -l l ˆ 按泊松分布{ e , k = 0 ,1, L }依次计算得:
n 1t n st
s
n × j = ån ij
i =1
s
n ×1 n ×2
……
n ×t
我们提出检验问题 H 0 : x 与h 是相互独立的, x 与 h 不是相互独立的。如果记 H1 :
pij = P(x Î Ai ,h ÎBj ), i =1,L, s,
以及
j =1,L,t
pi× = P(x Î Ai ) , i = 1,L, s
ni ni (n i - npi ) 2 n =å =å -n ( - pi ) å pi i =1 npi i =1 n i =1 np i
k k 2 k
2
若这个指标值过大就应拒绝原假设 H 0 。 但在 这个指标中 pi 往往是未知的,为此需要下面 的定理。 定理1( K.Pearson-Fisher)设 F0 ( x;q1 ,L,q r ) 为总体的真实分布函数,其中 q1 ,L,q r 为r个未知 参数。在 F0 ( x;q1 ,q 2 ,L,q r ) 中用 q1 ,L,q r 的极大 似然估计量 qˆ1 ,L,qˆr 代替得 F0 ( x;qˆ1 ,qˆ2 ,L,qˆr ),令
假设只是 H 0 : F (ai ) = F0 (ai ), i = 0,L, k 而并未真正去检验总体的分布是否为F0 ( x )。 事实上,若另有一个分布函数 F1 (x),满足
F1(ai ) = F0 (ai ),i = 1,L, k
那么我们的检验根本无法区别 F0 (x) 与F1 (x )。因 2 此,在实际使用 c -分布拟合检验时,如何选定 k及 a 0 , L a k 还需按照实际情况而定。一 般来说,落入每个区间的样品个数不能太少, 至少要有5个。至于k,通常取5—14。这些都是 经验做法,讲不出多少道理。
c2
二、独立性检验
假定考察一个二元总体,或者说考察总体中 h ).将这两个指标的取 诸元素的两个指标(x , 值范围分成s和t个互不相交的区间A 1 , L , A s 和 B1 , L , B t 。设从该总体中抽取一个容量为n的 子样( x1 , y1 ),……,( xn , yn)。用 n ij 表示样 本观察中其x指标落于 A i ,而其y指标落于 B j 中 的个数(i=1,……,s,j=1,……,t)。又记
p× j = P(h Î Bj ) , j = 1,L, t
=
显然有
p

=
å
t
t
p
ij
, p
j=1
· j
å
s
p
ij
i=1
å
s
i =1
p i· =
å
(4)
j =1
p· j = 1
而在原假设 H 0 成立的条件下,有 p ij = p i × p . j , 所以联立表中的独立性检验就是检验假设 i = 1,L, s, j = 1,L, t H 0 : pij = p i × p . j 在这个假设 H 0 中没有明确指出s+t个未知参数 p i · 与p· j 的值。由(4)式,其中只有s+t-2个独立 2 c 的未知参数。要想用统计量 来检验原假设, 需要求出这些未知参数的极大似然估计。事实 上极大似然估计为
可建立统计假设
1 1 1 1 H 0 : p1 = , p2 = , p3 = , p4 = p5 = 2 4 8 16 依题意n=100,k=5,因此
2 ( ) n np i c2 = å i = 3.2 npi i =1 5
给定 a = 0.05, 查表 c 0.95 ( 4) = 9.488 由于 c < c 0.95 ( 4)
0.17424
因此
2 ˆ ( n n p ) 2 i = 4.68639 c =å i ˆi np i =1 7
这时检验统计量渐近 —分布,自由度为7-2-1 =4。如果取检验水平 a = 0.05 ,查表可知:自由 2 度为4的 c —分布的0.95分位数 c 02. 95 = 9 . 488 , 大于4.68639,因此接受原假设,即该城市男子 的身高服从正态分布。
2 2
2
故不能拒绝原假设 黑球的个数相等。
,即认为黑盒中白球与
例 根据63年的观察资料,上海每年夏季(5月 至9月)发生的暴雨的天数记录如下:
暴雨 天数
0 4
1 8
2
3
4
5
6 2
7 1
8 1
9 0
年 份 数
14 19 10 4
能否由此表明上海夏季发生暴雨的天数服从泊松 分布? 解:总体 x 是上海夏季发生暴雨的天数。待检 验的假设是
ˆ i = F0 ( a i ; qˆ1 , L , qˆr ) - F0 ( a i -1 ; qˆ1 , L , qˆr ) p
本页已使用福昕阅读器进行编辑。 福昕软件(C)2005-2009,版权所有, 仅供试用。

ˆi ) (n i - np ni c =å =å -n ˆi ˆi np i =1 i =1 n p
H0
为真时,对
即当
H0
几乎必然发生(对任意小正数 e ),从而
ni 为真且n充分大时,事件 {| - pi |< e } n
å
i =1
k
k ni ni 2 ( - p i ) 应取较小值。当 å ( - pi ) 2 取 n n i =1
较大值时,就有理由认为原假设 H 0 不成立 。 基于这种想法,K.Pearson构造了一个检验指标
区间 人数
, 160)
164) 168)
172) 56
176) 41
180) 26
+
¥)
10
23
30
14
能否断言该城市成年男子的身高服从正态分布? 解:设总体X为该城市成年男子的身高。待检验 的假设是
H0 :x
服从正态分布 ; H 1 : x 不服从正态分布
现子样容量为n=200,样本均值为 x = 170,样 2 本方差 s = 40 ,它们就是总体均值和方差的最 大似然估计值。按所给的资料,X的取值分为7 组,并依正态分布函数
³5
5
试问该黑盒中的白球与黑球的个数是否相等 ( a =0.05)?
解:记X为首次摸到白球时所需的摸球次数, 则X服从几何分布
P{ X = k} = (1 - p)
k -1
p, k = 1,2,L
其中p为黑盒中白球所占的比例。 黑盒中白球与黑球个数相等当且仅当p=1/2, 相应地可计算得
4 1 k 1 k 1 P { X = k } = ( ) , k = 1, 2 ,3, 4 , P{ X ³ 5} = 1 - å ( ) = 2 16 k =1 2
ˆj p
nj
0.05705
æ x - 170 ö Fç ÷ ç ÷ è 40 ø
0.2510
依次计算得:
0.11405 0.05705
0.11405
0.2034
0.2034
10
2
23
0.00158
30
2.8039
56
0.67012
41
0.00252
26
0.44612
14
0.58791
(n
ˆj) j - np ˆj np
n i× =
ån
j =1
t
ij
,n . j =
ån
i =1
s
ij
显然 n = åån ij
i =1 j =1
s
t
我们用下表来表示样本元素的这种分类
Bj
1 2 ……
…… …… …… …… ……
t
n i× = ån ij
n 1× M n s×
n
j =1
t
Ai
1 2
M
n 11 n 12
n s1 n s 2
k!
ˆj p
0.0547
0.1641
ห้องสมุดไป่ตู้
0.2344
0.2233
0.1595
0.0911
0.0702
nj
(n
j
4
8
14
19
10
4
4
ˆj) - np ˆj np
0.0399
0.5296
0.0401
1.7274
0.0002
0.5275
0.0399
2
因此
ˆi ) (n i - np = 2.9046 c =å ˆi np i =1

这个检验法的水平近似地等于 a 。 当 x 为离散型随机变量,可用按取值划分代 替区间划分
例1 在某黑盒中存放有白球和黑球。现作下面 的实验:用返回抽取方式从此黑盒中摸球,直 到摸取的是白球为止,记录下抽取的次数。重 复试验100次,其结果如下:
抽取次 数 频数 1 43 2 31 3 15 4 6
c =
2
å
i =1
k
ˆi) (n i - n p = ˆi np
2
å
i =1
k
ni -n ˆi np
2
(5)对给定的显著性水平a ,查c 2 分布表,求 2 2 2 c c ( k r 1 ) c 出临界值 1-a ,比较 和 1-a (k - r - 1) ,如
2 ³ c 果
c12-a (k - r - 1) ,则拒绝原假设 H 0
2 k 2 k
2
(3)
2 n ® ¥ 则 时,c 的分布函数(弱)收敛于自由度 2 c 为(k-r-1)的 分布的分布函数。
其中记号 n i , k 的意义如前所述。如果 F0 不含
ˆ i 应记作 p i 。 未知参数(即r=0),则 p
注意:常数 a 0 , L a k 的取法就有很大的任 意性。甚至前面构造的检验法实际上检验的原
pi = F0 ( ai ) - F0 ( ai -1 ), i = 1,2,L , k
Δ
(2)
并用 n i 表示样本观察值落在 [ai-1, ai ) 中的个数, 其中
å n = n。
i=1 i
k
根据Bernoulli大数定律,当 任意 e > 0 都有
ni lim P{| - pi |< e } = 1 n ®¥ n
设总体 x 的分布函数F(X)未知.样本 (x1,L,xn ) 是来自总体 x ,容量n相当大。现检验总体是否 服从某个给定的分布函数 F0 ( x ),即待检验的假 设为:
H 0 : F = F0 ; H1 : F ¹ F0
其中F0 (x )是一个确定的分布函数.将x 的值域 [a0 , ak ) 划分为k个区间,为此选择适当的常数 a0 < L < ak , 它们将区间 [a0 , ak ) 划分成 [a0 , a1 ), [a1, a2 ), …… , [ak -1 , ak ), 记
相关文档
最新文档