分布函数的假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的,所以在使用时必须注意 n要足够大及 npi不能太小, 根据实际经验,要求 n ≥50,理论频数npi ≥4 ,否则
要适当合并区间以满足这个要求。
例1.某个城市在某一时期内共发生交通事故600次,
按不同颜色小汽车分类如下
汽车颜色 红 棕 黄 白 灰 蓝 事故次数 75 125 70 80 135 115
χ 2 k ( f i nPi )2 ~ χ(2 K r 1)
i 1
nPi
其中r是分布中被估计的参数的个数.
由此得
5.检验统计量:χ 2 k ( fi nPi )2
i 1
nPi
拒绝域: W { χ 2 χ 2(α K r 1)}
注: χ 2 拟合优度检验法是在n充分大的条件下得到
nP i
7.02 12.34 17.82 19.29 16.70 12.05 7.46 7.32
f i - nP i
-0.02 -0.34 0.18 -2.29 3.30 0.95 -1.46 -0.32
( f i nPi )2 nPi
0.00006 0.0094 0.0018 0.2719 0.6521 0.0749 0.2857 0.0140
解:按题意,原假设 H 0 : X ~ N(μ,σ 2)
由于μ,σ2未知,首先须用极大似然估计法,求得 其估计值(看教科书七章二节例2):
μˆ x 126.37,
σˆ 2
b2
1 100
100
(Xi
i 1
X )2
17.752
检验统计量: χ 2 ( fi nPi )2
(3) 若在原假设 H0下,总体分布的形式已知,但有r 个参数未知,这时需要用极大似然估计法先估计这 r 个参数. 2. 将 x 轴分成K个互不重迭的小区间:
( ,b1),[b1,b2),,[bK1, )
3.计算样本的n个观察值落入以上每个区间的个数,
记为fi ( i=1,2, ……,K),称其为实际频数. 所有实
Φ(1.51) Φ(0.95) 0.9345 0.8289 0.1056 P{109.5 X 119.5} Φ( 0.39) Φ( 0.95)
Φ(0.95) Φ(0.39) 0.8289 0.6517 0.1772
P{119.5 X 129.5} Φ(0.18) Φ( 0.39) Φ(0.18) Φ(0.39) 1 0.5714 0.6517 1 0.2231 P{129.5 X 139.5} Φ(0.74) Φ(0.18) 0.7703 0.5714 0.1989 P{139.5 X 149.5} Φ(1.30) Φ(0.74) 0.9032 0.7703 0.1329
第四节 分布函数的拟合优度检验
前面几节中讨论了总体分布形式已知时关于 总体参数的假设检验。但在许多实际问题中并不 能预先知道总体分布的形式。这时,就需要根据 样本提供的信息,对总体的分布作出假设,并对 此假设进行检验。本节我们将介绍由英国统计学
家卡尔·皮尔逊提出的 χ 2 拟合优度检验法。
χ 2拟合优度检验法的基本原理和步骤:
i
nPi
拒绝域:
W
{χ2
χ
2 α
(
k
r
1)}
列表计算:
H0为真时, X ~ N(126.37,17.752)
P{X 99.5} Φ( 1.51) 1 Φ(1.51) 1 0.9345 0.0655 P{99.5 X 109.5} Φ( 0.95) Φ( 1.51)
2.32 0.5560 5.3678
K 7,r 2,α 0.10,
χ
2 α
(k
r
1)
χ
2 0.10
(4)
7.779
W { χ 2 7.779}
χ 2 5.3678 7.779 因为 χ 2 W 所以接受H0,
即21~59岁男子的血压(收缩压)总体X服从正态分布。
2 [99.5,109.5) 8 0.1056 10.56
3 [109.5,119.5) 22 0.1772 17.72
4 [119.5,129.5) 27 0.2231 22.31
5 [129.5,139.5) 17 0.1989 19.89
6 [139.5,149.5) 9 0.1329 13.29
X 0123456789 f i 0 7 12 18 17 20 13 6 3 4
问总体X(电话交换台每分钟呼唤次数)服从泊松 分布吗? (α 0.05)
解:按题意,原假设 H 0 : X ~ π( λ)
由于λ未知,首先须用极大似然估计法,求得 λ的估计值(看七章二节例5):
λˆ
1 n
n i 1
拒绝域:
W
{χ2
χ
2 α
(k
r 1)}
K 6,r 0, α 0.05,
χ
2 α
(k
r
1)
χ
2 0.05
(5)
11.071
W { χ 2 11.071}
列表计算
汽车
颜色
fi
Pi
红
75
1/6
棕
125
1/6
黄
70
1/6
白
80
1/6
灰
135
1/6
蓝
115
1/6
1. 提出原假设 H0 :总体 X 的分布函数为F (x) 备择假设H1 :总体 X 的分布函不是F (x)
说明: (1)备择假设可以不必写出. (2)若X是离散型总体,原假设相当于:
H0 :总体 X 的分布律为:P{X=xi}= pi ,i=1,2, … … 若X是连续型总体,原假设相当于:
H0 :总体 X 的概率密度为f (x).
∑ n=600
nP i
100
f i - nP i
-25
( f i nPi )2 nPi
6.25
100
25
6.25
100
30
9
100
-20
4
100
35
12.25
100
15
2.25
40
χ 2 40 11.071
因为 χ 2 W
所以拒绝H0,认为交通事故与汽车的颜色有关.
例2.某电话交换台,在100分钟内记录了每分钟被呼 唤的次数X,设f i为出现该 X值的频数,结果如下:
问:交通事故是否与汽车的颜色有关?(α 0.05) 分析:
如果交通事故的发生与汽车的颜色无关,则每种 颜色的小汽车发生交通事故的可能性是一样的.
解:原假设
H0
: Pi
P{ X
xi }
1 6
(i 1,2,,6)
检验统计量: χ 2 6 ( fi nPi )2
i 1
nPi
际频数之和 f1+ f2+ …+ fk 等于样本容量n.
4.在原假设H0为真时,计算总体落入每个区间的概
率Pi=F(bi)- F(bi-1)( i=1,2, ……,K),于是npi
就是落入第i个区间的样本值的理论频数.
f i nPi反映了实际频数与理论频数的差异.
当原假设H0为真,样本容量又充分大时,两者
P{149.5 X 159.5} Φ(1.87) Φ(1.30) 0.9693 0.9032 0.0661
P{X 159.5} 1 Φ(1.87) 1 0.9693 0.0307
列表计算:
X 分组
fi
Pi
nPi
1 (-∞,99.5) 5 0.0655 6.55
7 [149.5,159.5) 5 0.0661 6.61 8 [159.5, +∞) 7 0.0307 3.07
∑ n=100
( fi nPi )2
fi - nPi
nPi
-1.55 0.3668
-2.56 0.6206
4.28 1.0338
4.69 0.9859
-2.89 0.4199
-4.29 1.3848
保证理论频数npi ≥4.
例3.为了研究患某种疾病的21~59岁男子的血压
(收缩压,单位:mm-Hg )这一总体X,抽查了
100个男子,得 x 126.37 ,b2 17.752 ,样本值
分组如下:
序 号
分组
序 fi 号
分组
fi
1 (-∞,99.5) 5 6 [139.5,149.5) 9
xi
x
4.33
检验统计量: χ 2 ( fi nPi )2
i
nPi
拒绝域:
W
{χ2
χ
2 α
(
k
r
1)}
列表计算:
Baidu Nhomakorabea
X
fi
Pi
≤1 7 2 12 3 18 4 17 5 20 6 13 76 ≥8 7
∑ n=100
0.0702 0.1234 0.1782 0.1929 0.1670 0.1205 0.0746 0.0732
2 [99.5,109.5) 8 7 [149.5,159.5) 5
3 [109.5,119.5) 22 8 [159.5,169.5) 5
4 [119.5,129.5) 27 9 [169.5,+∞) 2
5 [129.5,139.5) 17
取α=0.10,检验21~59岁男子的血压(收缩压)总 体X是否服从正态分布。
1.3099
K 8,r 1, α 0.05,
χ
2 α
(k
r
1)
χ
2 0.05
(6)
12.592
W { χ 2 12.592}
χ 2 1.3099 12.592 因为 χ 2 W 所以接受H0, 认为电话交换台每分钟呼唤次数X 服从泊松分布. 说明: 将n=0和n=1合并,n=8与n≥9合并是为了
的差异应不会太大,皮尔逊由此引进统计量:
χ 2 k ( f i nPi )2
i 1
nPi
并证明了如下定理:
定理(皮尔逊)若 n 充分大,H0为真时,不论 H0
中的分布属于什么类型,统计量
χ 2 k ( f i nPi )2
i 1
nPi
总是近似服从自由度为K-r-1的 χ 2分布,即