浙江大学统计学第六讲卡方检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
注意∑F应与∑f相等或很相近,否则计算有误。求 2 值时一
般要求F不宜过小,比如不小于 5。因此常将 F值小的相邻组合 并,相应的f亦合并。
3.确定概率P并作出统计推论。
例6-l 某医学院校医随机抽取100名一年级医学生,测定空腹血 糖值(mmol/L),其频数分布如表6-l(教材62页)中第(1)栏
地用 2 分布来代替;正态总体方差的区间估计等。 2.间接应用:如t分布和F分布就是在 2 分布的基础上推导出
来的。
第二节 拟合优度检验 拟合优度检验是判断样本实际频数分布与拟合的理论频数分布 是否符合,或者说判断此样本是否来自某种分布。本节以正态分布 的拟合优度检验为例,说明该方法的步骤,具体步骤如下:
布的变量,μ 为总体均数,σ 为总体标准差。
在实际应用时,资料中k个实际频数Ai与相应的理论频数Ti之 间差别的大小,可用式(6-2)表示。如果样本含量n足够大
(大于40),且各Ti都大于5,则式(6-2)近似于 2 分布。n
愈大,近似程度愈好。
k
Ai
Ti
2
,
源自文库
i1
Ti
i 1,2,, k。
三、 2分布与正态分布的关系
1.从图6-l可见,当v逐渐增大时, 2 曲线逼近于正态曲线,
这时它们的分布函数有如下关系:
2 f ( 2 )d 2 (u), 0
2 v
u 2v
(6 5)
式中的自由度v恰好等于 2 分布的均数,2v等于它的方差。
2.当v=1时,由式(6-l)可知, 2 变量等于标准正态变量的
1900年,K.Pearson也独立地从检验分布的拟合优度发现这一
相同的 2 分布。
v个相互独立的标准正态变量ui(i=1,2,…,v)的平方和称
为 变2 量,即
2 u12 u22 uv2 ,
ui
Xi u
(6 1)
它的分布即为 2 分布,其自由度为v。式中Xi为服从正态分
1。 2 分布的分布函数为
F ( 2 ) 2 0
1 2(
v
)
2 2
v 1 2
e
2 2
d
2
,
2
0 2 , v 1,2,3,。
(6 4)
它的几何意义是: 2 分布曲线下从0到某给定 2 值的面
积,如图6-l。
二、分布的分位数
平方,因此
2 (1)
等于标准正态分布的双侧分位数uα之平方和。例
如u0.05=1.96,而=3.84=(1.96)2=
u
2 0.05
四、 2 分布的应用
1.直接应用:用于检验某一分布的实际频数与理论频数是否符
合;某些统计量的分布可用 2 分布作近似处理,如各组含量
不小于5,且组数不小于3时,秩和检验统计量H的分布可近似
和第(2)栏所示,试用 2 检验判断该资料是否符合正态分布。
(l)建立检验假设和确定检验水准
H0:一年级大学生空腹血糖的实际频数与正态分布的理论频数 符合
H1:一年级大学生空腹血糖的实际频数与正态分布的理论频数 不符合
检验水准为 α=0.10。
本资料的均数 X =4.1966,S=0.6737。
(3)确定概率P并作统计推论。查附表3, 界值表得0.05>P>
第(6)列F是将第(5)列的相对频数乘以样本含量n化成的理论频数, 如第一行100仇0322)d.22,余仿此。注意第(5)、(6)列的6值与F 均写在相应组段中间,反映直方图上该直条的面积。
(2)求统计量。第(7)列系接式(6-6)的要求作 2 值计算,得 =125.05。表中共有10个F参加 值计2 算,故 的 自2 由度=10-3=7。
表6-1中第(3)列为各组段上下限处的u值,如第1组段的上限对 应的u=-1.85;
第(4)列Ф (u)系按第(3)列的u值由附表1查出。如u=-1.87时, 查表得Ф (-1.87)=0.0307,余仿此。
第(5)列δ为相邻两Ф (u)之差值。如第一组段2.65~2.95的相对频 数 δ=0.0322;而2.95~3.25组段的相对频数δ=0.0793-0.0322=0.0471; 余仿此,但最末组段5.35~5.65的δ=l—0.9582=0.0418。
当v确定后, 2 分布曲线下右侧尾部的面积P为指定值α时, 横轴上相应的界值 2 ,记作 2(v),如图6-l,这就是 2 分布的 分位数,此值有 2 界值表,即附表3。作 2 检验时,先求得 观察样本的统计量 2 值,然后按v由附表3查得 2 界值,与统
计量比较得到与统计量相应的P值。
第六章 2 检 验
2 检验(chi-square test)是一种用途较广的假设检验方
法。本章重点介绍它用于频数分布资料拟合优度检验和分类 资料的假设检验。
第一节 2 分布
分2 布是一种连续型分布,可用于检验资料的实际频数和
按检验假设计算的理论频数是否相符等问题。早在1875年,
F.Helmet即得出来自正态总体的样本方差的分布服从 2 分布。
(6 2)
一、分布函数及其图形
2分布的密度函数为
f
(
2)
1 2( v )
2
2
v 1 2
2
e 2
,
2
0 2 , v 1,2,3,。
(6 3)
式中是 ( v )伽玛(gamma)函数在v/2处的函数值。
2
这样,已知v时,就能按式(6-3)绘出 2 分布曲线,如图6-
1.建立检验假设,确定检验水准。 H0:实际频数与正态分布的理论频数符合 H1:实际频数与正态分布的理论频数不符合 α=0.05 或α=0.10
2.按式(6-6)计算统计量 2 值。
2
( f F)2 ,
F
v k 3
(6 6)
式中f为各组段的实际频数J为由拟合曲线算得的各组段的理论
频数,k为用式(6-6)计算 2 值时所用F的个数,由于计算F
时,用了n、X 、S三个统计量,故v=k-3。当总体参数μ 及σ 已知时,则 v=k-l。
然后由u值附表1得Ф (u),它的意义是正态曲线下由-∞至u 的面积。相邻两Ф (u)之差值δ为各组段的相对频率,乘以n化 为理论频数F。
F=nδ