卡方检验及其应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
卡方检验与其应用
一、卡方检验概述:
卡方检验主要应用于计数数据的分析,对于总体的分布不作任何假设,因此它属于非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o )与理论次数(f e ),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:
)
(n f f f e
e 2
202
~)(χχ∑-= 这是卡方检验的原始公式,其中当f e 越大,近似效果越好。显然f o 与f e 相差越大,卡方值就越大;f o 与f e 相差越小,卡方值就越小;因此它能够用来表示f o 与f e 相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。
一般用卡方检验方法进行统计检验时,要求样本容量不宜太小,理论次数≥5,否则需要进行校正。如果个别单元格的理论次数小于5,处理方法有以下四种:1、单元格合并法;2、增加样本数;3、去除样本法;4、使用校正公式。当某一期望次数小于5时,应该利用校正公式计算卡方值。公式为:∑
--=
e
e f f f 2
02
)5.0(χ
二、卡方检验的统计原理:
• 卡方检验所检测的是样本观察次数﹙或百分比﹚与理论或总体次数﹙或百分比﹚的
差异性。
• 理论或总体的分布状况,可用统计的期望值(理论值)来体现。
• 卡方的统计原理,是取观察值与期望值相比较。卡方值越大,代表统计量与理论值
的差异越大,一旦卡方值大于某一个临界值,即可获得显著的统计结论。
三、卡方检验的主要应用: 1
、
独
立
性
检
验
独立性检验主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。如果两变量无关联即相互独立,说明对于其中一个变量而言,另一变量多项分类次数上的变化是在无差范围之内;如果两变量有关联即不独立,说明二者之间有交互作用存在。
独立性检验一般采用列联表的形式记录观察数据, 列联表是由两个以上的变量进行交叉分类的频数分布表,是用于提供基本调查结果的最常用形式,可以清楚地表示定类变量之间是否相互关联。又可具体分为:
(1)四格表的独立性检验:又称为2*2列联表的卡方检验。四格表资料的独立性检验用于进行两个率或两个构成比的比较,是列联表的一种最简单的形式。 a) 专用公式:
若四格表资料四个格子的频数分别为a ,b ,c ,d ,则四格表资料卡方检验的卡方值=n*(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),自由度v=(行数-1)*(列数-1) b) 应用条件:
要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,即公式∑
--=e
e f f f 2
02
)5.0(χ,当样本
含量小于40时只能用确切概率法计算概率。
(2)、行*列表资料的独立性检验:又称为R*C 列联表的卡方检验。行*列表资料的独立性检验用于多个率或多个构成比的比较。 a) 专用公式:
r 行c 列表资料卡方检验的卡方值=n*[(A 11/n 1n 1+A 12/n 1n 2+...+A rc /n r n c )-1] b) 应用条件:
要求每个格子中的理论频数T 均大于5或1 独立性检验的理论频数的计算公式为:N f f f yi xi e .= 公式中,fxi 表示横行各组实际频数的总和; fyi 表示纵列各组实际频数的总和; N 表示样本容量的总和; 例1:为了解男女在公共场所禁烟上的态度,随机调查100名男性和80名女性。男性中有 58人赞成禁烟,42人不赞成;而女性中则有61人赞成,19人不赞成。那么,男女在公共场所禁烟的问题所持态度不同? 赞成 不赞成 行总和 男性 fo11 =58 fo12 =42 R1=100 女性 fo21 =62 fo22 =18 R2=80 列总和 C1=120 C2=60 T =180 解:(1)提出零假设H o :男女对公共场所禁烟的态度没有差异。 (2)确定自由度为(2-1)×(2-1)=1,选择显著水平α=0.05。 (3)求解男女对在公共场合抽烟的态度的期望值,这里采用所在行列的合计值的乘积除以总计值来计算每一个期望值(如在下表中:66.7=120*100/180)。 赞成 不赞成 行总和 男性 fo11 =58 fo12 =42 R1=100 Fe11 =66.7 Fe12 =33.3 女性 fo21 =62 fo22 =18 R2=80 Fe21 =53.3 Fe22 =26.7 列总和 C1=120 C2=60 T =180 拒绝零假设,即男女对公共场所禁烟的态度有显著差异。 例2:某机构欲了解现在性别与收入是否有关,他们随机抽样500人,询问对此的看法, 结果分为“有关、无关、不好说,,三种答案,调查结果如下表: 性别 有关 无关 不知道 合计 2 22222 ()(5866.7)(4233.3)(6253.3)(1826.7)7.61 66.733.353.326.7 oij eij i j eij f f f χ-----==+++=∑∑ (-1)-1)1 df ==行数(列数20.05(1) 3.84 χ=22 0.05(1) χχ>