第八章 卡方检验与交互分析

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第八章卡方检验与交互分析

交互分析是社会调查研究中常用方法之一,用于研究两个定类变量的关系。交互分析中用于检验两个变量是否相关的方法叫做卡方检验,也叫独立性检验。卡方检验是建立在观测频次和期望频次之差基础上的一种检验。

一、卡方检验的原理

例:一项调查得到890个样本的与收入和所处地区的数据,希望分析收入和地区的关系。

表1

东部城市中西北部城市总频次

个人月收入Y 0-1000元146 172 318

1000-1500元66 100 166

1500-2000元51 86 137

2000元以上166 103 269

总频次429 461 890

相对频次0.482 0.518 1.00 要检验的H0:收入和地区之间没有相关性,即每一地区的收入分布模式应该是相同的,收入的高低不应随着地区的不同而有所差异。也就是说,如果东部城市的四个收入类别各自比重和中西北部城市的四个收入类别各自比重一致,那么,收入和地区之间是相互独立的。

如果这个890人的样本能够反应总体的独立性特征,那么就应该能够观测到两个地区具有相同的收入分布模式,称为期望模式,样本的期望观测频次如下:表2

东部城市中西北部城市总频次

个人月收入Y 0-1000元153.3 164.7 318

1000-1500元80 86 166

1500-2000元66 71 137

2000元以上129.7 139.3 269

总频次429 461 890

相对频次0.482 0.518 1.00 接下来,计算观测频次f0与期望频次f e之间的偏差(f0-f e),如果这些偏差比较小,则有利于证明原假设即总体的独立性。反之,则可能推翻原假设。但偏差之和为0,所以对偏差进行平方。但是,为了说明每一个偏差的相对重要性,每一偏差平方和都需要和本组中的期望频次相比较,计算相对(f0-f e)2/f e。然后,将

所有组的贡献相加,从而得到度量全部偏差的一个量,叫做卡方χ2=,

服从自由度为(c-1)(r-1)的卡方分布。如用c 和r 分别表示表中的列数和行数,自由度为(c-1)(r-1)。

f 0 f e

(f 0-f e )

(f 0-f e )2/f e

计算出卡方值后,可根据已知

的显著性

水平和自由度查卡方分布表,找出临界值,与之作对比。反过来,也可以计算出概值,再根据我们所希望的显著性水平做比较。该例题中计算出χ2为31.6,查表发现对应自由度为3的那一行的所有临界值都小于χ2,因此,概值小于0.001。由于概值如此小,检验水平可以是1%甚至更小,所以一定可以拒绝原假设。也就是说,在总人口中,收入与地区有显著的相关性,二者并不独立。

练习题:在电视的收视率调查中,得到性别与收视习惯的联列表如下,试分析性别和收视习惯的关系。

解:原假设为“性别和收视习惯相互独立”,如果原假设成立,那么两列期望凭此应通过0.69和0.31分别乘以最后一列总频次而得到。

(f 0-f e )

(f 0-f e )2/f e

卡方值=4.57。自由度为

(2-1)(2-1)=1。卡方值大于χ0.052=3.84,所以概值小于0.05。可以认为在5%的显著性水平下拒绝原假设,认为性别与收视习惯并不是相互独立的。 二、卡方检验的局限性和补救办法 1、卡方值随分类的不同而不同

交互分析将数据按类别整理,分类的不同可改变卡方值,甚至导致相反结果。在例题中,收入如果分成高、中、低三类,结果必然不同。因此,在分类时最好有理论(统计上的)依据。如果没有,则需要有统计上的依据,例如利用中位数,将数据平分两类。

2、样本量不能太小,也不宜过大

样本量应大于30或50,一般调查中都会超过50。样本量太大,检验结果也可能会失去意义。因为卡方值受样本量影响很大,样本量越大,越容易得到拒绝原假设的结果。比如将样本量增大10倍,各种对应关系不变,则卡方值也会增大10倍。原来的不拒绝结果可能就会变成拒绝原假设的结果。

为了解决这一问题,要采用补救办法,常用的是联列系数C ,可以消除样本量的影响,解释变量间真正关系的密切程度。

C=

C 值相同。

因此,当卡方检验显著单样本量有很大时,最好参照C 值的大小,如果C 值也比较大,才可以拒绝原假设。

遗憾的是,对于C 值的显著程度没有可行的统计检验方法,有些学者认为C 值至少要超过0.16,最好达到0.25,才可以考虑两个变量相关。同时,C 值还受到连列表规模影响。对于2*2的表,C 值不会超过0.707,但对于4*6的表,C 值上限可达到0.877。所以,也有学者建议将C 值与其理论上限值作比较,如果接近上限,关系显著。但后一种方法过于严格,对很多大样本调查,C 值都很难达到显著程度。因此,在统计分析时,应根据问题性质灵活掌握,对于那些要求精密的自然科学来说,概值界定为0.001,而对于一般的社会调查来说,概值小于0.05或小于0.1就可以认为达到了显著相关了。

相关文档
最新文档