卡方检验的这点你千万不能忽视哦
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方检验的这点,你千万不能忽视哦!
方检验
方检验有两种用途:1、拟合优度检验(goodness of
fit test ):用卡方统计量进行统计学检验,依据总体分布
状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量的分布进行分析的目的。2、拟合优度检验是对一个分
类变量的检验,有时我们会遇到两个分类变量的问题(也就是列联表数据,横标目和纵标目各代表一个分类变量),看这
两个分类变量是否存在联系。现在,来个题考考大家!双向
无序列联表资料什么时候能用卡方检验,什么时候要用
精确概率法?
传统的统计教材中般认为:对双向无序的RxC 列联表资料
进行卡方检验中,当样本量小,存在单元格的理论频数(又
叫期望计数)小于5 ,或这样的单元格数超过总单元格数的20% ,才需要选用精确概率法。其实,这种说法已经过时了。
John H. McDonald 在Handbook of Biological
Statistics (3rd ed.)一书中对卡方检验的适用条件进行
了新的阐述。完全颠覆了我的以往思路。现总结归纳如下
、只要样本量小于1000 的列联表资料,都应该使用精确
概率法。因为,1000 以下样本量的精确概率法在Excel 、SAS 、
SPSS 等软件中都可以轻松实现。
、当样本量比1000 大很多时,即使在大型计算机上的强大软件(例如SAS )做精确概率法的运算都可能存在困难,所以对于样本量大于1000 时,应该使用卡方检验。如果自由度只有1 ,可以使用Yates 连续性校正(但是对于如此大的样本量,Yates 连续性校正对P 值在准确性上的改进是微不足道。)
、为了便于操作,McDonald 将其经验法则建立在总样本
量的基础上,而不是最小的期望计数;如果一个或多个期望
计数是非常小(个位数),即使总样本量大于1000 ,也应该
使用精确概率法,只是但愿你的计算机能够处理这样的运算量。
四、如果分类变量的类别数太多,有些类别的期望计数非常小,应该考虑合并较少频数的类别,即使运用的是精确概率法,合并类别后,更小的自由度将提高检验的效力。
五、如果看到别人按照传统的过时规则,对总样本量小于
1000 的数据进行卡方检验,不用太过于担心。旧的习惯很
难改变,除非期望计数真的非常小(达到个位数),否则这
可能不会对结论产生太大的影响。如果卡方检验得到的P
值只低于0.05 一点点,可以用精确概率法再次分析该数据。如
果精确概率法得到的P 值大于0.05 ,那说明卡方检验所得P
值导致了一个完全相反的结论,产生假阳性。下面举例阐述:
1 期望计数小的问题当期望计数小时,卡方检验的结果会不
准确,所以应该选用确切概率法。但到底“什么叫期望计数小
面对其下一个确切的定义。当样本量太小,应该使用精确
概率法来代替卡方检验。然而,多小才是“样本量太小”?
传统的经验法则:所有的期望计数都大于5 时就可以使用卡方检验;如果一个期望计数小于5,就应该选择精确概率法。
这个经验法则是从旧时代遗留下来的,那个时候计算机尚不
发达,精确法的手工运算是极其繁杂,容易出错的。现在有
了计算机的帮助,是时候让“没有期望计数小于5 就用卡方检验”的规则废除了。举个栗子:模拟案例:现有37 个同类型病人,随机分成三组,分别采用一种治疗方法进行治疗,比较三种疗法的效果。
疗法有效无效A 法74B 法104C 法39 本案例的数据类型为
典型的双向无序列联表资料;研究目的为比较三种疗法的有
效率,是三组样本的率的比较,故可采用卡方检验。SPSS 操作如下:
第一步:根据列联表建立数据集需要设置三个变量,行变量、列变量、频数,本案例分别为疗法、疗效、频数。见下图)
第二步:对频数变量进行加权第三步:进行卡方分析和精确概率法第五步:选择正确的方法与结果通过第一个列联表中的期望计数( expected count )结果以及第二个表下方的
备注,都
可以快速看出最小期望计数是5.05 ,没有单元格的期望计数小于5.
那么根据传统的经验法则(所有的期望计数都大于5 时就可以使用卡方分析结果),那本案例采用卡方分析的结果,卡方值为6.187 ,P=0.045 但是,大家再看看更加准确的Fisher
精确法的结果,P=0.054 ,得出与卡方检验相反的结论,尚不能认为三种疗法的有效率不同。这里毋庸置疑是卡方检验
结果的不准确导致了结果的误判。由本例可以看出,当卡方
检验得出的P 值只小于0.05 一点时,严谨的做法是用精确概率法进行再次分析。尤其不能抱着过时的传统经验法则“奉为圣经”,如今的计算机软硬件都如此轻而易举的实现P 值更加准确的精确概率法的运算(1000 左右的样本量),为何还死死抱着结果不准确的卡方检验不放。是时候让“没有期望计数小于5 就必用卡方检验”的规则从自己脑海里废除了。2
方检验得出的P 值总是小于精确概率法John H. McDonald 在其书中也进行了不同样本量下,卡方检验所得
P 值与精确概率法所得P 值的大小关系的模拟。发现卡方检验得出的P 值总是小于精确概率法;当样本量达到1000 左右,卡方检验的P 值才能比较接近更加准确的精确概率
法的
P 值。所以,当样本量较小时,使用卡方检验更加容易得出
拒绝原假设的结果,产生假阳性错误。松哥统计说本期介绍
了双向无序列联表资料的卡方检验与精确概率法两种方法的选取问题。既然精确概率法所得P 值更加准确,如今计算
机在处理其运算方面可以实现,为什么还按传统的经验法则
来限制精确概率法的应用,得出可能错误的结论。主要还是
大家往往习惯沿用以往的规则,旧的习惯很难改变。如果看
到别人按照传统的过时规则,对总样本量小于1000 的数据进行卡方检验,不用太过于担心。除非期望计数真的非常小