SPSS学习系列24. 卡方检验

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

24. 卡方检验

卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即

(n f f f e

e 2

202

~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。

卡方检验要求:

(1)分类相互排斥,互不包容; (2)观察值相互独立;

(3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。

卡方校正公式为:

--=e

e f f f 2

02

)5.0(χ

卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途:

(1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相

互独立;

(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。

(一)检验单样本某水平概率是否等于某指定概率

一、单样本案例

例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。

有数据文件:

检验“性别”的男女比例是否相同(各占1/2)。

1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”

2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;

注意:变量“性别”的度量标准必须改为“名义”类型。

3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;

4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等”;

注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。

点【确定】回到原窗口,点【运行】得到

双击上表,得到更多的描述:

结果说明:

(1)男生的观察频数为28,理论频数为25,残差=3;女生的观察频数为22,理论频数为25,残差=-3;可以计算

卡方值=[32+(-3)2]/25=0.72

(2)卡方检验的P值=0.396>0.05, 故接受原假设H0,即认为男女性别人数无差异。

注:卡方检验的P值是近似P值,若用“二项分布检验”计算出精确P值=0.480. 另外,上述卡方检验也可以用:【分析】——【非参数检验】——【旧对话框】——【卡方】

得到的结果是一致的。

二、两样本或多样本案例——比较不同类的构成比或发生率的差异

问题:两组收入不同的受访家庭其轿车拥有率的比较。

使用【交叉表】的卡方检验来实现,需要注意:若交叉表中存在有序分类变量,则适合用秩和检验而不是卡方检验。

有数据文件:

变量O1表示是否拥有轿车:“1=有,2=没有”;

变量Ts9表示收入级别:“1=4.8万以上,2=4.8万以上”。

1. 【分析】——【描述统计】——【交叉表】,打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框,根据需要勾选“显示复式条形图”;

2. 点【统计量】,打开“统计量”子窗口,勾选“卡方”表示进行卡方检验;

3. 点【继续】回到原窗口,点【单元格】打开“单元显示”窗口,【计数】输出观察频数和理论频数,默认勾选“观察值”;【百分比】勾选“行”;【非整数权重】设置小数权重问题,保持默认;

注:“残差”设置残差的输出方式;“z-检验”对多于两组的数据做两两组间比较;

点【继续】回到原窗口,点【确定】得到

低收入家庭有9.6%拥有轿车;高收入家庭34.4%拥有轿车。

脚注a说明没有单元格的期望频数<5, 满足Pearson卡方检验要求,故看Pearson卡方检验结果即可:P值=0<0.05, 拒绝原假设H0,即高低收入不同的家庭轿车拥有上的差异有统计学意义。

注:(1)“Pearson卡方”:最标准最常用;

(2)“连续校正”:只适用于4格表,样本量>40, 所有期望频数都>1, 只有1/5以下的单元格期望频数<5;

(3)“Fisher精确检验”:不需要近似,结果最精确,但耗时多;若样本量<40,有单元格的期望频数<1的4格表,需要用该检验;若有单元格的期望频数<1, 或<5的期望频数较多,也可采用该检验;

(4)“似然比”:用似然比公式计算卡方,在处理多维表是有更大优势;

(5)“线性卡方”:检验的原假设H0是行列变量间无线性相关,在列联表分类变量中很少用,更多用于连续变量。

(三)检验两分类变量间的关联程度

例如,进行客户满意度研究中,价格、质量、服务都与总体满意度相关,哪项与总体满意度关系更密切?

卡方值的大小可以粗略地反映两变量联系的强弱,更精确的描述可以用“相对危险度”和“优势比”。

(1)相对危险度(RR )

实验组人群反应阳性概率与对照组人群反应阳性概率的比值,即

//t t

c c

P a n RR P c n =

= 用于反应实验因素与反应阳性的关联程度,RR=1表明二者无关联;RR<1表明实验因素导致反应阳性的发生率降低。

(2)优势比(OR )

有时反应阳性概率的估计值很难求得(如回顾性研究),往往使用优势比代替RR 值。优势比是反应阳性人群中实验因素有无的比例与反应阴性人群中实验因素有无的比例之比,即

//a b ad

OR c d bc

==

若OR>1, 则表明实验因素更容易导致结果为阳性,或者说“采用的实验因素”与“结果为阳性”有关联。

注:当反应阳性概率<0.1时,OR 可作为RR 的近似。

优势比是两个比数之比,例如,女性购买与不购买某产品的比数是男性该比数的3倍。

问题:描述家庭收入级别与拥有轿车的关联程度

1. 【分析】——【描述统计】——【交叉表】,打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框;

相关文档
最新文档