卡方检验与相关回归

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

卡方检验

本讲涉及的卡方检验(同上一讲的拟合优度检验有所不同)要用于推断两个或多个总体率、构成比是否有差别;两个分类变量间是否存在关联等;两个等级变量间是否存在线性趋势。通常我们作卡方检验只用到了Crosstabs命令中极少部分的功能。

Crosstabs:

例如某医生用两种药物治疗十二指肠溃疡,问两种药物疗效是否不同,数据间胃溃疡.sav:

Rows框用于选择行变量;Columns框用于选择列变量;Layer指的是分层分析,将分层变量选入Layer框中,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next设为不同层。

Display clustered bar charts复选框显示复式条图。

Suppress table 复选框禁止在结果中输出行×列表(主要用于表格过于巨大时为了节省空间)。 Exact 选项含义同前Statistics 对话框,用于定义所需计算的统计量。

接着要在statistics 中定义如何分析,以及如果相了解两变量间关联应该如何选关联指标:

Chi-square 复选框:计算Pearson χ2值。请注意作卡方检验时一定要满足总例数与理论数足够大的要求 ,系统会在卡方检验表格下提示有多少格子的理论数小于5

Correlations 复选框:计算行、列两变量的Pearson 相关系数(主要用于行、列变量都是计量资料的两变量相关分析,并计算Pearson 关联系数r 又称为ρ)和Spearman 等级相关系数(主要用于分析行、列变量均为等级变量,计算Spearman 等级相关系数又称为秩相关系数r s 或又称为ρs )。 *比如两正态变量间的Pearson 相关系数可以用crosstab 过程计算,只要将correlations 勾上即可 在列联表的分析中,除了计算卡方值外,有时还要了解行列变量间的关联密切程度;SPSS 为我们提供了针对行列变量均为无序分类(Nominal )、等级变量(Ordinal )的列联表关联程度的衡量指标:

Nominal 表示是否分析两个分类(通常指无序分类)变量间关联性,其下可计算4个指标:

1)Contingency coefficient 复选框:即列联系数,在分析行列变量间关联性时使用;其值为n C +=22

χχ界于0~1之间(但是如果行列数较少比如仅有2行2列,该系数最大只能到0.707;而

四行四列则可以达到0.87,所以它的大小除了放映两个变量间的关联性还和表格的维度有关,因此该指标较少用于不同维度列联表间关联性比较);该系数越大表示两变量间关联性越大,反之则较小。

2)Phi and Cramer's V 复选框: φ Phi )=n 2

χ,仅仅在四格表χ2检验中使用,界于0~1之

间,反映行与列变量间的关联性大小;如果超过两行或两列,则关联系数可以用Cramer's V 表示,v =

())k ( 12一个为行数和列数中较小的其中-k n χ,它同样界于0~1之间。在四格表中这两个系数相同。

3)Lambda 复选框:又称为Goodman & Kruskal's lambda (λ),表示用某个变量预测另外一个变量时能够减少估计错误概率的大小。其值为1时表明自变量预测应变量时能够100%的减少估计错误,也就意味着它们间的联系极为密切;为0时表明自变量预测应变量差时不会减少任何估计错误,看来它们间不存在什么联系。该系数通常情况下不是对称的(即用行变量估计列变量、用列变量估计行变量两种情况下误差减少的概率不一定相同),所以系统还会给出一个对称的系数值。在与此同时系统还将提供Goodman & Kruskal's tau (τ),该系数同样是不对称的,它的含义同λ ⎬η:(∠*⌝∉K⎛ *⌝∉⎫⎬ ∉ 0ϒ ⎪∍ ⎢ ⋂ϒ⋂ *⎭ ⎰

4)Uncertainty coefficient 复选框:该系数与Lambda 同属于误差概率减少指标(Proportion Reduction of Error ),又称UC 或 Theil's U (不确定系数),反映用某一个变量估计另外一个变量时能够减少其估计误差的大小;其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。其计算步骤较为繁琐。

以上所有系数的计算可以参考SPSS 中的Algorithm 文件夹中的Crosstabs.pdf

Ordinal 选择是否输出反映两个有序分类变量相关性的指标:

1)Gamma 复选框:又称为Goodman & Kruskal's Gamma (γ),其原理是分别计算列联表中分类一致(concordant ,P )以及不一致(discordant ,Q )的对比数,计算(P-Q)/(P+Q)即为伽马值。如果一致的对比数大于不一致的,则伽马值为正值,表示在某一个变量的取值随着另一个变量有增大的倾向,两者存在正相关;如果一致的对比数小于不一致的,则伽马值为负值,表示在某一个变量的取值随着另一个变量有减小的倾向,两者存在负相关;而如果如果一致的对比数等于不一致的,则伽马值为0,表示在某一个变量的取值与另一个变量的取值没有关联。伽马值是对称的。但是伽马值没有考虑等秩(tie )的对比数,所以下面有三个指标用于解决这个问题。

2)Somers'd 复选框:γ∑⊇ β⊄⊆τ-b 、τ-c 的计算过程中不区分自变量与因变量,因而它们是对称的;该系数的计算过程中假设行或列上的一个变量为自变量,Somers' d = (P-Q )/(P+Q+T),P 、Q 的含义同上,T 为以因变量中等秩的对子数;其含义的解释同伽马值。

3)Kendall's tau-b 复选框:该值的含义与伽马几乎相同,不同的是他对列联表中的等秩(tie )

相关文档
最新文档