SPSS列联表分析
SPSS统计分析教程列联表分析
2 列联表分析(Crosstabs)列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。
SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。
其中卡方检验是分析列联表资料常用的假设检验方法。
例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。
预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。
数据如下表。
山东烟台历年观测数据分级表()注:摘自《农业病虫统计测报》 131页。
1) 输入分析数据在数据编辑器窗口打开“”数据文件。
数据文件中变量格式如下:2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图3)设置分析变量选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”变量选入“Rows:”行变量框中。
选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。
4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。
Suppress table: 选中则不输出多维频数分布表。
5)统计量输出点击“Statistics”按钮,弹出统计分析对话框(如下图)。
Chi-Square: 卡方检验。
选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验(Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。
第四章 SPSS的基本统计分析知识讲解
多选项分析
多选项分析的基本思路
– 定义多选项变量集 – 多选项频数分析 – 多选项交叉分组下的频数分析
多选项分析
定义多选项变量集
目的:将已分解的变量定义为一个集合,便于进行多选 项分析
– 菜单选项:analyze->multiple response->define sets – 从原变量中选取被分解的变量(数值型)到variables in
进一步计算
– cells选项:选择在频数分析表中输出各种百分比.
row:行百分比(Row pct); column:列百分比(Col pct); total:总百分比(Tot pct);
分析列联表中变量间的关系
目的:
通过列联表分析,检验行列变量之间是否独立。
方法:
– 卡方检验:对品质数据的相关性进行度量
频数分析
基本操作步骤
(1)菜单选项:analyze->descriptive statistics->frequencies (2)选择几个待分析的变量到variables框. (3)chart选项,选择所需要的图形
计算描述统计量
目的
– 精确把握变量的总体分布状况,了解数据的集中趋 势、离散趋势、对称程度、陡峭程度。
– 菜单选项:analyze->multiple response->crosstabs
频数分析
目的
粗略把握变量值的分布状况。
例:研究被调查者的特征(如:性别、年龄、收入) 研究被调查者对某个问题的总体看法(如:教学方式、选修课程) 研究被调查者某方面的状态(如:购买家电的类型、居民月支出状况)
采用的方法
– 计算频分布表:包括计算 频数、累计频数、百分比、累 计百分比
应用SPSS软件进行列联表分析
应用SPSS软件进行列联表分析在许多调查研究中,所得到的数据大多为定性数据,即名义或定序尺度测量的数据。
例如在一项全球教育水平的研究中,调查了400余人的个人信息,包括性别、学历、种族等,对原始资料进行整理就可以得到频数分布表。
定义四个变量:gender(性别)、educat(学历)、minority(种族)、count(人数),其中前三个为分类变量,并且gender变量取值为0、1,标签值定义为:0表示female,1表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数种族。
下面做gender、educat、minority的三维列联表分析及其独立性检验。
数据文件如图1所示。
图1第一步:用“count”变量作为权重进行加权分析处理。
从菜单上依次选Data--weight Cases 命令,打开对话框,如图2所示。
图2点选Weight Cases by项,并将变量“count”移入Frequency Variable栏下,之后单击OK按钮。
第二步:从菜单上依次点选Analyze--Deseriptive Statistics--Crosstabs命令,打开列联分析对话框(Crosstabs),如图3所示。
图3第三步:在Crosstabs对话框中,如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内(若此时单击OK按钮,则会输出一个2*3的二维列联表)。
这里要输出一个三维列联表,将变量种族minority作为分层变量移入Layer框中,并且可以勾选左下方的Display clustered bar charts项,以输出聚集的条形图,如图8图9所示。
图4第四步:选择统计量,单击Cosstabs对话框下侧的Statistics按钮,打开其对话框,如图5 所示。
列联表资料的SPSS分析
1
一、一般四格表(2 × 2 列联表)资料
实验研究一般四格表(2×2 列联表)资料分析目的主 要有 2 个,一是分析两个比率总体的差别有无统计学意义 或两样本某指标的分布(或构成)总体是否相同,二是分 析两个分类特征是否有关联。
别;Kappa 检验(SPSS 不给可信区间),Kappa = 0.824, P < 0. 01,说明两种检查具有较好的一致性。
可以看出, 两种检验结果是矛盾的。为什么呢? McNemar 法一般用于样本含量 n 不太大的资料,因只考 虑结果不一致的情况,而未考虑样本含量 n 和结果一致的 情况,所以,当 n 很大且结果一致率高时,不一致的数值 相对较小,容易出现有统计学意义的检验结果,但实际意 义可能不大。本例即是如此,应以一致性检验结果为准。 实际上,对于两种检验(查)方法或诊断方法结果进行分 析时,主要分析的也就是一致性。根据Kappa 值判断一致 性强度的标准尚有争议,一般认为:Kappa 值< 0.4 时, 一致性较差;在 0.4~0.75 之间有中度至高度一致性;> 0.75 时,有极好的一致性。
列联表资料的SPSS分析
在实验研究与基础实验研究中,所分析的指 标可以是定量的,也可以是定性的。其定量指标, 有时也转化成定性资料进行分析。这些定性资料 或由定量资料转化而来的定性资料,一般都整理 成列联表形式,根据资料性质和分析目的选择恰 当的分析方法进行统计分析,并将统计分析结果 与专业知识相结合, 做出合理的解释。
51
合计
260 182 144
532
有效率(%)
96.60 90.11 81.94
列联表资料的SPSS分析39页PPT
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
列联表资料的SPSS分析
1、纪律是管理关系的形式。——阿法 纳西耶 夫 2、改革如果不讲纪律,就难以成功。
3、道德行为训练,不是通过语言影响 ,而是 让儿童 练习良 好道德 行为, 克服懒 惰、轻 率、不 守纪律 、颓废 等不良 行为。 4、学校没有纪律便如磨房里没有水。 ——夸 美纽斯
5、教导儿童服从真理、服从集体,养 成儿童 自觉的 纪律性 ,这是 儿童道 德教育 最重要 的部分 。—— 陈鹤琴
SPSS列联表分析
例3: 以下是胃癌真菌病因研究中3种食物样品的真菌检出率,比较3种食物真菌检出率有无差异.
本例中SPSS提示没有理论频数小于5,且最小的理论频数为8.00,故直接选择Pearson 卡方结果,即χ2=22.841,P<0.001,提示三种食物中真菌检出率不同.此时还需要进一步考虑三种食物真菌检出率到底谁与谁之间的差异存在统计学意义,这里就需要用到卡方分割,通俗讲就是把RC列联表拆分成若干个四个表分别进行χ2检验,进而判断不同组两两比较差异是否用统计学意义,但是因为多组比较可能会增加犯I类错误概率,所以还需要对χ2检验的P值进行校正.常用Bonferroni法进行校正,本例中需要进行3次两两比较,校正的检验水准α=0.05/比较次数=0.05/3=0.0167,即当两两比较P<0.0167才能认为差异有统计学意义.
Kappa一致性检验
1、Kappa检验旨在评价两种方法是否存在一致性,或者是同一个研究者先后两次的诊断结果 2、Kappa检验会利用列联表的全部数据 3、Kappa检验可计算Kappa值用于评价一致性大小
配对χ2检验(McNemar检验)
1、配对χ2检验主要确定两种方法诊断结果是否有差别 2、配对χ2检验只利用“不一致“数据,如表中b和c 3、配对χ2检验只能给出两种方法差别是否具有统计学意义的判断
无效 疗效=1
好转 疗效=2
显效 疗效=3
治愈 疗效=4
合计
有效率%
甲法
24
26ห้องสมุดไป่ตู้
72
186
308
92.2
乙法
20
16
24
32
92
78.3
丙法
20
22
14
22
用SPSS作列联分析
列联表的一般结构
列联表中的自由度
I×j列联表
f ij
C1 f11 f 21
C2 f12 f 22
Cj
f1 j f2 j
合计
RT 1 RT 2
R1 R2
Ri
f i1
fi 2
f ij
RTi
合计
CT 1
CT 2
CTj
n
3×3列联表自由度为4
C1 R1 R2
R3
C2 f12 f 22
大学生的运动偏好是否存在差异的问题。如果男女大学生的运动偏好没有差 异,体育部与学生会将针对全体学生发起整体性的宣传活动;如果有差异, 将分别针对男生和女生采取不同的宣传策略。为此,体育部与学生会随机发 放了200份问卷,让每一个学生在乒乓球、羽毛球、网球这三个运动项目上选 择出自己最喜欢的一项。调查数据整理后,得出如表下所示的表格:
f 2
接受域
拒绝域
0.05
0
5.9915 22.4
2
2 22.4 5.9915,拒绝原假设。结论:男女大学生的
运动偏好是有差异的,做出这一推断的把握程度是95%。
某啤酒厂生产三种类型啤酒:淡啤酒、普通啤酒、黑啤酒。会议上有人提出男性
与女性饮酒者啤酒偏好是否相同的问题。若不同,公司将针对不同的目标市场采
1954
a bc d a c b d
ad bc
525 763 831 1123 985 969
0.43
Φ相关系数比较适用于2×2列联表。列联表的行数 和列数大于2时, Φ相关系数会出现大于是1情况。
应用SPSS软件进行列联表分析资料
应用SPSS 软件进行列联表分析应用SPSS软件进行列联表分析在许多调查研究中,所得到的数据大多为定性数据,即名义或定序尺度测量的数据。
例如在一项全球教育水平的研究中,调查了400余人的个人信息,包括性别、学历、种族等,对原始资料进行整理就可以得到频数分布表。
定义四个变量:gender(性别)、educat (学历)、minority (种族)、count (人数),其中前三个为分类变量,并且gender变量取值为0、1,标签值定义为:0表示female,1表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数种族。
下面做gen der.educa t minority的三维列联表分析及其独立性检验。
数据文件如图1所示。
ye Edit 辿ew Derta Transforfti Analyse Graphs Utlltie^ Add-cns Window Help®■昌国穷》8h再鄭H<5曲圜flj靄20图1第一步:用’Count”变量作为权重进行加权分析处理。
从菜单上依次选Data--weight Cases命令,打开对话框,如图2所示。
点选Weight Cases by项,并将变量“count”移入Frequency Variable栏下,之后单击OK按钮。
第二步:从菜单上依次点选An alyze--Deseriptive Statistics-Crosstabs命令,打开列联分析对话框(Crosstabs)如图3所示Fdi 迥 E住rH 丁 T W TPI►i : K 「Tl19CnprCdlK1 13131X5 0GCl 71H 1 9 1 tc 0 11皿F 耳第三步:在Crosstabs 对话框中,如图4将变量性别gender 从左侧的列表框内移 入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat 移入列变量Column(s)框内(若此时单击OK 按钮,则会输出一个2*3的二维列联表)。
spss列联表分析
列联表分析分析:从表中可以看出,每箱数量的低、中、高与品牌偏好的低、中、高基本一致,说明每箱数量对是有影响的。
分析:从表中可以看出,价格低时,品牌偏好度不高,而在价格高时,品牌偏好高的一组值达到了87.8%,说明价格对品牌偏好有明显的影响。
分析:从表中可以看出,价值低时,品牌偏好不明显,价格适中时,品牌偏好有高值的趋势,价值高时,品牌偏好度达到了88.0%,说明消费者在考虑产品的价值时,品牌偏好比较明显。
分析:从表中可以看出,在护肤的低、中、高三组中,品牌偏好度高的比例都比较高,说明消费者在考虑产品护肤时,有较高的品牌偏好。
分析:从表中可以看出,在样式的低、中、高三组中,品牌偏好度高的比例都比较高,说明消费者在考虑产品样式时,有较高的品牌偏好。
分析:从表中可以看出,随着吸水性由低到高,品牌偏好的高值比例也在增加,说明吸水性越好,品牌选择偏好越明显。
分析:从表中可以看出,随着渗漏值由低到高,品牌偏好的高值比例也在增加,说明渗漏越差,品牌选择偏好越明显。
分析:从表中可以看出,在舒适度上,品牌偏好的高值比例一直都很高,说明在考虑产品的舒适度时,品牌偏好非常明显。
分析::从表中可以看出,在考虑舒胶带时,品牌偏好的高值比例一直都很高,说明在考虑产品是重复粘贴胶带还是普通胶带时,品牌偏好非常明显。
分析:这是控制了价格时的每箱数量和品牌偏好,可以看出,在价格低时,每箱数量的低、中、高与品牌偏好的低、中、高还是有关系的,但是与没有控制价格时相比,两者之间的关系被削弱了。
价格适中时,也是如此。
在价格高时,关系更加清晰。
分析:这是控制了样式时的护肤与品牌偏好,可以看出,在样式低组和中组,护肤与品牌偏好之间原有的关系被逆反了,只有在样式的值高的时候,护肤与品牌偏好才有一定正向相关关系。
分析:这是控制胶带时的舒适度与品牌偏好,可以看出,控制胶带以后,舒适度与品牌偏好完全一致,这加强了舒适度与品牌偏好之间原有的高度相关性。
统计学教程(含spss)六_列联分析
C0
无相关
C
0 C 1
2 2 n
适用于大于2 ×2列联表
C的最大值依赖于列联表的行列数
a 0 a+c
0 d b+d
0 c a+c
b 0 b+d
合计
n
合计
n
a bc d a c b d
ad bc
bc
bc 2
bc 1 bc
Φ相关系数
相关系数与 统计量的关系
2
2
n
或
f e11
a ba c
n
f e12
985
969
1954
a bc d a c b d
ad bc
525 763 831 1123 985 969
0.43
Φ相关系数比较适用于2×2列联表。列联表的行数和列数大于2时, Φ相关系数会出现大于是1情况。
C相关系数
相关系数(列联系数)计算公式 C
a b b d
n
2 n 2
f e 21
a c c d
n
f e 22
b d c d
n
2×2列联表 C1 R1 C2
合计 a+b c+d
a
2
f e11
2
f e11
b
2
f e12
2
f e12
c
合计 合计
f11 f21 f31 CT1
RT1 RT2 RT3
自由度 R 1C 1 3 14 1 6
例题的列联表分析spss步骤
三、数据分析
• 1.百分比 • 步骤:(1) 点击主菜单 【Analyze】 >[discritptive statistic]>[crosstab], 弹出下列窗 口
(2)选择行、列要安排的变量。 选择“单位”->columns;变量“意见”>row;
• (3)选择需要的分析结果(本次主要求期望频数) 第一步:点击【cell】弹出下列窗口. 第二步:选择
“Expected”。最后点击【continue】返回原来的窗口
点击【ok】查看输出结果
3.卡方检验
(3)点击【statistic...】,在弹出的窗口中选择【chisquare】,点击[continue]返回原来窗口。
(3)选择需要的分析结果(本次主要求百分比)
第一步:点击【cell】弹出下列窗口. 第二步:选择“percentage”内
的“row”-->行百分比;"column"-列百分比;"total->"全部百分比。最后 点击【continue】返回原来的窗口
(4).点击【ok】,
5.查看输出结果
2.期望频数
列联表分析spss实现步骤
李俊海 河南工业大学理学院
一、数据格式
二、选择权重(可选步骤)
• 如果数据最原始 赞成和反对数据,则可以直接用列联 表分析。 • 若数据是上述格式---调查结果频数数据,则应需要 把频数变量“人数”作为权重对待! 方法:点击[data]菜单->选择【weight case...】-->弹出 下列窗口
用SPSS作列联分析分解
网球
28 37
合计
110 90
合计
71
64
65
200
如果原假设成立,则总体中男生和女生喜欢乒乓球、羽毛球、网球人数的比 率应是相等的,由列联表所计算得出的总比率35.5%、32.0%、32.5%就是对总 体中的相应比率的估计。做为总体中相应比率的估计,它们对男生和女生就 应当都是适用的。于是,可以根据这些总比率,计算得出各个单元格中的一 个理论上的频数,此理论频数可称之为期望频数,记作 f e : 期望频数 男生
列联表的一般结构
列联表中的自由度
I×j列联表
f ij
C1 f11 f 21
C2 f12 f 22
Cj
f1 j f2 j
合计
RT 1 RT 2
R1 R2
Ri
f i1
fi 2
f ij
RTi
合计
CT 1
CT 2
CTj
n
3×3列联表自由度为4
C1 R1 R2
R3
C2 f12 f 22
f eij
乒乓球 39.1
f eij RTi
CTj n
CTj RTi n
网球 35.8 合计 110
羽毛球 35.2
女生
合计
32.0
71
28.8
64
29.3
65
90
200
观察频数与期望频差异的大小以 2
统计量衡量。该统计量服从自由度 为 R 1 C 1 的 2 分布。 0.30 0.25 0.20 0.15 0.10 0.05
1.70 8.00 2.33 2.02 22.4
列联表分析spss步骤
【Exact钮】
• 针对2*2以上的行*列表设定计算确切概 率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo) 或确切计算(Exact)。蒙特卡罗模拟 默认进行10000次模拟,给出99%可信 区间;确切计算默认计算时间限制在5 分钟内。这些默认值均可更改。
【Statistics钮】
• 弹出Statistics对话框,用于定义所 需计算的统计量。
• o Chi-square复选框:计算X2 值。
• o Correlations复选框:计算行、 列两变量的Pearson相关系数和 Spearman等级相关系数。
• o Norminal复选框组:选择是 否输出反映分类资料相关性的指标, 很少使用。
Crosstabs过程不能产生一维频数表(单变 量频数表),该功能由Frequencies过程实现。
界面说明
【Rows框】 • 用于选择行*列表中的行变量。 • 【Columns框】 • 用于选择行*列表中的列变量。 • 【Layer框】 • Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中
注意事项
• 如何选用上面众多的统计结果令许多初学 者头痛,实际上我们只需要在
• 未校正卡方、 • 校正卡方和 • 确切概率法 三种方法之间选择即可,其余的对我们而言
用处不大,可以视而不见。
假设三个变量分别名为R、C和W,则数据集结构和命令如下:
R
C
W
1.00
1.00
54.00
1.00
2.00
44.00
2.00
1.00
8.00
2.00
2.00
20.00
1.
Data==>Weight Cases
列联表分析及在SPSS中的实现
Nominalby Nominal
Phi Cramer’sV Contingency Coefficient
N of Valid Cases
Value
App ro x . Sig.
. 134 . 014
k<i
h< j
(3) 不同数据类型的有关统计量
根据两个特征 (变量) 的数据类型的不同 ,列联表分析还可给出某些关联系数及一些特别
的统计量 (限于篇幅 ,不给具体计算公式 ,只作简单说明)
© 1995-2006 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
1 6 数理统计与管理 21 卷 1 期 2002 年 1 月
适用范围
名义数据 之间
次序数据 之间
名义数据与 区间数据 之间
名称及类型 lambda 系数 (三种) :
λY| X λ, Y| X及λ 不确定系数
U ncertainty coefficient
设 ,认为其独立 ,并不再考虑关联程度 。
(2) FCX 对因素 B 的分析及结果 同样因为是名义数据对名义数据 ,在做完 Chi2square 检验后发现不独立 ,再选 Nominal 中
的 Phi ,Contingency coefficient ,Cramer’s V ,及 Lambda ,Uc 。(限于篇幅 ,与 (1) 相同的两表省
说明了上述分析在 SPSS9. 0 中的实现 ,并最终结合实例进行了应用 。
关键词 :列联表 (Contingency table) ;卡方检验 ;相关分析 ;SPSS9. 0
中图分类号 :O212. 1
SPSS列联表分析
设置好后,点击“确定”按 钮,SPSS将自动进行列联表
分析。
打开SPSS软件,点击“文件” 菜单,选择“新建”,然后
选择“数据视图”。
在变量视图界面,点击 “新建变量”按钮,设置 变量名称、类型、标签等
信息。
在数据视图界面,输入数据, 每行代表一个观测值,每列
代表一个变量。
在列联表对话框中,设置行 变量和列变量,以及单元格
卡方检验的公式为:卡方值 = Σ[(观测值 - 期望值)^2 / 期望值]
卡方检验的显著性水平通常设定为0.05,当卡方值大于显著性水平时,可以拒绝原假设,认为 两个变量之间存在显著性关联。
独立性:两个变量之间相互独立, 不存在因果关系
方差齐性:两个变量的方差应该 相等
添加标题
添加标题
添加标题
添加标题
列联表制作:使用 SPSS软件制作列联 表
添加标题
列联表分析:对列 联表进行卡方检验、 相关性分析等
添加标题
结果解释:根据分 析结果,解释行变 量和列变量之间的 关系
添加标题
结论与建议:根据 分析结果,提出结 论和建议
卡方检验是一种用于检验两个分类变量之间是否存在关联的统计方法。
卡方检验的基本思想是通过比较观测值和期望值的差异,来判断两个变量之间是否存在显著性 关联。
列联表分析的结果需要结合实际 情况进行解释,不能简单地根据 统计数据得出结论。
结果解释需要结合其他相关因素, 如样本量、数据来源、研究目的 等,进行全面分析。
添加标题
添加标题
添加标题
添加标题
在解释结果时,需要注意到数据 的代表性和可靠性,避免过度解 读或误读数据。
在解释结果时,需要注意到数据 的局限性,如数据收集过程中的 偏差、数据质量等问题,避免盲 目相信统计结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.配对四格表卡方检验
回目录
例2: 有两种方法可用于诊断某种癌症,A方法简单易行,成本低,患者更容易接受,B 方法结果可靠,但操作繁琐,患者配合困难。某研究选择了53例待诊断的门诊患 者,每个患者分别用A和B两种方法进行诊断,判断两种方法诊断癌症有无差别, A方法是否可以代替B方法。 问题1:两种方法诊断癌症有无差别? 问题2:A方法是否可以代替B方法(两者的一致性如何)?
回目录
Kappa一致性检验
1、Kappa检验旨在评价两种 方法是否存在一致性,或者是 同一个研究者先后两次的诊断 结果 2、Kappa检验会利用列联表 的全部数据
3、Kappa检验可计算Kappa值 用于评价一致性大小
配对χ2检验(McNemar检验)
1、配对χ2检验主要确定两种方 法诊断结果是否有差别
发病 率%
服药组 40(50.49)190(179.51)230
17.3
(nR) 9
对照组 50(39.51)130(140.49)180
27.7
8
合计
90(nC)TRC=3n2R0nC/n
410(n)21.9
5 TRC:第R行、第C列格子的理论频数;nR:第R行的合计数; nc:第C行的合计数;n:总计数
回目录
变量视图 数据视图
回目录
结论:
两种药物治疗急性心肌梗塞患者的预后并 不相同,A药病死率为5.6%,低于 B药 (14.3%),但差异无统计学意义(χ2=2.796, P=0.095>0.05)。
回目录
例1.3:案例解析( Fisher精确检验) 用两种药物治疗某种疾病的结果如下,问两药的疗效有误差别?
回目录
结论:
两种药物治疗胃溃疡的复发率并不相同,中药组复发率为23.2%,高于西 药组(5.9%),差异有统计学意义(χ2=6.305,P=0.012<0.05)。
回目录
例1.2:案例解析(连续性校正卡方)
用药物A治疗急性心肌梗死患者198例,24小时内死亡11例,病死率为5.56%,另 42例治疗时采用药物B,24小时内死亡6例,病死率为14.29%,提问:两组病死率 有无差别?
组别
A药 B药 合计
治愈
2 3 5
未治愈 合计
14
16
8
11
22
27
治愈率 % 12.5 27.3 18.5
回目录
Fisher 精 确 检 验 比 较 稳 健 , 国 外 有 统计学专家认为样本数<1000就应 该 用 Fisher 精 确 检 验 , 也 有 些 人 认 为所有的卡方检验都可以使用 Fisher精确检验。
回目录
例1.1:案例解析: 某种中药治疗胃溃疡的复发率与常规西药比较是否相同?
Hale Waihona Puke 疗效分组治愈中药
43
西药
48
操作流程:
数据:加权个案-频率变量:权重-确定 分析-统计描述-交叉表 行:分组 列:疗效
统计量:卡方-确定 单元格:计数-观察值、期望值
百分比:行-继续 确定
复发 13 3
回目录
数据录入
个案加权
列联表分析
回目录
列联表是指对一组观察对象,分别观察其两种分类变量的表现,归纳成双向交叉 排列的统计表,这类统计表用的描述行变量和列变量之间的关系称列联表,或交叉 表。
回目录
回目录
回目录
➢一、 四格表资料的2检验 ➢二、 配对四格表资料的 2检验 ➢三 、 四格表资料的Fisher确切概率法 ➢四、 R×C列表资料的2检验 ➢五、 多个样本率间的多重比较
2、配对χ2检验只利用“不一致 “数据,如表中b和c
回目录
前面介绍过列联表,它的行变量和列变量代表的是一个事物的两个不同属性, 以我们举过的A药和B药治疗急性心肌梗死患者疗效比较为例,例子中行变量 “药物”和列变量“转归”是患者的两个不同特征。
本例为配对设计的列联表,它的行变量和列变量代表的是一个事物的同一属 性,只是对这个属性的判断方法不同而已。如上表所示,行和列均指的是患者 是否患有癌症,所不同的是一个是A方法,另一个是B方法。这种列联表最大的 特点是行和列数目永远都是一样的,且属性相同。此时,再用成组计数资料的 χ2检验就不合适了。这里我们就要用到Kappa一致性检验和配对χ2检验 (McNemar检验)。
(130-140.49)2/140.49=6.36,=(2-1)*(2-1)=1,查表得,0.25>P>0.01
回目录
2检验实际上是将两样本率的比较转换成实际频数与理论频数 的比较,2值的大小反应了各格子的实际频数与理论频数T的接近 程度。若检验假设H0成立,实际频数与理论频数相差就不应该很 大,因此得到的2值可能就比较小,P>,可认为两样本率来自同一 总体的可能性比较大。反之,若实际频数与理论频数相差很大,则 得到的2也相应的很大,P<,可认为两样本率来自同一总体的可 能性比较小。
率的比较 一致性检验 拟合度检验
回目录
1.四格表卡方检验
回目录
目的:推断两个样本率(构成比)是否有差别(两样本率来自总体率相同的总体) 要求:两样本的两分类个体数排列成四格表资料 H0:两样本的率相同; H1:两样本的率不同
Pearson卡方值: 自由度:
回目录
两组人群流感发病率的比较
分组
发病人数 未发病人数 合计
假设两组发病率相同,均等于合计的发病率21.95(90/410),组服药组的理论发病人数
T11=230*(90/410)=50.49,对照组的理论发病人数T21=180 *(90/410)=39.51,同理可以算出两
组未发病的理论频数分别为179.51,140.49
带入上述公式2=(40-50.49)2/50.49+(190-179.51)2/179.51+(50-39.51)2/39.51+
回目录
回目录
四格表与各组率
卡方检验结果
回目录
四核表卡方的选用条件:
1、总例数≥40,且所有理论频数≥5,看Pearson卡方结果; 2、总例数≥40,有1个理论频数≥1且<5,χ2检验需进行连续性校正,这时 以连续性校正结果为准;(连续性校正卡方只在四格表中才计算) 3、总例数≥40,至少2个理论频数≥1且<5,看Fisher精确检验 结果; 4、总例数<40或者出现理论频数<1,看Fisher精确检验结果; 5、总例数≥40,且所有理论频数≥5,似然比χ2检验与Pearson卡方一致