应用SPSS软件进行多分类Logistic回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学习阶段 性别 视力低下
初中 男 轻度 中度 重度
实际 1287 490 1123
表 5 实际和预测频数以及残差
预测 11971743 5941508
频 数 Pea rson R esidua l 01785 - 1. 125
1107. 826
0. 138
百 分 比
实际
预测
4414%
4113%
16. 9%
20. 5%
38. 7%
38. 2%
收稿日期: 2001- 04- 29
© 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
·549·
0. 029 和 0. 006 。 由表 4 中的系数, 我们可估计出某个学生视
力低下程度的概率。例如对一个初中男生来说, 其“性别= 1”,
“学习阶段= 1”, 根据表 4 中的系数B:
对于轻度, g 1=
l来自百度文库 g
P P
(轻度) (重度)
=
-
0. 805+ 0. 458+ 0. 424=
P (轻度) =
M odel ⊙M ain effect (默认)
Sta tistics √ L ikelihood ra tio test
得表 1。 由表中 sig 栏可见性别与视力低下程度有关系 (P = 0. 034) , 而年龄与视力低下程度似无关 (P = 0. 362) , 但这有 可能是因为两者呈非线性关系而引起的, 而非真的没有关系。 我们可以结合调查结果将年龄 (连续性变量) 分为几个水平, 并产生一个分类变量“学习阶段”: 0= 小学, 1= 初中, 2= 高 中。删掉“年龄”变量, 将变量“性别”和“学习阶段”都选入 Facto r ( s) 中, 其他过程同上, 得表 2, 可见学习阶段与视力低 下程度的关系有显著性意义 (P < 0. 001)。
下的概率为 0. 205, 重度视力低下的概率为 0. 382。 表 4 中的
exp (B ) 表示某因素 (自变量) 内该类别是其相应参考类别具
有某种倾向性的倍数, 如 exp (B ) = 1. 581 指对于视力低下为
轻度而不是重度这种情况, 男性是女性的 1. 581 倍; exp (B ) =
类别, 因而其系数也均为 0。由 sig 一栏可见, 两套系数中, “性
别= 1”与“性别= 2”相比均有显著性差异 (P < 0. 001) ;“学习
阶段= 0”与“学习阶段= 2”相比在轻度中有显著性差异, P =
0. 002, 在中度中无显著性差异 P = 0. 202,“学习阶段= 1”与
“学习阶段= 2”在两种程度中均有有显著性差异, P 值分别为
0
注: 3 T h is p a ram eter is set to zero becau se it is redundan t.
表 4 中共有两套L ogistic 回归系数, 分别针对轻度和中度
视力低下。重度作为因变量中的参考类别, 其所有系数都是 0。
“性别= 2”和“学习阶段= 2”分别作为其相应自变量中的参考
惯、年龄等可能的影响因素之间的关系; 不同的婚姻状况 (因 变量) 与收入、心理状态和孩子数量间的关系; 为了获得好的 票房收入, 电影制作者需研究观众的年龄、性别以及约会情况 等和不同类型电影 (因变量) 之间的关系, 以便对特定的观众 群体进行特定的广告宣传。
如果因变量 y 有 J 个值 (即 y 有 J 类) , 以其中一个类别 作为参考类别 (baseline catego ry) , 其他类别都同它相比较可 生成 J - 1 个非冗余 (non redundan t) 的 logit 变换模型。例如以 y = J 作为参考类别, 则对于 y = i, 其 log it 模型为:
2 0. 034
表 2 含有截距, 性别和学习阶段模型的似然比检验
Effect
In tercep t 性别 学习阶段
- 2L og L ikelihood Ch i2Square df
of R educed M odel
102. 332
0. 000
0
140. 753
9. 031
2
141. 130
=
-
2. 188+ 0. 760+ 0. 804=
- 0. 624;
由于重度是因变量中的参考组, 其所有系数均为 0, 所以
g 3= 0。
根据公式 P (Y i) =
exp (g i)
J
可得:
∑exp (g k )
k= 1
在对话框中选择
Sta tistics √ Cell P robab ilites 可得表 5。经作者编辑, 表 5 中只列出了初中男生的情形。表中 的 Pearson R esidual 可用于评估模型拟和的优劣, 若有绝对值 大于 2 的情形, 则应考虑是否有其他原因影响了模型的拟和。
g=
lo g
P P
(y = (y =
i) J)
=
B i0+ B
i1X
1+ B
i2X
2+
…+
B ipX
p
而对于参考类别, 其模型中的所有系数均为 0。
以 99 年度新乡市某中小学视力监测结果为例, 视力低下
程度分轻、中、重三类。 在 SPSS 数据文件内, 建立三个变量:
“低下程度”、“性别”、“年龄”。变量“低下程度”中的 1 代表轻
数理医药学杂志
2001 年第 14 卷第 6 期
由√ Param eter estim ates (默认) 项可得表 4。
表 4 含有截距, 性别和学习阶段模型的参数估计
视力低下
B
轻度 In tercep t [ 性别= 1 ] [ 性别= 2 ] [ 学习阶段= 0 ] [ 学习阶段= 1 ] [ 学习阶段= 2 ] 中度 In tercep t [ 性别= 1 ] [ 性别= 2 ] [ 学习阶段= 0 ] [ 学习阶段= 1 ] [ 学习阶段= 2 ]
38. 988 4
S ig
0. 012 0. 000
由以下操作
M odel ⊙Fu ll facto rial(包括交互作用的全因素模型)
Sta tistics √ L ikelihood ra tio test 得表 3。可见性别和学习阶段间无交互作用 (P = 0. 612) , 因此 下面的分析仍然只考虑主效应 (M ain Effect)。
e0. 077 e0. 077+ e- 0. 624 +
e0 =
1.
1. 080+
080 0. 536+
1=
0.
413
P (中度) =
01536 11080+ 0. 536+
1=
0.
205
P (重度) =
11080+
1 0.
536+
1=
0.
382
即该初中男生轻度视力低下的概率为 0. 413, 中度视力低
9. 263 4. 745
68. 527 29. 319
1. 627 7. 608
95% Confidenec In terva l fo r Exp (B ) df Sig. Exp (B )
L ow er Bound U pp er Bound
1 0. 000
1 0. 000 1. 581
1. 288
96. 963
0. 000
0
991610
21415
4
S ig 01612
Ξ 现在第一军医大学攻读卫生统计学硕士学位
·548·
© 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved.
http://www.cnki.net
表 3 含有截距, 性别和学习阶段及其交互作用 模型的似然比检验
Effect
In tercep t 性别 学习阶段 性别3 学 习阶段
- 2L og L ikelihood Ch i2Square df of R educed M odel
96. 963
0. 000
0
96. 963
0. 000
0
Jou rna l of M a them a tica lM ed icine
V o l. 14 NO. 6 2001
文章编号: 100424337 (2001) 0620548202 中图分类号: T P319 文献标识码: B
应用 SPSS 软件进行多分类 L og ist ic 回归分析
2. 233 指对于视力低下为中度而不是重度这种情况, 初中生是
高中生的 2. 233 倍。 可见, 同常用的 ς2 检验和 t 检验相比, 多
分类L ogistic 回归分析不仅可同时分析所有的影响因素, 还能
0. 077;
对各因素的影响程度进行一定的量化。
对于中度, g 2=
lo g
P P
(轻度) (重度)
1. 941
0
1 0. 002 2. 864
1. 454
5. 640
1 0. 029 1. 529
1. 043
2. 239
0
1 0. 000
1 0. 000 2. 139
1. 624
2. 816
0
1 0. 202 0. 605
0. 280
1. 309
1 0. 006 2. 233
1. 262
3. 953
表 1 含有截距, 性别和年龄模型的似然比检验
Effect
In tercep t 年龄 性别
- 2L og L ikelihood Ch i2Square df Sig
of R educed M odel
309. 043
0. 000
0
321. 157
2. 312
2 0. 362
338. 954
6. 553
黄 爽 安胜利Ξ
(新乡市卫生监督检验所 新乡 453003)
SPSS 是在W in95 或以上平台下运行的软件, 界面友好、 直观, 操作简便, 非常适合于非统计专业人员应用。 本文结合 具体实例, 介绍如何在 SPSS10. 0 上进行多分类 (反应) logistic 回归分析。
通常意义上的 L ogistic 回归要求因变量 y 只有两种取值 (二分类) , 当 y 的取值有两种以上时, 就要用多分类 L ogistic 回归分析 (M u ltinom ialL og istic R eg ression)。这种分析不仅可 用于医疗卫生领域的研究, 也可应用于社会学、经济学等领域 的研究。例如研究学生龋齿严重程度 (因变量) 与刷牙、饮食习
- 0. 805 0. 458 03 1. 052 0. 424 03
- 2. 188 0. 760 03
- 0. 502 0. 804 03
S td. E rro r 0. 168 0. 105
0. 346 0. 195
0. 264 0. 140
0. 393 0. 291
W a ld 22. 879 19. 148
低下程度的可能性大小。进行如下操作,
A na lyze R eg ression M u ltinom ia l L og istic R eg ression ▲ D ep enden t: 低下程度 ▲ Facto r (s) : 性别 (分类变量) ▲ Covariate (s) : 年龄 (连续性变量)
度, 2 代表中度, 3 代表重度; “性别”中, 1 代表男性, 2 代表女
性。SPSS10. 0 中的M u ltinom ialL og istic R eg ression 模块在运
行时会自动将各分类变量中的最后一类 (数值最大者) 作为参
考类别。 根据所建模型中的系数可估计出一个学生某种视力