第十一章 分类资料的回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章分类资料的回归分析
――Regression菜单详解(下)
(医学统计之星:张文彤)
上次更新日期:
10.1 Linear过程
10.1.1 简单操作入门
10.1.1.1 界面详解
10.1.1.2 输出结果解释
10.1.2 复杂实例操作
10.1.2.1 分析实例
10.1.2.2 结果解释
10.2 Curve Estimation过程
10.2.1 界面详解
10.2.2 实例操作
10.3 Binary Logistic过程
10.3.1 界面详解与实例
10.3.2 结果解释
10.3.3 模型的进一步优化与简单诊断
10.3.3.1 模型的进一步优化
10.3.3.2 模型的简单诊断
在很久很久以前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行,我们的老祖先--类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上...
我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代,只不过是我开机准备写这一部分的时候,心里忽然想到,在10年前,国内的统计学应用上还是卡方检验横行,分层的M-H卡方简直就是超级武器,在流行病学中称王称霸,更有那些1:M的配对卡方,N:M的配对卡方,含失访数据的N:M 配对卡方之类的,简直象恐龙一般,搞得我头都大了。其实恐龙我还能讲出十多种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐龙完全统制地球,Logistic模型就已经飞速进化到了现代人的阶段,各种各样的Logistic模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样贪婪的享用着恐龙的身体。好,这是好事,这里不能讲动物保护,现在我们就远离那些恐龙,来看看现代白领的生活方式。
特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流行病学,我这样写只是想说明近些年来统计方法的普及速度之快而已。
据我一位学数学的师兄讲,Logistic模型和卡方在原理上是不一样的,在公
式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而已,多数情况下可忽略其不同。
§10.3 Binary Logistic过程
所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。
随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。
10.3.1 界面详解与实例
例11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析(本例来自《卫生统计学》第四版第11章)。
∙i:标本序号
∙x1:确诊时患者的年龄(岁)
∙x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等
级
∙x3:肾细胞癌组织内微血管数(MVC)
∙x4:肾癌细胞核组织学分级,由低到高共4级
∙x5:肾细胞癌分期,由低到高共4期
∙y:肾细胞癌转移情况(有转移y=1; 无转移y=0)。
在菜单上选择Analyze==》Regression==》Binary Logistic...,系统弹出Logistic回归对话框如下:
左侧是候选变量框,右上角是应变量框,选入二分类的应变量,下方的Covariates框是用于选入自变量的,只不过这里按国外的习惯被称为了协变量。两框中间的是BLOCK系列按扭,我在上一课已经讲过了,不再重复。中下部
的>a*b>框是用于选入交互作用的,和其他的对话框不太相同(我也不知道为什么SPSS偏在这里做得不同),下方的Method列表框用于选择变量进入方法,有进入法、前进法和后退法三大类,三类之下又有细分。最下面的四个按钮比较重要,请大家听我慢慢道来:
o Select>>钮:用于限定一个筛选条件,只有满足该条件的记录才会被纳入分析,单击它后对话框会展开让你填入相应的条件。不过我觉得该功能纯属多余,和专门的Select对话框的功能重复了。
o Categorical钮:如果你的自变量是多分类的(如血型等),你必须要将它用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个取值作为基础水平,各水平间比较的方法是什么等。当然,如果你弄不明白,不改也可以,默认的是以最大取值为基础水平,用Deviance做比较。
o Save钮:将中间结果存储起来供以后分析,共有预测值、影响强度因子和残差三大类。
o Options钮:这一部分非常重要,但又常常被忽视,在这里我们可以对模型作精确定义,还可以选择模型预测情况的描述方式,如Statistics and Plots中的Classification plots就是非常重要的模型预测工具,
Correlations of estimates则是重要的模型诊断工具,Iteration
history可以看到迭代的具体情况,从而得知你的模型是否在迭代时存在病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有
用的。
好,根据我们的目的,应变量为Y,而X1~X5为自变量,具体的分析操作如下:
1.Analyze==》Regression==》Binary Logistic...
2.Dependent框:选入Y
3.Covariates框:选入x1~x5
4.OK钮:单击
10.3.2 结果解释
Logistic Regression