分类资料的Logistic回归分析SPSS
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
S PSS 10.0高级教程十三:分类资料的Logistic回归分析
(2009-02-05 15:32:54)
转载▼
所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。
随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。
10.3.1 界面详解与实例
例11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析(本例来自《卫生统计学》第四版第11章)。
∙i:标本序号
∙x1:确诊时患者的年龄(岁)
∙x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级
∙x3:肾细胞癌组织内微血管数(MVC)
∙x4:肾癌细胞核组织学分级,由低到高共4级
∙x5:肾细胞癌分期,由低到高共4期
∙y:肾细胞癌转移情况(有转移y=1; 无转移y=0)。
i x1 x2 x3 x4 x5 y
1 59
2 43.4 2 1 0
2 36 1 57.2 1 1 0
3 61 2 190 2 1 0
4 58 3 128 4 3 1
5 55 3 80 3 4 1
6 61 1 94.4 2 1 0
7 38 1 76 1 1 0
8 42 1 240 3 2 0
9 50 1 74 1 1 0
10 58 3 68.6 2 2 0
11 68 3 132.8 4 2 0
12 25 2 94.6 4 3 1
13 52 1 56 1 1 0
14 31 1 47.8 2 1 0
15 36 3 31.6 3 1 1
16 42 1 66.2 2 1 0
17 14 3 138.6 3 3 1
18 32 1 114 2 3 0
19 35 1 40.2 2 1 0
20 70 3 177.2 4 3 1
21 65 2 51.6 4 4 1
22 45 2 124 2 4 0
23 68 3 127.2 3 3 1
24 31 2 124.8 2 3 0
25 58 1 128 4 3 0
26 60 3 149.8 4 3 1
在菜单上选择Analyze==》Regression==》Binary Logistic...,系统弹出Logistic回归对话框如下:
左侧是候选变量框,右上角是应变量框,选入二分类的应变量,下方的Covariates框是用于选入自变量的,只不过这里按国外的习惯被称为了协变量。两框中间的是BLOCK系列按扭,我在上一课已经讲过了,不再重复。中下部的>a*b>框是用于选入交互作用的,和其他的对话框不太相同(我也不知道为什么SPSS偏在这里做得不同),下方的Method列表框用于选择变量进入方法,有进入法、前进法和后退法三大类,三类之下又有细分。最下面的四个按钮比较重要,请大家听我慢慢道来:
∙Select>>钮:用于限定一个筛选条件,只有满足该条件的记录才会被纳入分析,单击它后对话框会展开让你填入相应的条件。不过我觉得该功能纯属多余,和专门的Select 对话框的功能重复了。
∙Categorical钮:如果你的自变量是多分类的(如血型等),你必须要将它用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个取值作为基础水平,各水平间
比较的方法是什么等。当然,如果你弄不明白,不改也可以,默认的是以最大取值为基础水平,用Deviance做比较。
o Save钮:将中间结果存储起来供以后分析,共有预测值、影响强度因子和残差三大类。
o Options钮:这一部分非常重要,但又常常被忽视,在这里我们可以对模型作精确定义,还可以选择模型预测情况的描述方式,如Statistics and Plots中的Classification plots 就是非常重要的模型预测工具,Correlations of estimates则是重要的模型诊断工具,Iteration history可以看到迭代的具体情况,从而得知你的模型是否在迭代时存在病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有用的。
好,根据我们的目的,应变量为Y,而X1~X5为自变量,具体的分析操作如下:
1.Analyze==》Regression==》Binary Logistic...
2.Dependent框:选入Y
3.Covariates框:选入x1~x5
4.OK钮:单击
10.3.2 结果解释
Logistic Regression
上表为记录处理情况汇总,即有多少例记录被纳入了下面的分析,可见此处因不存在缺失值,26条记录均纳入了分析。
上表为应变量分类情况列表,没什么好解释的。
Block 0: Beginning Block
此处已经开始了拟合,Block 0拟合的是只有常数的无效模型,上表为分类预测表,可见在17例观察值为0的记录中,共有17例被预测为0,9例1也都被预测为0,总预测准确率为65.4%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。
上表为Block 0时的变量系数,可见常数的系数值为-0.636。
上表为在Block 0处尚未纳入分析方程的侯选变量,所作的检验表示如果分别将他们纳入方程,则方程的改变是否会有显著意义(根据所用统计量的不同,可能是拟合优度,Deviance 值等)。可见如果将X2系列的哑变量纳入方程,则方程的改变是有显著意义的,X4和X5也是如此,由于Stepwise方法是一个一个的进入变量,下一步将会先纳入P值最小的变量X2,然后再重新计算该表,再做选择。
Block 1: Method = Forward Stepwise (Conditional)