SPSS操作方法:逻辑回归
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SPSS操作方法之五
SPSS操作方法:逻辑回归
例证8.3: 在一次关于公共交通的社会调查中,一个调查项目是“乘公交车上下班,还是骑自行车上下班”因变量Y=1表示乘车,Y=0表示骑车。自变量X1表示年龄;X2表示表示月收入;X3表示性别,取1时为男性,取0时为女性。调查对象为工薪族群体。数据见下表:试建立Y与自变量之间的Logistic回归。
逻辑回归SPSS操作方法的具体步骤:
1.选择Analyze→Regreessin→Binary Logistic,打开对话框如图1所示:
图1 主对话框Logistic回归。
2.选择因变量Y进入Dependent框内,将自变量选择进入Convariates框。也可以将不同的自变量组放在不同的块(block)中,可以分析不同的自变量组对因变量的贡献。
3.在Mothed框内选择自变量的筛选策略:
Enter表示强行进入法;(本例选择)
Forword和Bacword都表示逐步筛选策略;Forword 为自变量逐步进入,Bacword是自变量逐步剔出。Conditional ;LR; Wald分别表示不同的检验统计量,如Forword Wald表示自变量进入方程的依据是Wald统计量。
4.在Selection中选择一个变量作为条件变量,只有满足条件的变量数据才能参与回归分析。
5.单击Categorical打开Categorical对话框如图2所示:对定性变量的自变量选择参照类。常用的方法是Indicator,即以某个特定的类为参照类,Last表示以最大值对应的类为参照类(系统默认),First表示以最小值对应的类为参照类。选择后点击Continue按钮返回主对话框。(本例不作选择性)
图2 Categorical对话框
6.单击Option按钮,打开Option对话框如图3所示
图3:Option对话框
(1)从Statistics and Plots框中选择输出图和分析结果。
Classification Plots:表示绘制因变量实际值与预测分类值的关系图(本例选择)。
Hosmer-lemeshow goodness-of-fit:表示拟合优度指标(本例选择)。
Casewise Listing of residuals:表示输出各样本数据残差列表,有因变量的观察值,预测值,相应的预测概率,残差(非标准化残差,标准化残差)等。
Correlations of estimations:表示输出估计参数的相关矩阵(本例选择)。
Iteration history:表示输出估计参数迭代过程中的参数与对数似然值(本例选择)。
CI for exp(B):表示输出发生比N%的置信区间(默认95%)。
(2)从Display框中选择输出方式。
At each step 表示输出模型建立过程中的每一步结果(系统默认),At last step 表示只输出最终结果。
(3)从Propbability for Stepwise框中指定自变量进入方程或剔除方程的显著性水平α。Entry表示回归系数Score检验的概率p值小于0.05时相应变量可进入方程;Removal 表示回归系数Score检验的概率p值大于0.1时相应变量应当剔除出回归方程.。
(4)Classification Cutoff设置概率分界值,预测概率大于分界值(默认0.5)时,分类预测值为1, 否则为预测值为0。(本例选择系统默认项)
(5)从Maximum Iterations框内指定极大似然估计的最大迭代次数(默认值是20)
7.单击Save按钮,打开Save对话框如图4所示:从中选择需要保存预测结果到数据窗口。
图4:Save对话框
(1)从Predieted V alues框中,Probalities 表示保存因变量取1 的预测概率值,Croup membership 表示保存分类预测值。(本例选择)
(2)Residuals和Influence表示保存残差及影响点,具体含义与线性回归相同。
选择结束,后可以从输出窗口观看输出结果如下:
以上两个表是数据个数,分类,及因变量的概况。
注意:表3至表6表示只有常数项的模型,没有实际意义,可以不考虑。
表7表示的是迭代历史,表示每一次迭代中-2LL 值和系数值。
表8模型综合检验是模型拟合优度检验的,用-2LL 度量。最好的模型有-2LL=0,步骤1中的“步骤”中的卡方值是当前-2LL 与下一步-2LL 的差值,“块”中的卡方值为当前值-2LL 与后一组变量进入模型后的-2LL 的差值,“模型”中的卡方统计量是当前模型中的-2LL 与只含常数项模型的-2LL 的差值,因所有自变量是强行进入,只有一个步骤,一个块和一个模型,所以三者的卡方值相等。本例中假设检验的P 值等于0.005,小于0.05,故模型中至少有一个回归系数不为0。 从表9中看出-22LN 值不算太大,模型拟合程度一般。
Cox & Snell R 2和 Nagelkerke R 2类似于线性模型中的拟合优度检验。其中: Cox & Snell R 2
=n L
L 2
01)(
Nagelkerke R 2
=
n
L R
Snell Cox 2
02
1)(&
从表中得出Cox & Snell R 2和 Nagelkerke R 2
类不是太高,似合优度一般。
表10 和表11是逻辑方程的拟合程度的检验,由于观察值和理论频数的差异不大,检验通过。但是理论频数都小于5,原因是数据个数太少造成的,所以检验结果有待进一步检验。 表12也称错判矩阵。从表10中看出,如出行方式为坐公交车15人中,预测值为13人,正确率为86.7%。