利用SPSS进行Logistic回归分析

合集下载

相关主题

spss中相关与回归分析

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

6
研究生地理数学方法（实习）
Part 2 统计分析软件 SPSS
图 8-1-9 样品处理摘要
2. Dependent Variable Encoding（因变量编码）。这是很重要的信息，告诉我们对不同城市化水平地区的分类编码结果（图 8-1-10）。我们开始根据全国各地区的平均结果 45.41 分为两类：大于等于 45.41 的地区用 Yes 表示，否则用 No 表示。现在，图 8-1-10 显示，Yes 用 0 表示，No 用 1 表示。也就是说，在这次 SPSS 分析过程中，0 代表城市化水平高于平均值的状态，1 代表城市化水平低于平均值的状态。记住这个分类。
研究生地理数学方法（实习）
Part 2 统计分析软件 SPSS
第 8 章利用 SPSS 进行 Logistic 回归分析
现实中的很多现象可以划分为两种可能，或者归结为两种状态，这两种状态分别用 0 和 1 表示。如果我们采用多个因素对 0－1 表示的某种现象进行因果关系解释，就可能应用到 logistic 回归。Logistic 回归分为二值 logistic 回归和多值 logistic 回归两类。首先用实例讲述二值 logistic 回归，然后进一步说明多值 logistic 回归。在阅读这部分内容之前，最好先看看有关 SPSS 软件操作技术的教科书。
Dependent Variable Encoding
Original Value Internal Value
Yes
0
No
1
图 8-1-10 因变量编码
3. Categorical Variables Codings（分类变量编码）。我们的自变量中涉及到代表不同地域类型的名义变量（图 8-1-11）。在我们开始的分类中，属于中部用 1 表示，否则用 0 表示。但是，SPSS 改变了这种编码，原来的 0 改用 1 表示，原来的 1 改用 0 表示。也就是说，在这次 SPSS 分析过程中，0 代表属于中部的地区，1 代表不属于中部的地区。记住这个分类对后面开展预测分析非常重要。
Categorical Variables Codings
中部 0
1
Frequency 22 9
Paramete
(1) 1.000
.000
图 8-1-11 分类变量编码
4. Classification Table（初始分类表）。Logistic 建模如同其他很多种建模方式一样，首先对模型参数赋予初始值，然后借助迭代计算寻找最佳值。以误差最小为原则，或者以最大似然为原则，促使迭代过程收敛。当参数收敛到稳定值之后，就给出了我们需要的比较理想的参数值。下面是用初始值给出的预测和分类结果（图 8-1-12）。这个结果主要用于对比，比较模型参数收敛前后的效果。
完成后，点击 Continue 继续。
8.1.2 结果解读
全部选项设置完毕以后，点击如图 8-1-5 所示的 OK 按钮确定，即可得到 Logistic 回归分析结果。输出结果可以分为三大部分，下面逐一说明。
1. Case Processing Summary（样品处理摘要）。在输出结果中，首先给出样品处理摘要报告，包括如下信息：选择了多少样品，没有选择的有多少样品；在选择的样品里，分析多少样品，缺失了多少样品——缺失样品一般是因为数据中存在缺失值；选择的样品总数以及全体样品总数（图 8-1-9）。用 N 表示各类样品数目，Percent 表示各类样品的百分比。在正常情况下，这些信息对我们的分析没有什么用处。但是，如果样本很大并且构成很复杂，涉及到样品的取舍或者数据缺失的时候，这些信息就很重要，会为后面的分析提供很大方便。
Part 2 统计分析软件 SPSS
图 8-1-7 Logistic 回归分析的存储选项
⒊ 设置 Options：有三个选项区（图 8-1-5）。第一个是 Statistics and Plots（统计和画图）选项，包括六种可以兼容的选择（复选项）。选中 Classification plots、Hosmer-Lemeshow goodness-of-fit 和 CI for exp(B)三个选项。第二个是 Display（显示）选项，选择 At last step（最后一步），这样，输出结果将仅仅给出最终结果，而省略每一步的计算过程。由于我们采用强迫回归，Probability for Stepwise（逐步回归概率）选项可以不管。
Wald = ⎜⎛ B ⎟⎞2 = ⎜⎛ 0.597837 ⎟⎞2 = 2.536 . ⎝ S.E. ⎠ ⎝ 0.375379 ⎠
后面的 df 为自由度，即 df=1；Sig.为 P 值，Sig.=0.111。注意 Sig.值越低越好，一般要求小于 0.05。当然，对于 Sig.值，我们关注的是最终模型的显示结果。Exp(E)是 B 还原之后数值，显然
Classification Tablea,b
Predicted
Observed
Step 0 城市化
Yes
No
Overall Percentage
a. Constant is included in the model.
b. The cut value is .500
城市化
Yes 0
No 11
0
20
图 8-1-4 Logistic 回归分析选项框第三步：选项设置。首先，在源变量框中选中需要进行分析的变量，点击右边的箭头符号，将需要的变量调入 Dependent（因变量）和 Covariates（协变量）列表框中（图 8-1-5）。在本例中，将名义变量“城市化”调入 Dependent（因变量）列表框，将“人均 GDP”和“中部”调入 Covariates （协变量）列表框中。在 Method（方法）一栏有七个选项。采用第一种方法，即系统默认的强迫回归方法（Enter）。
n
∑[ xi ( yi − y)]2
Score j = i=1 n
.
∑ y(1 − y) (xi − x)
i =1
因变量为 0、1 值，根据图 8-1-10 所示的编码原则，令所有的 Yes 为 0，所有的 No 为 1，容易算出
y(1 − y) = 0.645161(1 − 0.645161) = 0.228928 . 人均 GDP 已知，中部的编码法则已知，于是不难算出
Logistic 回归分析选项框（图 8-1-4）。
图 8-1-3 打开二值 Logistic 回归分析对话框的路径对数据进行多次拟合试验，结果表明，像二产比重、三产比重等对城市化水平影响不显
2
研究生地理数学方法（实习）
Part 2 统计分析软件 SPSS
著。至于反映地区位置的分类变量，不宜一次性的全部引入，至多引入两个，比方说东部和中部。通过尝试，发现引入中部地带为变量比较合适。因此，为了实例的典型性，我们采用两个变量作为自变量：一是数值变量人均 GDP，二是分类变量中部地带。
5
研究生地理数学方法（实习）
Part 2 统计分析软件 SPSS
图 8-1-8 Logistic 回归分析的选项设置
此外还有一个选项需要说明。一是 Classification cutoff（分类临界值），默认值为 0.5，即按四舍五入的原则将概率预测值化为 0 或者 1。如果将数值改为 0.6，则大于等于 0.6 的概率值才表示为 1，否则为 0。其情况余依此类推。二是 Maximum Iterations（最大迭代值），规定系统运算的迭代次数，默认值为 20 次，为安全起见，我们将迭代次数增加到 50。原因是，有时迭代次数太少，计算结果不能真正收敛。三是 Include constant in model（模型中包括常数项），即模型中保留截距。除了迭代次数之外，其余两个选项均采用系统默认值。
图 8-1-6 定义分类变量选项 ⒉ 设置 Save（保存）选项：决定保存到 Data View 的计算结果（图 8-1-7）。选中 Leverage values、DfBeta(s)、Standardized 和 Deviance 四项。完成后，点击 Continue 继续。
4
研究生地理数学方法（实习）
3
研究生地理数学方法（实习）
Part 2 统计分析软件 SPSS
图 8-1-5 Logistic 回归分析的初步设置接下来进行如下 4 项设置： ⒈ 设置 Categorical（分类）选项：定义分类变量（图 8-1-6）。将中部调入 Categorical Covariates（分类协变量）列表框，其余选项取默认值即可。完成后，点击 Continue 继续。
第一步：整理原始数据。这些数据不妨录入 Excel 中。数据整理内容包括两个方面：一是对各地区按照三大地带的分类结果赋值，用 0、1 表示，二是将城镇人口比重转换逻辑值，变量名称为“城市化”。以各地区 2005 年城镇人口比重的平均值 45.41%为临界值，凡是城镇人口比重大于等于 45.41%的地区，逻辑值用 Yes 表示，否则用 No 表示（图 8-1-1）。
图 8-1-1 原始数据（Excel 中，局部）将数据拷贝或者导入 SPSS 的数据窗口（Data View）中（图 8-1-2）。
1
Biblioteka Baidu
研究生地理数学方法（实习）
Part 2 统计分析软件 SPSS
图 8-1-2 中国 31 个地区的数据（SPSS 中，局部）第二步：打开“聚类分析”对话框。
沿着主菜单的“Analyze→Regression→Binary LogisticK ”的路径（图 8-1-3）打开二值
Percentage Correct .0 100.0 64.5
图 8-1-12 初始预测分类表
7
研究生地理数学方法（实习）
Part 2 统计分析软件 SPSS
5.Variable in the Equation（初始方程中的变量）。从这个表中可以看到系统对模型的最初赋值方式（图 8-1-13）。最开始仅仅对常数项赋值，结果为 B=0.598（复制到 Excel 可以看来，更精确的数值为 0.597837），标准误差为 S.E.=0.375（复制到 Excel 可以看来，更精确的数值为 0.375379），于是 Wald 值为
Exp(B) = e B = e0.597837 = 1.818 .
在 Excel 里，利用指数函数 exp 很容易对 B 值进行还原。
Variables in the Equation
Step 0 Constant
B .598
S.E. .375
Wald 2.536
df 1
图 8-1-13 初始方程中的变量
Case Processing Summary
Unweighted Casesa
Selected Cases
Included in Analysis
N
Percent
31
100.0
Missing Cases
0
.0
Total
31
100.0
Unselected Cases
0
.0
Total
31
100.0
a. If weight is in effect, see classification table for the total number of cases.
§8.1 二值 logistic 回归
8.1.1 数据准备和选项设置
我们研究 2005 年影响中国各地区城市化水平的经济地理因素。城市化水平用城镇人口比重表征，影响因素包括人均 GDP、第二产业产值比重、第三产业产值比重以及地理位置。地理位置为名义变量，中国各地区被分别划分到三大地带：东部地带、中部地带和西部地带。我们用各地区的地带分类代表地理位置。
Sig. .111
Exp(B) 1.818
6. Variable not in the Equation（不在初始方程中的变量）。人均 GDP 和代表地理位置的中部地带的系数初始值设为 0，这相当于，在初始模型中不考虑这两个变量（图 8-1-14）。表中给出了 Score 检验值及其对应的自由度 df 和 P 值，即 Sig.值。Score 检验是一种初始检验，在建模之初根据变量之间的结构关系判断自变量与因变量之间的密切程度。Score 检验值的计算公式为