逻辑回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.Nagelkerke的R 2(N agelkerke’s R-Square)
5.伪R 2(Psedo-R-square)
伪R2与线性回归模型的R2相对应,其意义 相似,但它小于1。
6.Hosmer和Lemeshow的拟合优度检验 统计量(Hosmer and Lemeshow's Goodness of Fit Test Statistic)
(7)Variables in the Equation表格 列出了Step 1中各个变量对应的系数,以及该 变量对应的Wald 统计量值和它对应的相伴概 率。从该表格中可以看出x3相伴概率最小, Wald统计量最大,可见该变量在模型中很重要。
(8)Correlation Matrix表格列出了常 数Constant、系数之间的相关矩阵。常数与x2 之间的相关性最大,x1和x3之间的相关性最小。
与一般拟合优度检验不同,Hosmer和 Lemeshow的拟合优度检验通常把样本数据根据 预测概率分为10组,然后根据观测频数和期望 频数构造卡方统计量(即Hosmer和Lemeshow 的拟合优度检验统计量,简称H-L拟合优度检 验统计量),最后根据自由度为8的卡方分布 计算其值并对Logistic模型进行检验。
表7-7
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
使用交通工具上下班情况
x1(年龄) 18 21 23 23 28 31 36 42 46 48 55 56 58 18 20 25 27 28 30 32 33 33 38 41 45 48 52 56 x2(月收入:元) 850 1200 850 950 1200 850 1500 1000 950 1200 1800 2100 1800 850 1000 1200 1300 1500 950 1000 1800 1000 1200 1500 1800 1000 1500 1800 x3(性别) 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 y 0 0 1 1 1 0 1 1 1 0 1 1 1 0 0 0 0 0 1 0 0 0 0 0 1 0 1 1
Classification Table for Y
Predicted(预测值) Percent Correct 1 (正确分类比例) n01 f0
0 Observed (观测值) 0 n00
1
n10
n11
Overall(总计)
f1 ff
3.Cox和Snell的R 2(Cox&Snell’s R-Square)
1.-2对数似然值(-2 log likelihood,-2LL)
与任何概率一样,似然的取值范围在[0,1] 之间。−2LL的计算公式为
2.拟合优度(Goodness of Fit)统计量
Logistic回归的拟合优度统计量计算公式
为
在实际问题中,通常采用如下分类表 (Classification Table)反映拟合效果。
源自文库
实现步骤
图7-24 “Logistic Regression”对话框
图7-25 “Logistic Regression:Options”对话框
7.8.3 结果和讨论
(1)第一部分输出结果有两个表格,第 一个表格说明所有个案(28个)都被选入作为 回归分析的个案。
第二个表格说明初始的因变量值(0,1) 已经转换为逻辑回归分析中常用的0、1数值。
(2)第二部分(Block 0)输出结果有4 个表格。
(3)Omnibus Tests of Model Coefficients表格列出了模型系数的Omnibus Tests结果。
(4)Model Summary表给出了-2 对数似 然值、Cox和Snell的R2以及Nagelkerke的R2 检验统计结果。
逻辑回归分析
7.8 逻辑回归分析 7.8.1 统计学上的定义和计算公式
定义:逻辑回归分析是对定性变量的回归 分析。
可用于处理定性因变量的统计分析方法有: 判别分析(Discriminant analysis)、 Probit分析、Logistic回归分析和对数线性 模型等。在社会科学中,应用最多的是 Logistic回归分析。Logistic回归分析根据 因变量取值类别不同,又可以分为Binary Logistic回归分析和Multinomi-nal Logistic回归分析。
7.8.2 SPSS中实现过程
研究问题 在一次关于某城镇居民上下班使用交通工 具的社会调查中,因变量y =1表示居民主要乘 坐公共汽车上下班;y =0表示主要骑自行车 上下班;自变量x1表示被调查者的年龄;x2表 示被调查者的月收入;x3表示被调查者的性别 (x3=1为男性,x3=0为女性)。 试建立y与自变量间的Logistic回归,数据如 表7-7所示。
(5)Hosmer and Lemeshow Test表格以 及Contingency Table for Hosmer and Lemeshow Test表格给出了Hosmer和Lemeshow 的拟合优度检验统计量。
(6)Classification Table分类表说明 第一次迭代结果的拟合效果,从该表格可以看 出对于y=0,有86.7%的准确性;对于y=1,有 76.9%准确性,因此对于所有个案总共有82.1% 的准确性。
(9)图7-26所示是观测值和预测概率分布 图。该图以0和1为符号,每四个符号代表一个 个案。横坐标是个案属于1的录属度,这里称 为预测概率(Predicted Probability)。纵 坐标是个案分布频数,反映个案的分布。
(10)逻辑回归的最后一个输出表格是 Casewise List,列出了残差大于2的个案。
如果该p值小于给定的显著性水平(如 =0.05),则拒绝因变量的观测值与模型预测 值不存在差异的零假设,表明模型的预测值与 观测值存在显著差异。如果值大于,我们没有 充分的理由拒绝零假设,表明在可接受的水平 上模型的估计拟合了数据。
7.Wald统计量
Wald统计量用于判断一个变量是否应该包 含在模型中,其检验步骤如下。 (1)提出假设。 (2)构造Wald统计量。 (3)作出统计判断。
Binary Logistic回归模型中因变量只能 取两个值1和0(虚拟因变量),而 Multinomial Logistic回归模型中因变量可 以取多个值。本节将只讨论Binary Logistic 回归,并简称Logistic回归(与7.5节曲线估 计中介绍的Logistic曲线模型相区别)。 Logistic函数的形式为