SPSS二项Logistic回归ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SPSS二项Logistic回归
当被解释变量是0/1二值品质变量时,通常应采用 Logistic回归;
Logistic回归模型:
Logit P ln
P 1 P
0 i xi
1
案例分析:消费行为的logistic回归分析
背景:为研究和预测某商品消费特点和趋势,收集到以 往的消费数据。数据项包括:是否购买(PURCHASE)、性 别(Gender)、年龄(Age)和收入水平(Income)。
现依据性别(Gender)、年龄(Age)和收入水平 (Income)预测判断消费者行为。
注意: 1、本例中性别属于品质型变量。品质型变量应将其转化虚拟变量后再参与回归分析。 2、虚拟变量的设置是将品质变量的各个类别分别以0/1二值变量的形式重新编码,1 表示属于该类,0表示不属于该类; 3、对于n个分类的品质变量,当确定了参照类后,只需设置n-1个虚拟变量即可。 如:性别可需只设置变量x1表示‘是否男’,取1表示男,取0表示非男即‘女’,
7
强制进入策略下的回归结果: 回归模型的显著性检验
Omnibus Tests of Model Coefficients
Step 1
Step Block Model
Chi-square(似然 比卡方) Df(自由度) Sig.(显著性水平)
18.441
4
.001
18.441
4
.001
18.441
4
5
绘制被解释变量实际值和 预测分类值的关系图。
输出Hosmer-Lemeshow拟合优 度指标。(当解释变量较多 且多为定距型变量时使用) 输出各样本数据的非标准化 残差和标准化残差等指标。
输出模型建立过程中每一步 的结果。
指定解释变量进入或剔除出 模型的显著性水平。
设置极大似然估计的最大迭代次数。
8
回归模型的拟合优度检验
Model Summary
Cox & Snell R
Nagelkerke R
来自百度文库
Step
-2 Log likelihood
Square
Square
1
552.208a
.042
.057
a. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.
输出风险比默认95%的置信 区间。
只输出最终的模型结果。
设置概率分界值。预测 概率值大于0.5时认为 被解释变量的分类预测 值为1,小于0.5时认为 分类预测值为0.根据需 要对预测精度的要求修 改该参数。
6
保存被解释变量取 值为1的概率值。
保存分类预测值。
一般库克距离大 于1,就可认为对应 的观察值为强影响 点。 杠杆值是指反映 了解释变量x的第i个 值与x的平均值之间 的差异;一般第i个 样本的杠杆值较高 (大于2倍或3倍的 中心化杠杆值)意 味着对应的x是一个 强影响点。 剔除第i个样本后, 观察标准化回归系 数前后变化。n标准 化回归系数变化的 绝对值大于2/ 时, 可认为第i个样本可 能是强影响点。
2
此时‘女’类作为参照类。
基本操作:
选择分析(analyze)--回归(regression)--二元Logistic回归
被解释变量的选择
解释变量的选择
选择解释变量的筛选策略
条件变量的选择,只有满足条件变量
值的样本才参与回归分析
3
选择解释变量的筛选策略 (1)进入(enter):表示解释 变量全部强行进入模型; (2)向前:条件(forward: conditional)表示向前筛选变量 且变量进入模型的依据是比分检 验统计量,剔除出模型的依据是 条件参数估计原则下的似然率卡 方(首选选择使变化量变化最小 的解释变量剔除出模型); (3)向前:LR(forward: LR) 表示向前筛选变量且变量进入模 型的依据是比分检验统计量,剔 除出模型的依据是极大似然估计 原则下的似然比卡方; (4)向后:条件(backward: conditional)表示向后筛选变量 且变量剔除出模型的依据是条件 参数估计原则下的似然比卡方; (5)向后:LR( backward : LR) 表示向后筛选变量且变量剔除出 模型的依据是极大似然估计原则 下的似然比卡方; (6)向后:Wald( backward : Wald)表示向后筛选变量且变量 剔除出模型的依据是wald统4 计量;
解释变量是品质变量时,点击 ‘分类’按钮指定如何生成虚拟 变量。
分类变量的选择。
•‘更改对比(change contrast)’框中 ‘对比(contrast)’中选择参照类, 并点击‘更改’。 •其中:指示符(indicator)表示以某 个特定的类为参照类;这个类可以是品 质变量最大值对应的类(即:参考类别 (reference)中的‘最后一个 (last)’);也可以是品质变量最小值 对应的类(即:参考类别(reference) 中的‘第一个(first)’)
保存残差。
对被解释变量y中 异常值的探测。 标准化残差:根 据3σ准则,认为标 准化残差绝对值大 于3对应的观察值为 异常值。 学生化残差:适 用于存在‘异方差’ 现象时的异常值判 断。一般认为:学 生化残差大于3对应 的观察值为异常值。
利用残差分析探测样本中的异常值和强影响点。通常异常值和 强影响点是指那些远离均值的样本数据点,对回归方程的参数估 计有较大影响,应尽量找出并加以剔除。
从上表中可知,-2倍的对上似然函数值较高;Cox & Snell R2和 Nagelkerke R2的值均接近0,说明模型的拟合优度较低。
.001
上表中step行是本步与前一步相比的似然比卡方;Block行是本块与前一块相 比的似然比卡方;Model行是本模型与前一模型相比的似然比卡方。 本例中没有设置解释变量块且解释变量是一次性强制进入,所以三行结果相同。 模型显著性检验的零假设:各回归系数同时为0,解释变量全体与logit P的线 性关系不显著;备择假设:·······。如果显著性水平为0.05,因为概率P值0.001 小于0.05,应拒绝零假设,认为‘所有回归系数不同时为0,解释变量全体与 Logit P之间的关系显著,采用该模型是合理的’。
当被解释变量是0/1二值品质变量时,通常应采用 Logistic回归;
Logistic回归模型:
Logit P ln
P 1 P
0 i xi
1
案例分析:消费行为的logistic回归分析
背景:为研究和预测某商品消费特点和趋势,收集到以 往的消费数据。数据项包括:是否购买(PURCHASE)、性 别(Gender)、年龄(Age)和收入水平(Income)。
现依据性别(Gender)、年龄(Age)和收入水平 (Income)预测判断消费者行为。
注意: 1、本例中性别属于品质型变量。品质型变量应将其转化虚拟变量后再参与回归分析。 2、虚拟变量的设置是将品质变量的各个类别分别以0/1二值变量的形式重新编码,1 表示属于该类,0表示不属于该类; 3、对于n个分类的品质变量,当确定了参照类后,只需设置n-1个虚拟变量即可。 如:性别可需只设置变量x1表示‘是否男’,取1表示男,取0表示非男即‘女’,
7
强制进入策略下的回归结果: 回归模型的显著性检验
Omnibus Tests of Model Coefficients
Step 1
Step Block Model
Chi-square(似然 比卡方) Df(自由度) Sig.(显著性水平)
18.441
4
.001
18.441
4
.001
18.441
4
5
绘制被解释变量实际值和 预测分类值的关系图。
输出Hosmer-Lemeshow拟合优 度指标。(当解释变量较多 且多为定距型变量时使用) 输出各样本数据的非标准化 残差和标准化残差等指标。
输出模型建立过程中每一步 的结果。
指定解释变量进入或剔除出 模型的显著性水平。
设置极大似然估计的最大迭代次数。
8
回归模型的拟合优度检验
Model Summary
Cox & Snell R
Nagelkerke R
来自百度文库
Step
-2 Log likelihood
Square
Square
1
552.208a
.042
.057
a. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.
输出风险比默认95%的置信 区间。
只输出最终的模型结果。
设置概率分界值。预测 概率值大于0.5时认为 被解释变量的分类预测 值为1,小于0.5时认为 分类预测值为0.根据需 要对预测精度的要求修 改该参数。
6
保存被解释变量取 值为1的概率值。
保存分类预测值。
一般库克距离大 于1,就可认为对应 的观察值为强影响 点。 杠杆值是指反映 了解释变量x的第i个 值与x的平均值之间 的差异;一般第i个 样本的杠杆值较高 (大于2倍或3倍的 中心化杠杆值)意 味着对应的x是一个 强影响点。 剔除第i个样本后, 观察标准化回归系 数前后变化。n标准 化回归系数变化的 绝对值大于2/ 时, 可认为第i个样本可 能是强影响点。
2
此时‘女’类作为参照类。
基本操作:
选择分析(analyze)--回归(regression)--二元Logistic回归
被解释变量的选择
解释变量的选择
选择解释变量的筛选策略
条件变量的选择,只有满足条件变量
值的样本才参与回归分析
3
选择解释变量的筛选策略 (1)进入(enter):表示解释 变量全部强行进入模型; (2)向前:条件(forward: conditional)表示向前筛选变量 且变量进入模型的依据是比分检 验统计量,剔除出模型的依据是 条件参数估计原则下的似然率卡 方(首选选择使变化量变化最小 的解释变量剔除出模型); (3)向前:LR(forward: LR) 表示向前筛选变量且变量进入模 型的依据是比分检验统计量,剔 除出模型的依据是极大似然估计 原则下的似然比卡方; (4)向后:条件(backward: conditional)表示向后筛选变量 且变量剔除出模型的依据是条件 参数估计原则下的似然比卡方; (5)向后:LR( backward : LR) 表示向后筛选变量且变量剔除出 模型的依据是极大似然估计原则 下的似然比卡方; (6)向后:Wald( backward : Wald)表示向后筛选变量且变量 剔除出模型的依据是wald统4 计量;
解释变量是品质变量时,点击 ‘分类’按钮指定如何生成虚拟 变量。
分类变量的选择。
•‘更改对比(change contrast)’框中 ‘对比(contrast)’中选择参照类, 并点击‘更改’。 •其中:指示符(indicator)表示以某 个特定的类为参照类;这个类可以是品 质变量最大值对应的类(即:参考类别 (reference)中的‘最后一个 (last)’);也可以是品质变量最小值 对应的类(即:参考类别(reference) 中的‘第一个(first)’)
保存残差。
对被解释变量y中 异常值的探测。 标准化残差:根 据3σ准则,认为标 准化残差绝对值大 于3对应的观察值为 异常值。 学生化残差:适 用于存在‘异方差’ 现象时的异常值判 断。一般认为:学 生化残差大于3对应 的观察值为异常值。
利用残差分析探测样本中的异常值和强影响点。通常异常值和 强影响点是指那些远离均值的样本数据点,对回归方程的参数估 计有较大影响,应尽量找出并加以剔除。
从上表中可知,-2倍的对上似然函数值较高;Cox & Snell R2和 Nagelkerke R2的值均接近0,说明模型的拟合优度较低。
.001
上表中step行是本步与前一步相比的似然比卡方;Block行是本块与前一块相 比的似然比卡方;Model行是本模型与前一模型相比的似然比卡方。 本例中没有设置解释变量块且解释变量是一次性强制进入,所以三行结果相同。 模型显著性检验的零假设:各回归系数同时为0,解释变量全体与logit P的线 性关系不显著;备择假设:·······。如果显著性水平为0.05,因为概率P值0.001 小于0.05,应拒绝零假设,认为‘所有回归系数不同时为0,解释变量全体与 Logit P之间的关系显著,采用该模型是合理的’。