21回归分析2c
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
硕士生《SPSS 统计分析》课程教学用资料
第二十一章 分类资料的回归分析―― Regression 菜单详解(中)
Logistic 模型有两个最主要的用途:第一是用作影响因素分析,求出各协变 量对应变量的比数比;第二是作为判别分析方法,来估计各种自变量组合 条件下应变量各类别的发生概率。
不过一般用得最多的是前者。
--张文彤
上一章介绍的多元线性回归可用于分析一个连续性应变量与一组自变量之间的关系, 但是在实际工作中,我们经常会遇到应变量为分类变量的情况。
如发病与否、死亡与否等 等, 需要研究该分类变量与一组自变量之间的关系。
此时, 若以某事件发生率 P 为应变量, 应变量与自变量之间通常不再存在线性关系, 而且从理论上讲, 某事件发生率的取值范围 为 0~1,但在线性模型的条件下,不能保证在自变量的各种组合下,应变量的取值仍限制 在 0~1 内。
因此,当应变量为分类变量时,线性回归分析将不再适用。
对于单个分类自变量的资料, 此时通常选用四格表卡方检验进行统计分析。
但单因素 分析结果的可靠性取决于所比较的两组之间是否具有可比性。
当影响结果的混杂因素较多 时,实际上往往难以满足均衡可比的要求,这时分析结果会带有偏性。
传统的 Mantel -Haenszel 分层卡方分析法在控制混杂因素方面显示了强大的能力,但这种经典分析方法 也存在局限性, 随着控制因素的增加, 单元格被划分的越来越细, 每格内的数据越来越少, 使估计相对危险度变得困难。
本章介绍的 Logistic 回归模型成功地解决了上述问题。
该模型常用于流行病学中研究 疾病发生与危险因素间的关系,它还可用于其它领域,研究某个二分类(或多分类有序、 多分类无序)的应变量与有关自变量的关系,例如在卫生服务研究中,研究患者是否就诊 与年龄、性别、文化程度等的关系;又如,在疗效考核中,研究疗效(分显效、有效、无 效三个等级)与治疗方法、患者病情轻重等因素的关系。
本章共分五部分。
首先重点介绍应变量为二分类变量时 logistic 回归模型的应用,第 二部分则对它进行深入讨论, 第三与第四部分分别介绍多分类无序应变量和多分类有序应 变量的 logistic 回归,最后一部分则介绍用于分析剂量反应关系的 Probit 分析。
§21.1
21.1.1 模型简介
Binary Logistic 过程
- 391 -
第五部分
相关分析与回归分析
设 P 为某事件发生的概率, 取值范围为 0~1, 为该事件不发生的概率, 1-P 将比数 P/(1-P) 取自然对数得 ln(P/(1-P)),即对 P 作 logit 转换,记为 logit P,则 logit P 的取值范围在-∝ 到+∝之间。
以 logit P 为应变量,建立线性回归方程: logit P= α + β 1 x1 + K + β m x m 可得:
P=
exp(α + β 1 x1 + K β m x m ) 1 或 P= 1 + exp(α + β 1 x1 + K β m x m ) 1 + exp(α + β 1 x1 + K β m x m )
该模型即为 Logistic 回归模型。
由上可见,Logistic 回归模型实际上是普通多元线性 回归模型的推广,但它的误差项服从二项分布而非正态分布, 因此在拟合时采用最大似然 估计法进行参数估计。
模型中参数α是常数项,表示自变量取值全为 0 时,比数(Y=1 与 Y=0 的概率之比)的自然对数值,参数 β i 称为 logistic 回归系数,表示当其他自变量取 值保持不变时,该自变量取值增加一个单位引起比数比(OR)自然对数值的变化量。
Logistic 这个名称来源于他对应变量所采用的 logit 变换,和英文单词 Logistic 的 含义(后勤的)一点关系都没有,与逻辑就更不相干了。
自从传入国内以来,在所有的统 计书籍中 Logistic 回归就一直采用英文写法,从没有使用过译名。
有的书上将其称为逻辑 斯谛回归,这是非常不正规的称呼;至于有的书将其称为逻辑回归,则完全是在胡闹。
和它的前身多元线性回归一样,Logistic 回归模型对样本量也有着严格的要求,大家 可以用下面这种经验方法来估计:首先选择应变量中较少的那一类,然后将该数值除以 10,这就是模型中可以分析的自变量数。
例如有 100 条纪录,其中结局为患病的 70 条, 30 条为未患病,则模型中可分析的自变量数应为 30/10=3。
如果希望分析四个自变量,对 不起,请增加样本量。
需要注意的是以上为经验方法, 估计的只是样本量的最低温饱水平, 有可能仍然不够。
而分析时迭代不收敛、增删几例后参数估计值出现剧烈波动, 或者出现极宽的可信区间等 情况也往往和样本量不足有关,因此相对而言样本量越大越好。
21.1.2 引例
例 21.1 为评价某新疗法的疗效,某研究者随机抽查了 40 名某病患者,治疗后一定 时间内观察其康复状况,数据见文件 Logistic.sav。
变量 y 为康复状况(y=0 表示未康复, y=1 表示康复),变量 x1 为病情严重程度(x1=0 表示不严重,x1=1 表示严重),变量 x2 为疗法(x2=0 表示新疗法,x2=1 表示传统疗法),请作统计分析。
(曹素华,《实用 医学多因素统计分析方法》P59) 解:本例欲研究不同疗法对康复状况的作用有无差别, 考虑到病情严重程度可能也是 影响因素,将病情严重程度也作为自变量予以考虑。
故应变量康复状况为二分类变量,自 变量有两个,病情严重程度及疗法,均为二分类变量。
根据研究目的及变量性质,可选用 logistic 回归进行分析。
- 392 -
硕士生《SPSS 统计分析》课程教学用资料
Analyze Regression Binary Logistic Dependent 框:Y Covariates 框:x1、x2 OK
两分类应变量为 Y 协变量(自变量)为 x1、x2 其它选项皆取默认值
21.1.3 界面说明
图 21.1
主对话框
【主对话框】 1.Dependent 框:应变量框,用于选入二分类的应变量,只能选入一个。
2.Block 按钮组:由 Previous 和 Next 两个按钮组成,用于将下面 Independent 框中选 入的自变量分组。
由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法,如 果对不同的自变量选入的方法不同, 则用该按钮组将自变量分组选入即可, 具体的使用方 法可参见多元回归分析一章的实例。
3.Covariates 框:用于选入自变量,左侧的>a*b>钮用于选入交互作用项,即先在变 量候选框中同时选中两个/多个变量,然后单击该钮,相应变量的交互作用就被纳入了协 变量框。
4.Method 列表框:用于选择变量进入方法,有进入法、逐步法和后退法三大类。
Enter:进入法,所有变量一次全部进入方程。
Forward:实际上是逐步法(逐步向前法),变量一律根据比分检验的概率大小 依次进入方程,移出方程所采用的检验方法则共分三种。
Backward:后退法,根据一定标准将变量依次移出方程,所采用的检验方法共分 为三种。
在上面的逐步法和后退法中,变量移出方程所采用的检验方法有: Conditional:依据条件参数似然比检验的结果剔除变量。
LR:依据偏似然比检验的结果剔除变量。
- 393 -
第五部分
相关分析与回归分析
Wald:依据 Walds 检验的结果剔除变量。
在这三种方法中前两种差别一般不大, 用哪一种均可, 但请尽量不要使用 Wald 检验, 详细情况请参见下一节中对三种检验方法的具体讲解。
5.Select>>钮:单击该钮会扩展当前对话框,出现下方的 Selection Variable 框。
该框 用于选入一个筛选变量,并利用右侧的 Rules 钮建立一个选择条件,这样,只有满足该条 件的记录才会进入回归分析。
当然,用户也可以先采用 Data 菜单中的 Select Case 过程来 选择记录,两者功能是等价的。
只不过 Select Case 过程中的定义在以后一直有效,而 Selection Variable 框中的定义仅在当前过程有效。
【Categorical 子对话框】 如果自变量为多分类变量(如血型等),由于多分类自变量与应变量之间通常不存在 线性关系,须用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变量,系统 将自动产生 K-1 个哑变量(K 为该变量的水平数),Categorical 子对话框就是用于设置全 哑变量模型中各哑变量的取值方式的。
图 21.2
Categorical 子对话框
图 21.3
Save 子对话框
【Save 子对话框】 将中间结果存储起来供以后分析,共有预测值、影响强度因子和残差三大类,大家会 发现许多东西和线性回归中基本一致,对一致的内容我们不再详细介绍。
1.Predicted values 复选框组:将预测结果作为新变量保存到数据窗口中。
Probabilities:预测概率值。
Group membership:根据预测概率值判定所属类别。
2.Influence 复选框组:反映影响强度的变量。
Cook’s:Cook 距离值。
Leverage value:杠杆值。
DfBeta(s):剔除某观察单位后 Beta 系数的变化值。
它计算回归方程中包括常数 项在内的所有参数的差值。
3.Residuals 复选框组:保存各种残差值。
- 394 -
硕士生《SPSS 统计分析》课程教学用资料
Unstandardized:保存非标准化残差,即应变量实测值与预测值之差值。
Logit:logit 残差。
其取值等于
Unstandardied 残差 。
预测概率 × 1 − 预测概率) (
Studentized:学生化残差。
即从模型中剔除一条记录后,其方差的变化量。
Standardized:标准化残差。
即 Pearson 残差。
Deviance:Deviance 残差。
图 21.4
Options 子对话框
【Options 子对话框】 1.Statistics and Plots 复选框组:给出了一系列非常重要的统计量和统计图。
Classification Plots:绘出应变量实际分类和模型预测分类间关系的分类图,该图 在研究模型预测性能时非常重要。
Hosmer-Lemeshow goodness-of-fit:计算 Hosmer-Lemeshow 拟合优度指标,当自 变量较多,或自变量中有连续性变量时,该指标非常有用。
Casewise listing of residuals:为每条记录会列出非标准化的残差值、预测概率, 以及应变量的实际分类和模型预测分类情况。
在此项下面有两个单选框, 若选择 “Outliers outside 2 std. dev” 则会选择输出标准化残差值大于 2 的观测的残 , 差。
若选择“All cases”,则会将所有的观测的残差值都列出。
Correlations of estimates:列出模型中参数估计值的相关系数阵。
Iteration history: 输出模型迭代过程中每一步迭代后的参数估计值和对数似然值, 可用于观察模型的迭代过程是否稳定。
CI for exp(B):输出 OR 值的 95%可信区间,该数值实际上是从β的 95%可信区 间换算而来。
2.Display 单选框组:选择分析过程中是否详细报告结果。
At each step:分析过程中拟合的所有模型都给出详细的分析结果。
At last step:只显示最后一个模型的详细统计分析结果。
- 395 -
第五部分
相关分析与回归分析
3.Probability for Stepwise 框组:用于模型选择变量时的进入标准和排除标准。
4.Classification cutoff 框:设置模型预测时的概率分界点,模型将按该分界值对应变 量进行预测。
比如设置为 0.3,则概率大于 0.3 的为阳性,小于等于 0.3 的为阴性。
系统默 认的分界点为 0.5,即一人一半。
5. Maximum iterations 框: 设定最大允许迭代次数, 如果在迭代这么多次后仍未收敛, 则认为模型拟合失败,迭代终止。
6. Include constant in model:要求模型包含常数项,一般不用更改。
21.1.3 结果解释
Logistic Regression
Case Processing Summary
Unweighted Cases Selected Cases
a
N Included in Analysis Missing Cases Total 40 0 40 0 40
Percent 100.0 .0 100.0 .0 100.0
Unselected Cases Total
a. If weight is in effect, see classification table for the total number of cases.
上表为数据处理情况汇总,包括多少例记录纳入分析,多少例缺失等。
Dependent Variable Encoding
Original Value 未康复 康复 Internal Value 0 1
上表为应变量赋值情况。
请注意:Binary Logistic 过程默认以应变量较大取值的概率 P(Y=1),而不是以 P(Y=0)建立模型。
因此,观察分析结果时,有必要检查一下该部 分结果,以弄清应变量的赋值情况,确保对分析结果的解释是正确的。
Block 0: Beginning Block
Classification Table a,b
Predicted 康复情况 Observed Step 0 康复情况 未康复 康复 Overall Percentage
a. Constant is included in the model. b. The cut value is .500
未康复 23 17
康复 0 0
Percentage Correct 100.0 .0 57.5
- 396 -
硕士生《SPSS 统计分析》课程教学用资料
现在开始进行模型拟合,首先给出的是模型不含任何自变量,而只有常数项(即无效 模型)时的输出结果。
第一张表输出预测分类结果,可见当模型中不包含任何自变量时, 所有观察对象皆被预测为未康复,总的预测准确率为 57.5%。
Variables in the Equation
B Step 0 Constant -.302 S.E. .320 Wald .893 df 1 Sig. .345 Exp(B) .739
第二张表给出的是模型中各参数的检验结果,此处只有常数项,系数为-0.302。
由于 是常数项,有无统计学意义关系不大。
Variables not in the Equation
Score Step 0 Variables X1 X2 Overall Statistics .921 5.013 6.427 df 1 1 2 Sig. .337 .025 .040
第三张表的输出结果反映的是如果将现有模型外的各个变量纳入模型, 则整个模型的 拟合优度改变是否有统计学意义。
结果显示若将 X2 引入(疗法),则模型改变有统计意 义( χ =5.013,P<0.05),而变量 X1(病情严重程度)的作用则无统计意义( χ =0.921,
2 2
P>0.05)。
因此如果是手工筛选变量的话,下一步应当考虑引入 x2。
Block 1: Method = Enter
Omnibus Tests of Model Coefficients
Chi-square Step 1 Step Block Model 6.788 6.788 6.788 df 2 2 2 Sig. .034 .034 .034
Block 1 开始输出模型中引入自变量后的结果。
Method = Enter 用以说明在该 Block 中 自变量筛选的方法采用默认的 Enter 法,即强迫所有的自变量同时进入模型。
上表标题的 Omnibus 指的是模型总的全局检验,为似然比检验,共给出三个结果:Step 统计量为每一 步与前一步相比的似然比检验结果;Block 统计量是指若将 block 1 与 block 0 相比的似然 比检验结果; model 统计量则是上一个模型与现在方程中变量有变化后模型的似然比检 而 验结果。
本例由于选择了默认的 enter 法,三个统计量及假设检验结果完全一致。
χ 2 =6.788,P=0.034,表明 X1、X2 两个变量至少有一个的作用是有统计意义的。
关于似
然比检验的详细解释,请大家参见第二节中的相应内容。
- 397 -
第五部分
相关分析与回归分析
Model Summary
Step 1
-2 Log likelihood 47.761
Cox & Snell R Square .156
Nagelkerke R Square .210
上表为模型情况简报, 可见-2 倍的似然对数值为 47.761, 可用于上文提及的统计推断 及拟合优度检验。
后面给出的两个指标类似于线性回归中的决定系数。
Classification Table a
Predicted 康复情况 Observed Step 1 康复情况 未康复 康复 Overall Percentage
a. The cut value is .500
未康复 15 5
康复 8 12
Percentage Correct 65.2 70.6 67.5
上表为现在模型对应变量的分类预测情况,从预测分类表可以看出,预测准确率由 block 0 的 57.5%上升到 67.5%,说明新变量的引入对改善模型预测效果的确有意义。
Variables in the Equation
B Step 1
a
S.E. .724 .729 .639
Wald 1.576 5.240 2.110
df 1 1 1
Sig. .209 .022 .146
Exp(B) .403 .188 2.529
X1 X2 Constant
-.909 -1.669 .928
a. Variable(s) entered on step 1: X1, X2.
最后输出的一张表是 logistic 回归分析结果中最重要的一部分。
包括最终引入模型的 变量及常数项的系数值(B),标准误(SE),Wald 卡方值(Wald),自由度(df),P 值(Sig.),以及 Exp(β),即 OR 值。
由结果可以看出,变量 X2(疗法)的系数为-1.669, Wald 检验结果 P=0.022,有统计学意义。
此处系数为负值,比数比 OR 为 0.188。
这里的 解释方式为自变量高水平和低水平相比, 导致应变量向高水平发展的作用强度。
结合实际 含义,此处说明排除病情严重程度的混杂作用后, 传统疗法促使患者康复的能力为新疗法 的 0.188 倍。
显然,新疗法比传统疗法疗效好。
如果习惯于新/旧,则相应的结果为新疗 法的疗效为传统疗法的 1/0.188=5.319 倍。
对变量 X1(病情严重程度)的 Wald 检验结果 P=0.209 表明,病情严重程度对康复无 影响。
另外,常数项也给出了 Exp(β)值 2.529,是指病情不严重且接受新疗法者比数的自 然对数值。
- 398 -
。