第8章:Logistic回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、Logistic 回归模型的参数估计 对 Logistic 回归模型的参数估计可以采用极大似然法或者迭 代法。 极大似然法的基本思想是先建立似然函数,然后求使得似然 函数达到最大的参数估计值。 对于已有样本,可建立样本的似然函数为:
L piyi (1 pi )1 yi
i 1 n
样本的对数似然函数为:
ln L [ yi ln pi (1 yi ) ln(1 pi )]
n
将 pi 代入得:
i 1
ln L [ yi ( 0 1 xi1 2 xi 2 k xik )
i 1
n
ln(1 exp(0 1xi1 2 xi 2 k xik ))]
根据极大似然原理,对 lnL 求一阶导数并令其为0,再用 Newton-Raphson 迭代方法求解,得到参数估计值及其标准误。
4、 Logistic 回归的评价及统计检验 ⑴对于整体模型的检验 logistic回归方程求解参数是采用极大似然估计方法,因此 其回归方程的整体检验通过似然函数值( Likelihood )。 所谓似然函数值表达的是一种概率,即在假设拟合模型为真 实情况时能够观察到这一特定样本数据的概率,因此这个函数 值处于[0,1]之间。
e pi 1 e 0 1x1 2 x2 k xk e 0 1x1 2 x2 k xk 1 pi 1 1 e 0 1x1 2 x2 k xk
其中:pi 表示第 i 个观测中事件发生的概率,1-pi 表示第 i 个观 测中事件不发生的概率。
Logistic 回归分析根据因变量取值类别不同,又可以分为二 元 Logistic 回归分析和多元 Logistic 回归分析。
第一节 二元Logistic回归
现实世界中,经常需要判断一些事情是否将要发生,候选人 是否会当选,为什么一些人易患冠心病,为什么一些人生意会 获得成功。 这些问题的特点是因变量只有两个值,发生(是)或不发生 (否)。这就要求建立的模型必须保证因变量的取值是0、1。 可是大多数模型的因变量值常常处于一个实数集中,与因变量 只有两个值的要求相悖。因为一般回归分析要求直接预测因变 量的数值,要求因变量呈现正态分布,并且要求各组中具有相 同的方差—协方差矩阵。 本节介绍对因变量数据假设要求不高,并且可以用来预测具 有两分特点的因变量概率的统计方法 — 二元逻辑斯谛(Binary Logistic)回归模型。
2
~ 2 (1)
2
Wald 检验值越大表明该自变量的作用越显著。同一行的Sig 就是 Wald 检验的显著度性概率。 SPSS软件没有给出 Logistic 回归的标准化系数,如果要考虑 自变量的重要性,不妨直接比较 Wald 统计量,Wald 值大者显 著性高,也就更重要。 Wald 统计量的弱点是当回归系数的绝对值变大时,其标准 误将发生更大的改变,Wald 值就会变得很小,导致拒绝回归系 数的0假设失败,即认为变量的回归系数为0。
第8章 Logistic回归分析
•二元Logistic回归 •无序多分类Logistic回归 •有序多分类Logistic回归
线性回归模型的一个局限性是要求因变量是定量变量(定距 变量、定比变量)而不能是定性变量(定序变量、定类变量)。 但是在许多实际问题中,经常出现因变量是定性变量(分类变量) 的情况。 可用于处理分类因变量的统计分析方法有:判别分别 (Discriminant analysis)、Probit 分析、Logistic 回归分析和对 数线性模型等。在社会科学中,应用最多是Logistic回归分析。
LR L0 Lx
④检验两者之比是否显著区别于1。 当似然比等于1时,意味着这些自变量完全没有解释效果, 而似然比显著小于 1 时则说明这些自变量对于因变量变化的解 释有显著的贡献。
为在统计上检验显著性,需要知道似然比的抽样分布。然 而我们不知道似然比服从什么分布。但是可以证明似然比的一 个函数近似地服从于卡方分布,即:
学生化残差,用残差除以残差标准差的估计值。
标准化残差,其均值为 0,标准差为1。 偏差,基于模型变异的残差。
⑶选项的设臵 单击“选项”按钮,弹出对话框如下所示:
【例8.1】在Hosmer和Lemeshow于1989年研究了低出生体重 婴儿的影响因素,结果变量为是否娩出低出生体重儿(变量名为 LOW。值为1:低出生体重,即婴儿出生体重<2500克;值为0: 非低出生体重),希望筛选出低出生体重儿的影响因素,考虑产 妇妊娠前体重(lwt)、产妇年龄(age)、产妇在妊娠期间是否吸 烟(smoke)、种族等。数据文件为stic 模型 在二元逻辑斯谛回归中可以直接预测观测量相对于某一事件 的发生概率。 设因变量为 y,其取值 1 表示事件发生,取值 0 表示事件不 发生。(因变量具有二分的特点,自变量是分类变量或等间隔测度的变量) 记事件发生的条件概率为: P( y 1 xi ) pi 包含 k 个自变量的回归模型可以写为:
向后:LR—向后前逐步法(似然比),将变量剔除的依据是最大
偏似然估计所得的似然是统计量的概率值。 B向后:Wald—向后逐步法(Wald法),将变量剔除的依据是 Wald统计量的概率值。
⑵对分类变量设臵 单击“分类”按钮,弹出对话框如下所示:
①协变量:显示当前可用的协变量。 ②分类协变量:显示当前选择的分类变量。
如果考察产妇是否吸烟为低出生体重儿关系,则四格表为:
产妇在妊娠 期间是否吸烟 不吸烟(0) 吸烟(1) 合计 低出生体重儿 正常(0) 86 44 130 低出生体重(1) 29 30 59 合计 115 74 189 低出生率 25.2% 40.5% 31.2%
该资料如果拟合Logistic回归模型,则结果为:
p ln 1 p 0 1 x1 k xk
可以看出 Logistic 回归系数可以理解为一个单位自变量的 变化对比率的对数的改变值。 由发生比可以看出,当第 i 个自变量发生一个单位的变化时, 发生比的变化值为 Exp(bi)。自变量的系数为正值,意味着事 件发生的几率会增加,Exp(bi)的值大于1;变量的系数为负值, 意味着事件发生的几率会减少,Exp(bi)的值小于1。
L0 2 ln ~ ( p) L x
2
如果在SPSS中进行Logistic回归时定义了自变量,那么回 归报告便会自动给出上面这两项计算值。 常用的三种卡方统计量分别为:模型、块、步骤。 ①“模型”统计量:检验除常数项以外,模型中所有变量系 数为零的假设。 当前模型的 -2LL 与模型中只包括常数项的 -2LL 之差。 ②“块”卡方统计量为当前 -2LL 值与后一组变量进入后的 -2LL值之差。如果选择了多组变量,那么“块”卡方值用来对 最后一组变量为 0 的零假设进行检验。 ③“步骤”卡方值是当前与下一步 -2LL 之间的差值。用来 对最后一个加入模型的变量系数为 0 的零假设进行检验。
⑴变量设臵 ①因变量:用于从变量列表中选择一个二分量作为因变量 ②协变量:用于从变量列表中选入协变量。 ③选择变量:用于选入一个对样本筛选变量,只有满足条 件的观测记录才会进入回归方程。 ④方法:用于指定协变量进入回归模型的方法。SPSS给出 了7种可选方案:
进入:强迫进入法,协变量全部进入模型。
③更改对比:用于选择分类协变量各水平的对照方式。
⑶保存的设臵 单击“保存”按钮,弹出对话框如下所示:
①预测值:保存模型预测值。概率—事件发生的预测概率; 组成员—根据预测概率得到的每个观测的预测分类。
②影响:保存对单个观测记录进行预测时的有影响力指标。
Cook距离:表示把一个个案从计算回归系数的样本中去除时
所引起的残差变化的大小,Cook距离越大,表明该个案对回归 系数的影响越大。
杠杆值:用来衡量单个观测对效果的影响程度,取值范围在
0—n/(n-1),取0时表示当前记录对模型的拟合无影响。
DfBeta(s),剔除一个个案后回归系数的改变。
③残差
未标准化残差,观测值与预测值之差。 Logit,残差除以“预测概率× (1-预测概率)”。
0 1 x1 2 x2 k xk
2、Logistic 回归系数 事件发生与不发生之比被称为事件的发生比,简记为Odd。 用公式表示:
p e 0 1x1 k xk 1 p
Odd 为一正数,并且没有上界。 对 Odd 做对数变换,就能得到 Logistic 回归模型的线性 形式:
向前:条件—向前逐步法(条件似然比),变量引入的根据是得
分统计量的显著性水平,变量被剔除的依据是条件参数估计所 得的似然比统计量的概率值。
向前:LR—向前逐步法(似然比),变量引入的根据是得分统计
量的显著性水平;变量被剔除的依据是最大偏似然估计所得的 似然比统计量的概率值。 向前:Wald—向前逐步法(Wald法),变量引入的根据是得分统 计量的显著性水平;变量被剔除的依据是 Wald统计量概率值。 向后:条件—向后前逐步法(条件似然比),将变量剔除的依据 是条件参数估计所得的似然比统计量的概率值。
5、逐步回归中的变量筛选 Logistic 逐步回归的变量筛选过程与现行逐步回归过程极为 相似,但不再是 F 统计量,而是似然比统计量和Wald统计量 (l ) (l ) ln L1 ) 作为变量的筛选标 例如使用似然比统计量 G 2(ln L1 准,在进行到第 l 步时,通过比较含有 Xj 和不含 Xj 的模型,决 定 Xj 是否引入模型。 6、Logistic 回归的参数设臵 依次单击SPSS软件“分析→回归→二元Logistic”命令,进 入 Logistic 回归对话框如下:
在评价或检验一个含有自变量的 Logistic 回归模型时,通常 是将其与截距模型相比较。 所谓截距模型,就是将所有自变量删除后只剩一个截距系数 的模型(logit p=a)。 以截距模型作为标准,比较在加入其他自变量后新的模型与 数据的拟合水平是否有显著提高。
具体操作方法是: ①定义截距模型为L0,作为参照模型; ②定义假设模型为Lx ; ③计算比率—似然比(Likelihood - Ratio)
因为似然函数值取自然对数后在数学处理上更为方便,而且 似然函数值是个极小的小数,其对数值是个负数,所以通常对 似然函数值先取自然对数再乘以 -2 以后应用。
SPSS中就是报告这一指标,标志为“-2 对数似然值(可缩写 为-2LL)”。报告值越大,意味着回归方程的似然值越小,标志 模型的拟合程度越差。报告值越小,意味着回归方程的似然值 越接近1,标志模型的拟合程度越好。 在模型完全拟合观察值的情况下,有似然值等于1,那么似 然值的对数等于0。越接近0,模型拟合效果越好。
⑵回归系数的检验
SPSS软件在执行 Logistic 回归时除报告回归系数βi 的估计 值以外,还自动报告关于其统计检验量。 Wald 统计量是用来检验偏回归系数显著程度的,它是偏回 归系数与自由度的函数,服从于卡方分布。其计算公式为:
i B Wald S .E. S i
块0:起始块
块1:方法=输入
Logit(P 低体重儿) 1.087 0.704smoke
⑴常数项:表示自变量全为0(称基线状态)时,比数(Y=1与 Y=0的概率之比)的自然对数,本例为:
29 115 29 0 ln ln 1.087 86 115 86
即不吸烟的低体重儿概率和正常儿概率之比的自然对数。 ⑵自变量的回归系数:β表示自变量每改变一个单位,优势 比的自然对数值该变量,本例为: