Logistic回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分析糖尿病患者继发肿瘤与否的影响因 素,采用二分类Logistic 回归分析。
步骤是: 程序编辑窗主菜单 Analyze → 选 Regression (回归分析) → 选 Binary Logictic (两分类变量 Logictic 回归分析,出现 Logistic Regression 窗口 → 将 是否肿瘤选入右边 的 Dependent (因变量)窗口中 → 将sex、age 、血脂、血压等均选入右 边的 Covariats(协变量,这里是自变 量) 窗口中,
e (bi u Sbi )
五、 Logistic回归分析方法
基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、 后退法和逐步法。在这些方法中,筛选变量 的过程与线性回归过程的完全一样。但其中 所用的统计量不再是线性回归分析中的F统计 量,而是以上介绍的参数检验方法中的三种 统计量之一。
为计算方便,通常向前选取 变量用似然比或比分检验,而向 后剔除变量常用Wald检验。
六、 Logistic回归的应用
• 危险/保健因素的筛选,并确定其作用 大小。
• 预测:预测某种情况下或者某个病例, 某特定事件发生的概率。
影响因素为分类变量时,用列联表形式 卡方检验 存在分类的混杂因素时,用Mantel-Haensze 但存在局限性(1)控制混杂因素,但无法描 述作用大小及方向(2)样本量要求大,单元 格划分太细(3)无法对连续性自变量的影响 进行分析
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
( 1x1 2 x2 n xn )
P 1 e e( 1x1 2x2 n xn ) 1
1 P 1 e( 1x1 2x2 nxn )
其中,为常数项,为偏回归系数。
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或
最大等级作参考组,并按等级顺序依次取为
0,1,2,…。此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则
应按多分类资料处理。
• 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
即 ln L 0 , 用
j
Newton-Raphson 迭代方法解方 程组,
得出参数 j 的估计值 b j 和 b j 的渐进标准误 Sbj 。
最大似然法的基本思想是先建立似然 函数与对数似然函数,再通过使对数 似然函数最大求解相应的参数值(使 得一次抽样中获得现有样本的概率为 最大),所得到的估计值称为参数的 最大似然估计值。
条件Logistic回归 1:m配对资料 m:n配对资料
Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变 量, 影响疾病发生的因素为自变量建立回 归模型。
• 例:为了探讨糖尿病与血压、血脂等因素 的关系,研究者对56例糖尿病病人和65例 对照者进行病例对照研究,收集了性别、 年龄、学历、体重指数、家族史、吸烟、
多因素Logistic回归分析时,对回 归系数的解释都是指在其它所有自变量 固定的情况下的优势比。存在因素间交 互作用时, Logistic回归系数的解释变 得更为复杂,应特别小心。
根据Wald检验,可知Logistic回归 系数bi服从u分布。因此其可信区间为
bi u Sbi
进而,优势比e(bi)的可信区间为
u= bi s bi
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
bi u Sbi
上述三种方法中,似然比检验最可靠, 比分检验一般与它相一致,但两者均要求 较大的计算量;而Wald检验未考虑各因素 间的综合作用,在因素间有共线性时结果 不如其它两者可靠。
四、回归系数的意义
S.E. .636 .036 .298 .552 .682 .714 .670 .472
1.042
Wal d .171
5.521 5.513 8.621 5.744 19.174 6.040 1.647 4.929
df 1 1 1 1 1 1 1 1 1
Si g. .679 .019 .019 .003 .017 .000 .014 .199 .026
OR j exp j
• 分析因素xi为多分类变量时,为方便起 见,常用1,2,…,k分别表示k个不 同的类别。进行Logistic回归分析前需 将该变量转换成k-1个指示变量或哑变 量(design/dummy variable),这样指 示变量都是一个二分变量,每一个指 示变量均有一个估计系数,即回归系 数,其解释同前。
• (1)取值问题
• (2)曲线关联
• 反应变量与自变量的关系通常不是直线关 系,而是S型曲线。曲线回归时,往往采用 变量变化,使得曲线直线化,再进行直线 回归方程的拟合。能否考虑对所预测的因 变量加以变换。1970年,COX引入了用于 人口学领域的Logit变换。
1
P .8
.6
.4
.2
0 -5 -4 -3 -2 -1 0 1 2 3 4 5
多项有序分类:某一治疗结果,治愈、显效、 有效、无效;
多项无序分类:肝炎分型 甲、乙、丙、丁、 戊
研究分类反应变量与多个影响因素之间的 相互关系的一种多变量分析方法,进行疾病的 病因分析。
• Logistic回归的分类
Logistic回归 二分类 有序反应变量 多分类 无序反应变量
非条件 1:1配对资料
• Logistic回归中的回归系数( bi )表示, 某一因素改变一个单位时,效应指标 发生与不发生事件的概率之比的对数 变化值,即OR的对数值。
ln
1
p -p
0
ln OR j
ln
p1 p2
/(1 /(1
p1 ) p2 )
ln OR j ln j
单纯从数学上讲,与多元线性回归分析 中回归系数的解释并无不同,亦即bi表示xi改 变一个单位时, logit P的平均变化量。
Variables in the Equation
Satep 1
性别 年龄 学历 体重 指数 家族 史 吸烟 血压 总胆 固醇 甘油 三脂
B .263 .085 -.699 1.621 1.634 3.126 1.647 .606 2.312
• 哑变量
• 自变量为多分类变量,与应变量之间通常不存在 线性关系,须用哑变量方式分析。若K为该变量 的水平数,则系统将自动产生K-1个哑变量。 Categorical子对话框用于此设置。
血压、总胆固醇、甘油三脂、高密度脂蛋 白、低密度脂蛋白11个因素的资料,各因 素的观察结果见表
• 二分类反应变量Y= 1 出现阳性结果
•
0 出现阴性结果
• 对反应变量有影响的因素有n个,称为自变 量X1,X2,….Xn
• 在n个自变量作用下出现阳性结果的条件概 率为P=P(Y=1 (X1,X2,….Xn)
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或 几个待检验观察因素的两个模型的对 数似然函数变化来进行,其统计量为G (又称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由
度为待检验因素个数的2分布。
• 比分检验(score test)
Exp(B) 1.301 1.089 .497 5.056 5.124
22.787 5.190 1.832
10.098
hdl
-.914
.432
4.484
1
.034
.401
ldl
.017
.416
.002
1
.967
1.017
Constant
-20.207
4.652
18.866
1
.000
.000
a. Vari able(s) ente red o n step 1: 性 别 , 年 龄 , 学 历 , 体 重 指 数 , 家 族 史 , 吸 烟 , 血 压 , 总 胆 固 醇 , 甘 油 三 脂 , hd l, ldl.
1、回归系数的估计:最大似然估计法 (Maximum
likehood estimate)
根据最大似然原理,似然函数 L 应取最大值。
对似然函数取对数形式:
n
ln L i1[Yi ln Pi (1Yi ) ln(1 Pi )]
式中为对数似然函数,对其取一阶导数求解参数。对
于参数 j ( j 1, 2,L , m ),令 ln L 的一阶导数为 0,
二分类Logistic对资料的要求
(1)反应变量为二分类的分类变量。(发病 率等存在重复计数的指标不适用
(2)误差项服从二项分布(不是正态分布), 不再使用最小二乘法进行参数估计,而使 用最大似然法来解决方程的估计和检验问 题)
(3)观察对象相互独立
(4)所需样本数为自变量个数的5-10倍。
分析实例
流行病学中的一些基本概念:
相对危险度(relative risk): RR=P1/P2
比数
Odds=P/(1-P)
比数比
OR=[P1/(1-P1)]/[P2/(1-P2)]
在患病率较小情况下,OR≈RR
设P表示暴露因素X时个体发病的概率,
则发病的概率P与未发病的概率1-P 之
比为优势(odds), logit P就是odds
Forward: LR ( 向前逐步法:似然 比法 likelihood ratio,LR)→ 再 击下方的 Save 钮,将 Predicted values、 Influence 与 Residuls 窗 口中的预选项全勾选 → Continue → 再击下方的 Options 钮,将 Statistics and Plot 小窗口中的选 项全勾选 → Continue → OK 。
Z
Z 1 x1 2 x2 L n xn
什么叫Logit变换?通常把出现某种结果的概率与不 出现的概率之比称为比值
Odds=P/1-P,将其纳入对数=Ln(P/1-P) • 概率P是以0.5为对称点,分布在0~1的范围内的,
而相应的Logit(P)的大小为 P=0 Logit(P)=Ln(0/1)=-无穷大 P=0.5 Logit(P)=Ln(0.5/0.5)=0 P=1 Logit(P)=Ln(1/0)=+无穷大 Logit(P )取值范围扩展为(-,+ -)
一、Logistic回归方程 Logistic回归的logit模型
P= 1x1 2 x2 n xn
Logit变换 P转换为ln[P/(1-P)]
logit (P)= 1x1 2 x2 n xn ln[P/(1-P)]= 1x1 2 x2 n xn
的对数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。
二、参数估计
• 建立Logistic回归方程就是求和i • 意义 常数项是当各种暴露因素为0时,个体发
病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数表示在其它自变量固定的条件下, • 第n个自变量每改变一个单位时logit的改变量。
它与比数比(优势比)(odds ratio)有对应关 系。
Logistic回归分析
汕大医学院预防医学教研室
Logistic regression:
是研究分类变量统计分析的一种重 要方法。研究两水平或多水平反应变 量与其影响因子间关系的回归分析 (线性回归分析: 应变量为连续计量 资料)。
ຫໍສະໝຸດ Baidu
如二项分类,如某种疾病的患病与否 某一治疗结果有效和无效 器官移植后生存或死亡
以未包含某个或几个变量的模型为基础, 保留模型中参数的估计值,并假设新增加 的参数为零,计算似然函数的一价偏导数 (又称有效比分)及信息距阵,两者相乘
便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的 2分布。
• Wald检验( wald test)
即广义的t检验,统计量为u
步骤是: 程序编辑窗主菜单 Analyze → 选 Regression (回归分析) → 选 Binary Logictic (两分类变量 Logictic 回归分析,出现 Logistic Regression 窗口 → 将 是否肿瘤选入右边 的 Dependent (因变量)窗口中 → 将sex、age 、血脂、血压等均选入右 边的 Covariats(协变量,这里是自变 量) 窗口中,
e (bi u Sbi )
五、 Logistic回归分析方法
基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、 后退法和逐步法。在这些方法中,筛选变量 的过程与线性回归过程的完全一样。但其中 所用的统计量不再是线性回归分析中的F统计 量,而是以上介绍的参数检验方法中的三种 统计量之一。
为计算方便,通常向前选取 变量用似然比或比分检验,而向 后剔除变量常用Wald检验。
六、 Logistic回归的应用
• 危险/保健因素的筛选,并确定其作用 大小。
• 预测:预测某种情况下或者某个病例, 某特定事件发生的概率。
影响因素为分类变量时,用列联表形式 卡方检验 存在分类的混杂因素时,用Mantel-Haensze 但存在局限性(1)控制混杂因素,但无法描 述作用大小及方向(2)样本量要求大,单元 格划分太细(3)无法对连续性自变量的影响 进行分析
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
( 1x1 2 x2 n xn )
P 1 e e( 1x1 2x2 n xn ) 1
1 P 1 e( 1x1 2x2 nxn )
其中,为常数项,为偏回归系数。
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或
最大等级作参考组,并按等级顺序依次取为
0,1,2,…。此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则
应按多分类资料处理。
• 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
即 ln L 0 , 用
j
Newton-Raphson 迭代方法解方 程组,
得出参数 j 的估计值 b j 和 b j 的渐进标准误 Sbj 。
最大似然法的基本思想是先建立似然 函数与对数似然函数,再通过使对数 似然函数最大求解相应的参数值(使 得一次抽样中获得现有样本的概率为 最大),所得到的估计值称为参数的 最大似然估计值。
条件Logistic回归 1:m配对资料 m:n配对资料
Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变 量, 影响疾病发生的因素为自变量建立回 归模型。
• 例:为了探讨糖尿病与血压、血脂等因素 的关系,研究者对56例糖尿病病人和65例 对照者进行病例对照研究,收集了性别、 年龄、学历、体重指数、家族史、吸烟、
多因素Logistic回归分析时,对回 归系数的解释都是指在其它所有自变量 固定的情况下的优势比。存在因素间交 互作用时, Logistic回归系数的解释变 得更为复杂,应特别小心。
根据Wald检验,可知Logistic回归 系数bi服从u分布。因此其可信区间为
bi u Sbi
进而,优势比e(bi)的可信区间为
u= bi s bi
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
bi u Sbi
上述三种方法中,似然比检验最可靠, 比分检验一般与它相一致,但两者均要求 较大的计算量;而Wald检验未考虑各因素 间的综合作用,在因素间有共线性时结果 不如其它两者可靠。
四、回归系数的意义
S.E. .636 .036 .298 .552 .682 .714 .670 .472
1.042
Wal d .171
5.521 5.513 8.621 5.744 19.174 6.040 1.647 4.929
df 1 1 1 1 1 1 1 1 1
Si g. .679 .019 .019 .003 .017 .000 .014 .199 .026
OR j exp j
• 分析因素xi为多分类变量时,为方便起 见,常用1,2,…,k分别表示k个不 同的类别。进行Logistic回归分析前需 将该变量转换成k-1个指示变量或哑变 量(design/dummy variable),这样指 示变量都是一个二分变量,每一个指 示变量均有一个估计系数,即回归系 数,其解释同前。
• (1)取值问题
• (2)曲线关联
• 反应变量与自变量的关系通常不是直线关 系,而是S型曲线。曲线回归时,往往采用 变量变化,使得曲线直线化,再进行直线 回归方程的拟合。能否考虑对所预测的因 变量加以变换。1970年,COX引入了用于 人口学领域的Logit变换。
1
P .8
.6
.4
.2
0 -5 -4 -3 -2 -1 0 1 2 3 4 5
多项有序分类:某一治疗结果,治愈、显效、 有效、无效;
多项无序分类:肝炎分型 甲、乙、丙、丁、 戊
研究分类反应变量与多个影响因素之间的 相互关系的一种多变量分析方法,进行疾病的 病因分析。
• Logistic回归的分类
Logistic回归 二分类 有序反应变量 多分类 无序反应变量
非条件 1:1配对资料
• Logistic回归中的回归系数( bi )表示, 某一因素改变一个单位时,效应指标 发生与不发生事件的概率之比的对数 变化值,即OR的对数值。
ln
1
p -p
0
ln OR j
ln
p1 p2
/(1 /(1
p1 ) p2 )
ln OR j ln j
单纯从数学上讲,与多元线性回归分析 中回归系数的解释并无不同,亦即bi表示xi改 变一个单位时, logit P的平均变化量。
Variables in the Equation
Satep 1
性别 年龄 学历 体重 指数 家族 史 吸烟 血压 总胆 固醇 甘油 三脂
B .263 .085 -.699 1.621 1.634 3.126 1.647 .606 2.312
• 哑变量
• 自变量为多分类变量,与应变量之间通常不存在 线性关系,须用哑变量方式分析。若K为该变量 的水平数,则系统将自动产生K-1个哑变量。 Categorical子对话框用于此设置。
血压、总胆固醇、甘油三脂、高密度脂蛋 白、低密度脂蛋白11个因素的资料,各因 素的观察结果见表
• 二分类反应变量Y= 1 出现阳性结果
•
0 出现阴性结果
• 对反应变量有影响的因素有n个,称为自变 量X1,X2,….Xn
• 在n个自变量作用下出现阳性结果的条件概 率为P=P(Y=1 (X1,X2,….Xn)
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或 几个待检验观察因素的两个模型的对 数似然函数变化来进行,其统计量为G (又称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由
度为待检验因素个数的2分布。
• 比分检验(score test)
Exp(B) 1.301 1.089 .497 5.056 5.124
22.787 5.190 1.832
10.098
hdl
-.914
.432
4.484
1
.034
.401
ldl
.017
.416
.002
1
.967
1.017
Constant
-20.207
4.652
18.866
1
.000
.000
a. Vari able(s) ente red o n step 1: 性 别 , 年 龄 , 学 历 , 体 重 指 数 , 家 族 史 , 吸 烟 , 血 压 , 总 胆 固 醇 , 甘 油 三 脂 , hd l, ldl.
1、回归系数的估计:最大似然估计法 (Maximum
likehood estimate)
根据最大似然原理,似然函数 L 应取最大值。
对似然函数取对数形式:
n
ln L i1[Yi ln Pi (1Yi ) ln(1 Pi )]
式中为对数似然函数,对其取一阶导数求解参数。对
于参数 j ( j 1, 2,L , m ),令 ln L 的一阶导数为 0,
二分类Logistic对资料的要求
(1)反应变量为二分类的分类变量。(发病 率等存在重复计数的指标不适用
(2)误差项服从二项分布(不是正态分布), 不再使用最小二乘法进行参数估计,而使 用最大似然法来解决方程的估计和检验问 题)
(3)观察对象相互独立
(4)所需样本数为自变量个数的5-10倍。
分析实例
流行病学中的一些基本概念:
相对危险度(relative risk): RR=P1/P2
比数
Odds=P/(1-P)
比数比
OR=[P1/(1-P1)]/[P2/(1-P2)]
在患病率较小情况下,OR≈RR
设P表示暴露因素X时个体发病的概率,
则发病的概率P与未发病的概率1-P 之
比为优势(odds), logit P就是odds
Forward: LR ( 向前逐步法:似然 比法 likelihood ratio,LR)→ 再 击下方的 Save 钮,将 Predicted values、 Influence 与 Residuls 窗 口中的预选项全勾选 → Continue → 再击下方的 Options 钮,将 Statistics and Plot 小窗口中的选 项全勾选 → Continue → OK 。
Z
Z 1 x1 2 x2 L n xn
什么叫Logit变换?通常把出现某种结果的概率与不 出现的概率之比称为比值
Odds=P/1-P,将其纳入对数=Ln(P/1-P) • 概率P是以0.5为对称点,分布在0~1的范围内的,
而相应的Logit(P)的大小为 P=0 Logit(P)=Ln(0/1)=-无穷大 P=0.5 Logit(P)=Ln(0.5/0.5)=0 P=1 Logit(P)=Ln(1/0)=+无穷大 Logit(P )取值范围扩展为(-,+ -)
一、Logistic回归方程 Logistic回归的logit模型
P= 1x1 2 x2 n xn
Logit变换 P转换为ln[P/(1-P)]
logit (P)= 1x1 2 x2 n xn ln[P/(1-P)]= 1x1 2 x2 n xn
的对数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。
二、参数估计
• 建立Logistic回归方程就是求和i • 意义 常数项是当各种暴露因素为0时,个体发
病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数表示在其它自变量固定的条件下, • 第n个自变量每改变一个单位时logit的改变量。
它与比数比(优势比)(odds ratio)有对应关 系。
Logistic回归分析
汕大医学院预防医学教研室
Logistic regression:
是研究分类变量统计分析的一种重 要方法。研究两水平或多水平反应变 量与其影响因子间关系的回归分析 (线性回归分析: 应变量为连续计量 资料)。
ຫໍສະໝຸດ Baidu
如二项分类,如某种疾病的患病与否 某一治疗结果有效和无效 器官移植后生存或死亡
以未包含某个或几个变量的模型为基础, 保留模型中参数的估计值,并假设新增加 的参数为零,计算似然函数的一价偏导数 (又称有效比分)及信息距阵,两者相乘
便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的 2分布。
• Wald检验( wald test)
即广义的t检验,统计量为u