2016.4.10-logistic回归分析
Logistic回归分析PPT课件

汕大医学院预防医学教研室
1
第一节 Logistic 回归
Logistic regression:
是研究分类变量统计分析的一种重要方 法。研究两水平或多水平反应变量与其影 响因子间关系的回归分析(线性回归分析: 应变量为连续计量资料)。 Logistic回归模型是一种概率模型, 通常以疾 病,死亡等结果发生的概率为因变量, 影响疾 病发生的因素为自变量建立回归模型。
19
• Logistic回归中的常数项(b0)表示,在不接触任 何潜在危险/保护因素条件下,效应指标发生与 不发生事件的概率之比的对数值。
• Logistic回归中的回归系数( bi )表示,某一因 素改变一个单位时,效应指标发生与不发生事件 的概率之比的对数变化值,即OR的对数值。
20
Logistic回归系数的意义
11
• (1)取值问题 • (2)曲线关联 • 反应变量与自变量的关系通常不是直线关
系,而是S型曲线。曲线回归时,往往采用 变量变换,使得曲线直线化,再进行直线 回归方程的拟合。能否考虑对所预测的因 变量加以变换。1970年,COX引入了用于 人口学领域的Logit变换。
12
概率P是以0.5为对称点,分布在0~1的范围内 的,而相应的Logit(P)的大小为
4
实例
试验者术前检查了53例前列腺癌患者,拟 用年龄(AGE)、酸性磷酸酯酶(ACID)两个连 续型的变量,X射线(X-RAY)、术前探针活 检病理分级(GRADE)、直肠指检肿瘤的大小 与位置(STAGE)三个分类变量与手术探查结 果变量NODES(1、0分别表示癌症的淋巴结 转移与未转移 )建立淋巴结转移的预报模 型。
5
53例接受手术的前列腺癌患者情况
图文举例详细讲解Logistic曲线的回归分析

Logistic 曲线的回归分析例 某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如表1.所示。
用转化为线性方程的方法估计其logistic 曲线预测模型。
设最大值k 为300(cm )。
表1. 玉米高度与时间(生长周期)的关系时间(生长周期) 高度/cm 时间(生长周期) 高度/cm 时间(生长周期) 高度/cm12 3 4 5 6 7 8 9 10 11 0.67 0.85 1.28 1.75 2.27 2.75 3.69 4.71 6.36 7.73 9.9112 13 14 15 16 17 18 19 20 21 12.75 16.55 20.1 27.35 32.55 37.55 44.75 53.38 71.61 83.89 22 23 24 25 26 27 28 29 30 31 97.46 112.7 135.1 153.6 160.3 167.1 174.9 177.9 180.2 180.83.1 基本绘图操作在Excel 中输入时间x 与高度y 的数据。
选择插入->图表图87点击图表,选择“标准类型”中的xy 散点图,并点击子图表类型的第一个。
图88 点击下一步,得到如图89。
图 89点击下一步。
图90分别点击标题、网格线、图例进行修改,然后点击下一步。
图91点击完成。
图92右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。
图93观察散点图,其呈S 型曲线,符合logistic 曲线。
采用转化为线性方程的方法求解模型。
3.2 Logistic 曲线方程及线性化Logistic 曲线方程为:1atk y me-=+ (12)(1) 将数据线性化及成图转化为线性方程为:01'y a a t =+ (13)其中,'ln(/1)y k y =-,0ln a m =,1a a =-具体操作为:向excel 表格中输入y ’数据。
【尚择优选】logistic回归及其分析攻略

什么是Logistic回归
P logit P ln ( ) Logit变换: 1 P
式中等号右边的分数 [p/(1-p)] 是流行病学常用的描述疾病 发生强度的统计指标,称为优势(odds)。 当疾病发生的概率p与不发生的概率q相等皆为0.5时, odds=1,否则odds大于或小于1。
logistic回归分析思路
(3)HL指标——用于模型中含有连续自变量的情形
HL
g 1
G
ˆg ) ( y g ng p ˆ g (1 p ˆg ) ng p
HL统计量根据预测概率值大小将所有数据排序,大致分 为规模相同的10组,比较观测值与预测值的差异 χ2检验不显著表示拟合较好,反之表示拟合不好。
logistic回归分析思路
(2)暴露因素(自变量) x是多分类变量时: 常用1,2,3,…,k分别表示k个不同的类别。 进行logistic回归分析时,将变量转换为k-1个虚拟变量或 哑变量(dummy variable),每个虚拟变量都是一个二分 类变量,通常用0和1表示。 每个虚拟变量各有一个回归系数,其意义表示1与0相比的 优势比的对数值
线性回归模型: Logit变换:
ˆ a b1 x1 b2 x2 bm xm y
P logit P ln( ) 1 P
p表示事件发生的概率,1-p为事件不发生的概率 当p=1时,logit(p)=+∞, 当p=0.5时,logit(p)=0, 当p=0时,logit(p)=-∞ 故logit(p)的取值范围是(-∞,+∞)
logistic回归分析思路
(4)AIC、SC——用于多个模型之间的拟合优度比较
logistic回归分析

表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
logistic回归分析

hdl
-.914
.432
4.484
1
.034
.401
.172
.934
ldl
.017
.416
.002
1
.967
1.017
.450
2.300
Constant -20.207
4.652 18.866
1
.000
.000
a. Vari able(s) ente red o n step 1: 性 别 , 年 龄 , 学 历 , 体 重 指 数 , 家 族 史 , 吸 烟 , 血 压 , 总 胆 固 醇 , 甘 油 三 脂 , hd l, ldl.
1 p
1
1 exp( 0 1 X 1 p X p )
模 型
ln
1
P P
=0
1
X1
2
X
2
m X m log itP
参 数
常数项 0
表示暴露剂量为0时个体
的
发病与不发病概率之比的自然对数。
意 义
回归系数 j ( j 1,2,, m) 表示自变量 X j 改变一个单位时
t j
t j
j (c1 c0 )
即 ORj exp[ j (c1 c0 )]
若X
j
1 0
暴露 非暴露 , c1 c0 1,
0,
OR j
1
无作用
则有 ORj exp j , j >0, ORj 1 危险因子
0, ORj 1 保护因子
开始变量都在方程中,然后 按自变量因变量的贡献(P值的大 小)由大到小依次剔除,变量剔 除的条件是其P值大于规定的剔除 标准Remove, 缺省值 p(0.10)。
第十二章Logistic回归分析

第十二章Logistic回归分析第十二章 Logistic 回归分析一、Logistic 回归概述:Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施;通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的因素为自变量建立模型。
二、Logistic 回归的分类及资料类型:第一节非条件Logistic 回归分析一、Logistic 回归模型:Logistic 回归模型:logit (P )= ln(pp -1) = β0+β1χ 1 + … +βn χn二、回归系数的估计(参数估计):回归模型的参数估计:Logistic 回归模型的参数估计通常利用最大似然估计法。
三、假设检验:1.Logistic 回归方程的检验:·检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。
·检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。
上述三种方法中,似然比检验最可靠。
·似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G=-2ln(L)(又称Deviance )。
无效假设H 0:β=0。
当H 0成立时,检验统计量G近似服从自由度为N-P-1的X 2分布。
当G 大于临界值时,接受H 1,拒绝无效假设,认为从整体上看适合作Logistic 回归分析,回归方程成立。
2.Logistic 回归系数的检验:·为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。
)(1101101101111)](exp[11)exp(1)exp(ppX X p p p p p p e X X X X X X p ββββββββββββ+++-+=+++-+=+++++++=·检验方法常用Wald X2检验,无效假设H0:β=0。
[转载]logistic回归模型总结
![[转载]logistic回归模型总结](https://img.taocdn.com/s3/m/289c6c320166f5335a8102d276a20029bd646330.png)
[转载]logistic回归模型总结logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。
一、有关logistic的基本概念logistic回归主要用来预测离散因变量与一组解释变量之间的关系最常用的是二值型logistic。
即因变量的取值只包含两个类别例如:好、坏;发生、不发生;常用Y=1或Y=0表示 X表示解释变量则P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为:log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS)即发生与不发生的概率之比可以根据上式反求出P(Y=1|X)=1/(1+e^-L)根据样本资料可以通过最大似然估计计算出模型的参数然后根据求出的模型进行预测下面介绍logistic回归在SAS中的实现以及输出结果的解释二、logistic回归模型初步SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行(1)模型的整体拟合优度主要评价预测值与观测值之间的总体一致性。
可以通过以下两个指标来进行检验1、Hosmer-Lemeshowz指标HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。
在SAS中这个指标可以用LACKFIT选项进行调用2、AIC和SC指标即池雷准则和施瓦茨准则与线性回归类似AIC和SC越小说明模型拟合的越好(2)从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验在logistic回归中可以通过似然比(likelihood ratio test)进行检验(3)解释变量解释在多大程度上解释了因变量与线性回归中的R^2作用类似在logistic回归中可以通过Rsquare和C统计量进行度量在SAS中通过RSQ来调用Rsquare,C统计量自动输出(4) 模型评价指标汇总说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是HL统计量。
Logistic回归分析资料

便得比分检验的统计量S 。样本量较大时,
S近似服从自由度为待检验因素个数的 2分布。
• Wald检验( wald test)
即广义的t检验,统计量为u
一、Logistic回归方程 Logistic回归的logit模型 P= 1 x1 2 x2 n xn
Logit变换 P转换为ln[P/(1-P)] logit (P)= 1 x1 2 x2 n xn ln[P/(1-P)]= 1 x1 2 x2 n xn
( 1 x1 2 x2 n xn )
二、参数估计
• 建立Logistic回归方程就是求和i • 意义 常数项是当各种暴露因素为0时,个体发 病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数表示在其它自变量固定的条件下, • 第n个自变量每改变一个单位时logit的改变量。 它与比数比(优势比)(odds ratio)有对应关 系。
1、回归系数的估计:最大似然估计法 (Maximum
likehood estimate)
根据最大似然原理,似然函数 L 应取最大值。 对似然函数取对数形式:
ln L [Yi ln P i (1 Yi )ln(1 P i )]
i 1
n
式中为对数似然函数,对其取一阶导数求解参数。对 于参数 j ( j 1, 2, 即 ,令 ln L 的一阶导数为 0, ,m ) 用
ln L 0 j
,
Newton-Raphson 迭代方法解方 程组, 得出参数 j 的估计值 bj 和 bj 的渐进标准误 Sb j 。
统计学-logistic回归分析

Xi=1与Xi=0相比,发生某结果(如发病)优势比 的对数值。
i
的含义:某危险因素,暴露水平变化时,即
P 1 /(1 P 1) ln OR ln P0 /(1 P0 ) log itP 1 log itP 0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
便得比分检验的统计量S 。样本量较大时,
S近似服从自由度为待检验因素个数的 2分布。
• Wald检验( wald test)
即广义的t检验,统计量为u
bi u= s bi
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
bi u Sbi
上述三种方法中,似然比检验 最可靠,比分检验一般与它相一致, 但两者均要求较大的计算量;而 Wald检验未考虑各因素间的综合 作用,在因素间有共线性时结果不 如其它两者可靠。
模型描述了应变量p与x的关系
0 x
P概率 1 p( y 1) 1 1 exp[ ( 0 x)]
z 0 1 x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3
-2
-1
0
1
2
3
Z值
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
• 多个变量的logistic回归模型方程的线性表达:
P logit(p) ln = 0 1 X 1 2 X 2 m X m 1 P
或
p( y 1/ x1 , x2
xk )
1 1 e
( 0 1 xk .... k xk )
logistic回归方程的含义

logistic回归方程的含义【原创实用版】目录1.引言2.Logistic 回归方程的定义3.Logistic 回归方程的组成部分4.Logistic 回归方程的解析5.结论正文1.引言Logistic 回归是一种常用的分类算法,广泛应用于数据挖掘、机器学习等领域。
它能够实现对连续型变量与离散型变量之间的关系进行建模,尤其在处理二分类问题时表现出色。
本文将介绍 logistic 回归方程的含义及其组成部分。
2.Logistic 回归方程的定义Logistic 回归方程是一种用于描述二分类变量之间关系的数学模型,它的输出结果是一个概率值,表示某个样本属于正类的概率。
3.Logistic 回归方程的组成部分Logistic 回归方程主要由三个部分组成:线性部分、Sigmoid 函数和偏置项。
(1)线性部分:由自变量和它们的系数组成,描述自变量与因变量之间的线性关系。
线性部分的输出是一个实数,表示样本的线性得分。
(2)Sigmoid 函数:将线性部分的输出映射到 0 到 1 之间的概率值。
Sigmoid 函数的输入是线性部分的输出,输出是样本属于正类的概率。
(3)偏置项:用于调整模型的截距,使得模型能够更好地拟合数据。
4.Logistic 回归方程的解析假设我们有一组样本数据,其中因变量 Y 是一个二分类变量(取值为 0 或 1),自变量 X 是一个连续型变量。
我们希望通过 logistic 回归方程来描述它们之间的关系。
首先,我们需要通过最小二乘法求解线性部分的系数,使得线性部分的输出能够最好地拟合数据。
然后,我们将线性部分的输出与 Sigmoid 函数相乘,得到样本属于正类的概率。
最后,我们可以根据概率阈值(通常取 0.5)来判断样本属于正类还是负类。
5.结论Logistic 回归方程是一种用于描述连续型变量与离散型变量之间关系的数学模型,具有广泛的应用前景。
LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
Logistic回归分析方法

根据Wald检验,可知Logistic回 归系数bi服从u分布。因此其可信区
间为bi u Sbi
e 进而,(优b势i 比ue(bi)的Sb可i 信) 区间为
第18页/共29页
六、 Logistic回归分析方法
基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛 选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分 析中的F统计量,而是以上介绍的参数检验方法中的三种统计量之一。
第8页/共29页
• Wald检验( wald test)
即广义的t检验,统计量为u
u= bi s bi
u服从正态分布,即为标准正态离差。
b u S i Logistic回归系数的区间估计
bi
第9页/共29页
上述三种方法中,似然比检 验最可靠,比分检验一般与它相 一致,但两者均要求较大的计算 量;而Wald检验未考虑各因素间 的综合作用,在因素间有共线性 时结果不如其它两者可靠。
OR=[P1/(1-P1)]/[P2/(1-P2)]
在患病率较小情况下,OR≈RR
第12页/共29页
• Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。 • Logistic回归中的回归系数( bi )表 示,某一因素改变一个单位时,效应 指标发生与不发生事件的概率之比的 对数变化值,即OR的对数值。
第25页/共29页
十、注意事项
•应用条件
1. 各观察对象间相ห้องสมุดไป่ตู้独立; 2. logit P与自变量呈线性关系。
•异常值 •计量资料间的共线性问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Pi=
e
0 1xI 1 2 xI 2 ... p xip 0 1xi1 2 xi 2 ... p xip
1 e
Qi=
1 1 e
0 1xi1 2 xi 2 ... p xip
那么,第 i名观察对象的阳性概率与阴 性概率的比数为Pi/Qi;同理,第L名观 察对象的阳性概率与阴性概率的比数 为PL/QL。则有:
四、logistic回归分析步骤及结果分析
(一)非条件logistic回归 1.数据库结构及录入(SPSS 或Excel)
编号 1 2 3 x1 59 36 61 x2 2 1 2 x3 43.4 57.2 190 x4 2 1 2 x5 1 1 1 y 0 0 0
4
5
58
55
3
3
128
80
4
3
3
多分类:Y=0,1,2,3,… (非条件) 2.有序分类(Y为等级资料,且大于二分类)
一、资料类型
1. 二分类logistic回归
1. 二分类logistic回归 案例1 探讨肾细胞癌转移有关的因素研究中,收集了26 例行根治性肾切除术患者的肾癌标本资料,请分析癌转移 的影响因素。 52例行根治性肾切除术患者的肾癌标本资料
肾细胞癌组织内 微血管数 .191 .175
肾细胞癌细胞核 组织学分级 .313* .024
N
内皮生长因子 Pearson 相关性 显著性(双侧) N
52
.316* .023 52
52
1 52
52
.213 .130 52
52
.597** .000 52
肾细胞癌组织内 微血管数
Pearson 相关性
显著性(双侧)
二、模型结构
设 X1 , X2 , … , Xp 为一组自变量, Y 为应变量。当 Y 是阳性反应时,记作 Y=1;当Y是阴性反应时,记作Y=0。用 P表示阳性反应的概率;用Q表示发生阴
性反应的概率。很显然,P+Q=1
则Logistic 1x1 2 x2 ... p x p 0 1x1 2 x2 ... p x p
Y 1 ( xi1 x L1 ) 2 ( xi 2 xL 2 ) ... p ( xip xlp )
这就是线性回归方程。式中的β i意义 是指在其他自变量固定不变的情况下, 自变量Xi的水平每增加一个单位时所引 起的OR值为增加前 e 的倍。当β i为 正数,即表示Xi的增加使OR增加,Xi 是危险因素;当β i为负数,即表示Xi的 增加使OR减少,Xi是保护因素。
2. 配对logistic回归
2. 配对logistic回归
3. 有序分类logistic回归 (Y为同类指标不同取值)
(有序多分类)
3. 有序分类logistic回归
(Y为同类指标不同取值)
3. 有序分类logistic回归
(Y为同类指标不同取值)
4. 无序多分类logistic回归 (Y为多个不同类别的指标)
.191
.175
.213
.130
1
.398**
.003
N
肾细胞癌细胞核 组织学分级 Pearson 相关性
52
.313*
52
.597**
52
.398**
52
1
显著性(双侧)
N 肾细胞癌分期 Pearson 相关性 显著性(双侧) N
.024
52 .125 .379 52
.000
52 .493** .000 52
在比较暴露因素对因变量的相对贡献
大小时,同多元线性回归一样,不能
直接比较偏回归系数的大小,须用标
准化偏回归系数作比较。标准化偏回 归系数的计算,需利用有关的统计软 件包(如SAS,SPSS)在计算机上解 决。
三、Logistic回归方程的求解
由于logistic回归是一个概率模型,通常用 最 大 似 然 法 求 参 数 (i) 的 估 计 值 bi(i=1,2,3,…,p)。依最大似然法的原理,使似 然函数L达到最大时的参数值就是所求的参数 估计值。计算时一般将似然函数L取自然对数 ( 称 对 数 似 然 函 数 ) 后 , 用 NewtonRaphson 迭 代 法 求 参 数 的 估 计 值 bi(i=1,2,3,…,p)。这过程比较复杂,常用计算 机完成。
结果分析: ⑴ 哪些因素有关,哪些因素无关? ⑵ 是保护因素或危险因素? ⑶ 因素效应大小比较。 (4)相对危险度是多少?
(二)条件logistic回归分析步骤及结果分析
案例:喉癌1:2配对病例-对照调查资料(来源:孙振球 P286)
1.数据结构
2.SPSS分析步骤
使用SPSS的COXREG 命令拟合条件 Logistic 模型 (Analyze → Survival → Cox Regression), 回答下列5个对话框: ① Time: 给每行记录一个虚拟的生存时间(Time),一般 默认“病例” 生存时间短(例如为“1”),“对照” 生 存时间长(例如为“2”)。 ② Status 。定义事件时“病例”全为“1”(Single value)。 ③ Covariates: 选入要进行分析的协变量(即自变量 X1, X2,X3)。 ④ Method: 用 FSTEP(LR),即似然比法。 ⑤ Strata: 录入配对的配对号,“1”指第1 个对子(含 “病例”为“1”一行与“对照” 者为“0”一行);“2” 指第2 个对子。
15.659 1 .000 .515 1 .473 .462 1 .497 15.709 1 .000 12.199 1 .000
以α=0.20为入选标准,则只有x2,x4,x5能放入多因素模型 进行分析。
相关分析结果
年龄(岁) Pearson 相关性 显著性(双侧)
年龄 (岁) 1
内皮生 长因子 .316* .023
id 1 2 3 4 5 6 X1 59 36 61 58 55 61 X2 2 1 2 3 3 1 X3 43.4 57.2 190.0 128.0 80.0 94.4 X4 2 1 2 4 3 2 X5 1 1 1 3 4 1 y 0 0 0 1 1 0 id 14 15 16 17 18 19 X1 31 36 42 14 32 35 X2 1 3 1 3 1 1 X3 47.8 31.6 66.2 138.6 114.0 40.2 X4 2 3 2 3 2 2 X5 1 1 1 3 3 1 y 0 1 0 1 0 0
4
1
1
2.数据初步分析 (1)分别对对照组和病例组绘制频数分布,了解各变 量的分布类型及变异情况。 (2)单因素分析:卡方检验或单因素logistic回归 (3)对性质相同的自变量进行部分多因素分析,探讨 自变量纳入模型的适宜尺度及变量变换方法 (判断增加或 删除因素)
3.进行多因素筛选。 把单因素P<α的因素纳入多因素 模型进行因素筛选。一般α=0.10。另外,还要考虑指标 数与样本含量的比例(n:p=10:1)。 (也有人认为只要例数足够多,不管单因素结果如何, 都应该把所有变量纳入多因素模型。当变量不多,样本 含量较大,且缺失值不多时,这种方法是有效的) 4. 在多因素筛选模型的基础上,考虑有无必要纳入交 互作用项。如:年龄与饮酒 5. 结果的选择。不同的分析思路、不同的筛选因素 的方法(前进法、后退法),所得到的结果是不一样的。 好的模型结果应该是:符合专业知识要求。
多因素分析结果的选择。不同的分析思路、不同的筛选 因素的方法(前进法、后退法),所得到的结果是不一 样的。好的模型结果应该是:符合专业知识要求。
(LR法)
(摘自张文彤-高级篇)
α=0.20
(父孕前吸烟) (父孕后吸烟)
年龄与低体重儿发生率呈U型关系。分析年龄时,应以二 次型引入模型,即GMAGE、(GMAGE)2同时纳入模型进 行分析。(模型1、模型2) 另外,母亲年龄与父亲年龄高度相关(r=0.7605),当同 时纳入模型时,父亲年龄作用被母亲年龄作用代替。故在 进一步做多因素分析只考虑母亲年龄。(模型3)
.003
52 .352* .011 52 52 .627** .000 52
2.多因素模型分析
注:默认设置为前进法。如选择向后法,需要调整进入 和删除的水准。
3.结果解读(以多因素模型分析结果为准)
在5个影响因素中,只有x2(内皮生长因子)、x4(肾细 胞癌细胞核组织学分级)两个因素与转移关系有统计学意 义。其回归系数均为正值,说明二者为危险因素。内皮 生长因子每增加1个等级转移的概率增加11.2倍;组织细 胞学增加一个级别,转移的概率增加8.1倍。根据标准化 偏回归系数,XX的作用比YYY大。
p /Q Ln( ) ( x x ) ( x x ) .... ( x x ) P /Q
i i 1 i1 l1 2 i2 l 2) p ip lp l l
式中
Pi / Qi PL / QL
在流行病学中称为比值比,简记OR
在发病率较低的疾病中,OR近似与相对危险
母亲年 龄单因 素模型
父亲年龄 单因素模型
母亲父亲 年龄单因 素模型
(父孕前吸烟) (父孕后吸烟)
-
=FSA-FSB max(FSB,FSD)
-
最终模型的变量,P<0.05
例一
步骤: 1.单因素模型分析
方程中的变 量 B 步骤 1a 步骤 1a 步骤 1a 步骤 1a 步骤 1a x2 x1 x3 x4 x5 2.563 .014 .004 2.052 1.328 S.E, .648 .020 .006 .518 .380 Wals d f Sig.
四、Logistic回归模型的适用条件
1 因变量为二分类的分类变量或某事件的发生率。