18[1].logistic回归分析
LOGISTIC回归分析
LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
logistic回归模型结果解读
logistic回归模型结果解读
x
一、 logistic回归模型结果解读
Logistic回归模型是一种分类数据模型,主要用于对不同类别的输出结果进行预测,因此,其结果解读也要以分类的形式来解释。
1、系数与因变量之间的关系
Logistic回归模型通过对因变量的分析,来推断被解释变量的概率。
结果中的系数提供了因变量与被解释变量之间的关系,比如我们可以分析不同系数值大小,从而获得因变量对被解释变量的影响程度,正相关的影响是系数的正值,反之是负值。
2、P值
P值是从回归结果中获取的,它可以反映特定因变量对被解释变量的重要性,P值越小,表明相对于其它因变量,该因变量对被解释变量影响越明显,则说明该因变量是重要因素。
3、R-Square和平均绝对值
R-Square是可决系数,它反映回归结果的好坏,R-Square的值越大,表明模型的预测效果越好,也就是越能够准确的来预测被解释变量的值。
平均绝对值也是可以用来判断模型好坏的指标,它比较每个样本的预测值和实际值之间的误差,值越小则表示模型的预测精度越高。
4、改进模型
可以通过以上结果,来判断模型的预测效果好坏,从而思考如何改进模型:比如可以进行特征选择,去掉系数值较小或者P值较大的因变量;也可以使用其它模型,如决策树或神经网络模型来进行比较,看哪一个模型对被解释变量的预测效果更好。
logistic回归分析
Logistic回归分析 3.OR值的计算和意义 影响因素由X▲ 变化到X* 时,有 ln OR=∑ βj(xj*-xj▲) (1)对多指标的共同效应进行评价: ) 若OR>1,则不利因素占主导地位; 若OR<1,则保护因素占主导地位; 若OR=1,则处于平衡状态。
Logistic回归分析
(2)对单因素进行评价: )对单因素进行评价:
二、基本原理
1.结果问题 : 对于第i个个体而言,其理论结果为pi , 而实际结果是δi 。 2.一致问题: 对于第i个个体而言, δi =1 pi δi =0 qi
Logistic回归分析 pi δ i qi 1- δ i 对于全部n个研究对象而言, 对于全部 个研究对象而言,其一致 个研究对象而言 性为: 性为: L=∏ pi δ i qi 1- δ i 使得L最大的α及βj即为所求。函数法
四、参数解释
1. 偏回归系数βj 的意义 与指标的计量单位有关,从而无实际 的解释意义。
Logistic回归分析 2.标准化偏回归系数βj 的意义
1
(1)符号:取 “+”,则xj 促进阳性结果的
发生,为不利因素; 取 “-”,则xj 抑制阳性结果的 发生,为保护因素。 1 (2)大小 :∣ βj ∣越大,则xj 对结果的 影响也就越大。
▲
Logistic回归分析 4.筛选危险因素
常用方法有(1)前进法; (2)后退法; (3)逐步法:有进有出, 双向筛选。 筛选危险因素的统计量是: 似然比统计量 G=2(lnL k+1-lnL k) 它服从自由度为1的卡方分布。
Logistic回归分析
数学模型: 数学模型:
p =
e
1+
α + β1X 1 + β 2 X
(整理)多项分类Logistic回归分析的功能与意义1.
多项分类Logistic回归分析的功能与意义我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。
SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。
例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。
试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。
并单击向右的箭头按钮使之进入“因变量”列表框,选择“性别”使之进入“因子”列表框,选择“年龄”使之进入“协变量”列表框。
还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示:上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic 回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下:1:设置随机抽样的随机种子,如下图所示:选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面:在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0"为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件”点击“如果”按钮,进入如下界面:如果“违约”变量中,确实存在缺失值,那么当使用"missing”函数的时候,它的返回值应该为“1”或者为“true",为了剔除”缺失值“所以,结果必须等于“0“也就是不存在缺失值的现象点击”继续“按钮,返回原界面,如下所示:将是“是否曾经违约”作为“因变量”拖入因变量选框,分别将其他8个变量拖入“协变量”选框内,在方法中,选择:forward.LR方法将生成的新变量“validate" 拖入"选择变量“框内,并点击”规则“设置相应的规则内容,如下所示:设置validate 值为1,此处我们只将取值为1的记录纳入模型建立过程,其它值(例如:0)将用来做结论的验证或者预测分析,当然你可以反推,采用0作为取值记录点击继续,返回,再点击“分类”按钮,进入如下页面在所有的8个自变量中,只有“教育水平”这个变量能够作为“分类协变量” 因为其它变量都没有做分类,本例中,教育水平分为:初中,高中,大专,本科,研究生等等, 参考类别选择:“最后一个”在对比中选择“指示符”点击继续按钮,返回再点击—“保存”按钮,进入界面:在“预测值"中选择”概率,在“影响”中选择“Cook距离” 在“残差”中选择“学生化”点击继续,返回,再点击“选项”按钮,进入如下界面:分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026,标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1,sig为0.000,非常显著1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了一个平方)下面来举例说明这个计算过程:(“年龄”自变量的得分为例)从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为129,选定案例总和为489那么:y¯ = 129/489 = 0.2638036809816x¯ = 16951 / 489 = 34.664621676892所以:∑(Xi-x¯)² = 30074.9979y¯(1-y¯)=0.2638036809816 *(1-0.2638036809816 )=0.19421129888216 则:y¯(1-y¯)* ∑(Xi-x¯)² =0.19421129888216 * 30074.9979 = 5 840.9044060372 则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 =7.4595982010876 = 7.46 (四舍五入)计算过程采用的是在EXCEL 里面计算出来的,截图如下所示:从“不在方程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~1:从“块1” 中可以看出:采用的是:向前步进的方法,在“模型系数的综合检验”表中可以看出:所有的SIG 几乎都为“0”而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,根据设定的显著性值和自由度,可以算出卡方临界值,公式为:=CHIINV(显著性值,自由度) ,放入excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR方和Nagelkerke R方拟合效果都不太理想,最终理想模型也才:0.305 和0.446,最大似然平方的对数值都比较大,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR方的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含自变量的检验)再根据公式:即可算出:Cox&SnellR方的值!提示:将Hosmer 和Lemeshow 检验和“随机性表” 结合一起来分析1:从 Hosmer 和Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:11.919,而临界值为:CHINV(0.05,8) = 15.507卡方统计量< 临界值,从SIG 角度来看:0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。
统计学-logistic回归分析
在患病率较小情况下,OR≈RR
• Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。 • Logistic回归中的回归系数( bi )表示, 某一因素改变一个单位时,效应指标 发生与不发生事件的概率之比的对数 变化值,即OR的对数值。
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e
P odds1 1 /(1 P 1) OR P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
i
事件发生率很小,OR≈RR。
二、 Logistic回归模型
• Logistic回归的分类
二分类 多分类
条件Logistic回归 非条件Logistic回归
• Logit变换
也称对数单位转换
P logit P= ln 1 P
流行病学概念:
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之 比为优势(odds), logit P就是odds 的对数值。
Y 发病=1 不发病=0a p1 ac源自有暴露因素人群中发病的比例
多元回归模型的的 i 概念
P logit(p) ln = 0 1 X 1 1 P m X m
i 反映了在其他变量固定后,X=1与x=0相比
发生Y事件的对数优势比。 回归系数β与OR X与Y的关联 • β=0,OR=1, 无关 β>0,OR>1 , 有关,危险因素 β<0,OR<1, 有关,保护因子
多元logistics回归结果解读
多元logistic回归是一种用于研究多个自变量对因变量影响的统计方法。
通过多元logistic回归分析,我们可以了解自变量对因变量的贡献程度,并确定哪些自变量对因变量有显著影响。
在解读多元logistic回归结果时,需要注意以下几点:
系数解读:在多元logistic回归模型中,每个自变量的系数表示该变量对因变量的贡献程度。
系数的符号表示了影响的方向,正号表示正相关,负号表示负相关。
系数的绝对值表示影响的大小,绝对值越大,影响越大。
OR值解读:在多元logistic回归模型中,每个自变量的OR值表示该变量对因变量发生概率的影响程度。
OR值的范围在0到无穷大之间,值越大表示该自变量对因变量的影响越大。
显著性检验:在多元logistic回归模型中,每个自变量都需要进行显著性检验。
如果某个自变量的p值小于预设的显著性水平(如0.05),则认为该自变量对因变量有显著影响。
模型评估:在多元logistic回归分析结束后,需要对模型进行评估。
常用的评价指标包括模型的拟合优度、预测准确率等。
如果模型的评估结果良好,则认为模型可用于预测或解释实际问题。
总之,多元logistic回归结果解读需要综合考虑系数的符号、绝对值、OR值、显著性检验和模型评估等多个方面。
通过深入了解自变量对因变量的贡献程度和影响方式,可以帮助我们更好地理解数据,并进行科学决策。
回归分析-Logistic回归
zi = β 0 + β1 xi + ε i
其中 权系数
ri pi 1 zi = ln ~ N (ln , ) & ni − ri 1 − pi ni pi (1 − pi )
ni % , ε i = ε i / wi ~ N (0,1) wi = & ri (ni − ri )
回归模型
p( x ) ln = 0.013 − 0.25 x 1 − p( x )
Logistic 回归分析
前言
Logistic回归模型的基本思想 Logistic回归模型的参数估计
基本原理
Y 多元线性回归模型: = β0 + β1 x1 + β 2 x2 + ... + β n xn = β0 + X β β 其中是β 0 截距, 是参数向量,X是自变量向量。
表示n个自变量x与反应变量Y间的关系,Y为任 意实数 ,属于连续变量
yi i
n
1− yi
似然函数 对数似然
L( β 0 , β1 ) = ∏ piyi (1 − pi )1− yi
i =1
n n
ln L( β 0 , β1 ) = ∑ yi (β 0 + β1 xi ) − ∑ ln(1 + e β0 + β1xi )
i =1 i =1
加权最小二乘
设x可以取值x1,x2……xk。x=xi时,Y的取值 为yi(yi=0或1); 如果模型正确 pi ln = β 0 + β1 xi 1 − pi 观测模型
该转换称为logit转换。P为事件发生的概率,1-P 为事件不发生的概率
p 1− p
=e
β0 + X β
Logistic回归分析及应用-精选文档
•
注:是否患病中,‘0’代表否,‘1’代表是。 性别中‘1’代表男,‘0’代表女,吸烟中‘1’ 代表吸烟,‘0’代表不吸烟。地区中,‘1’代 表农村,‘0’代表城市。
•
• • • • • • • • • • •
表4 配对资料(1:1) 对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 … … … … … … … 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况 ,取值:0,1,2
'
b Si为 Xi的标准差 i b i *S i / Sy ,其中 Sy为 y 的标准差。
5.假设检验
• (1)回归方程的假设检验 i 0 0 , i 0 , 1 , 2 , , p • H0:所有 H :某个 i 1 • 计算统计量为:G=-2lnL,服从自由度等于n-p 2 • 的 分布 • (2)回归系数的假设检验 • H0: i 0 H1:i 0 2 计算统计量为:Wald ,自由度等于1。
第十六章 Logistic回归分析
Logistic
regression
1
复习
•
多元线性回归
(multiple linear regression)
在医学实践中,常会遇到一个应变量与 多个自变量数量关系的问题。如医院住院 人数不仅与门诊人数有关 , 而且可能与病 床周转次数 , 床位数等有关;儿童的身高 不仅与遗传有关还与生活质量,性别,地 区,国别等有关;人的体表面积与体重、 身高等有关。
2
• 1
表1 y1
Logistic回归分析
Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。
适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。
一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。
二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。
变量筛选的原理与普通的回归分析方法是一样的,不再重复。
三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。
(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。
当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。
四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。
例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。
Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。
Logistic回归分析报告结果解读分析
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。
比较常用的情形是分析危险因素与是否发生某疾病相关联。
例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。
自变量既可以是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌的危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。
多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1.Logistic回归的用法一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。
2.用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。
Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。
如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。
这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。
如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。
撇开了参照组,相对危险度就没有意义了。
Logistic回归分析概要
多项无序分类:肝炎分型 甲、乙、丙、丁、 戊
研究分类反应变量与多个影响因素之间的 相互关系的一种多变量分析方法,进行疾病的 病因分析。
• Logistic回归的分类
Logistic回归 二分类 有序反应变量 多分类 无序反应变量
非条件 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变 量, 影响疾病发生的因素为自变量建立回 归模型。
• 例:为了探讨糖尿病与血压、血脂等因素 的关系,研究者对56例糖尿病病人和65例 对照者进行病例对照研究,收集了性别、 年龄、学历、体重指数、家族史、吸烟、
一、Logistic回归方程 Logistic回归的logit模型
P= 1x1 2 x2 n xn
Logit变换 P转换为ln[P/(1-P)]
logit (P)= 1x1 2 x2 n xn ln[P/(1-P)]= 1x1 2 x2 n xn
• (1)取值问题
• (2)曲线关联
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
( 1x1 2 x2 n xn )
P 1 e e( 1x1 2x2 n xn ) 1
1 P 1 e( 1x1 2x2 nxn )
其中,为常数项,为偏回归系数。
二、参数估计
• 建立Logistic回归方程就是求和i • 意义 常数项是当各种暴露因素为0时,个体发
得出参数 j 的估计值 b j 和 b j 的渐进标准误 Sbj 。
最大似然法的基本思想是先建立似然 函数与对数似然函数,再通过使对数 似然函数最大求解相应的参数值(使 得一次抽样中获得现有样本的概率为 最大),所得到的估计值称为参数的 最大似然估计值。
Logistic 回归分析
西安交通大学管理学院 2008秋 胡平
15
2. Logisitic回归模型估计
分别对α,ß求偏导,令它等于0,可以得到似然方 程组:
由于方程是α和ß的非线性函数,求解是通过计算机 迭代计算完成的. 得到α和ß的最大似然估计值
西安交通大学管理学院 2008秋 胡平
17
西安交通大学管理学院 2008秋 胡平
16
2. Logisitic回归模型估计
从上面的两个公式的得到的,ß的值估计就是最 大似然估计。按照惯例,用^表示估计值,p表示 条件概率的估计值,这个值是在给定x i的条件下 yi=1的条件概率的估计。它代表了logistic模型 的拟合值或预测值,令偏导函数等于0时,
这意味着观测值之和等于预测概率之和,这一性 质在评价模型拟和情况时非常有用。
(Log-linear model), 而因变量为二分变量 时, 对数线性模型就变成Logistic回归模型.
西安交通大学管理学院 2008秋 胡平
5
课程内容结构
第一部分 回顾与演进
第二部分 自变量分析
第三部分 因变量分析
第四部分 模型
预回 备归 知分 识析
线性、连续数据
Log linear模型 非线性回归
其 中 , pi=P(yi=1|x1i,x2i,…,xki) 为 在 给 定系列自变量x1,x2,…,xki的值时事件发生
概率。
西安交通大学管理学院 2008秋
12
胡平
第七讲 Logistic回归分析
2. Logistic回归模型估计
最大似然估计 模型估计的假设条件 最大似然估计的性质 模型估计的样本规模
1. 两分类因变量与Logistic回归模型
(2021年整理)logistic回归分析实例操作
(完整版)logistic回归分析实例操作编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((完整版)logistic回归分析实例操作)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(完整版)logistic回归分析实例操作的全部内容。
(完整版)logistic回归分析实例操作编辑整理:张嬗雒老师尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布到文库,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是我们任然希望(完整版)logistic回归分析实例操作这篇文档能够给您的工作和学习带来便利.同时我们也真诚的希望收到您的建议和反馈到下面的留言区,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请下载收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为 <(完整版)logistic回归分析实例操作〉这篇文档的全部内容.Logistic回归分析二分类(因变量Y有(如发病1与未发病0)两种可能出现的结果)资料的Logistic 回归分析,至于多分类Logistic回归分析,与二分类操作过程类似,只是在数据编制及分析方法选择处不同。
分析的一般步骤:变量的编码哑变量的设置和引入各个自变量的单因素分析变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释实例操作11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析.1。
各变量及其赋值说明x1:确诊时患者的年龄(岁)x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级(1—3)x3:肾细胞癌组织内微血管数(MVC)x4:肾癌细胞核组织学分级,由低到高共4级(1-4)x5:肾细胞癌分期,由低到高共4期(1-4)y:肾细胞癌转移情况(有转移y=1;无转移y=0)。
Logistic回归分析报告结果解读分析
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。
比较常用的情形是分析危险因素与是否发生某疾病相关联。
例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。
自变量既可以是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌的危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。
多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1.Logistic回归的用法一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。
2.用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。
Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。
如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。
这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。
如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。
撇开了参照组,相对危险度就没有意义了。
【尚择优选】logistic回归及其分析攻略
什么是Logistic回归
P logit P ln ( ) Logit变换: 1 P
式中等号右边的分数 [p/(1-p)] 是流行病学常用的描述疾病 发生强度的统计指标,称为优势(odds)。 当疾病发生的概率p与不发生的概率q相等皆为0.5时, odds=1,否则odds大于或小于1。
logistic回归分析思路
(3)HL指标——用于模型中含有连续自变量的情形
HL
g 1
G
ˆg ) ( y g ng p ˆ g (1 p ˆg ) ng p
HL统计量根据预测概率值大小将所有数据排序,大致分 为规模相同的10组,比较观测值与预测值的差异 χ2检验不显著表示拟合较好,反之表示拟合不好。
logistic回归分析思路
(2)暴露因素(自变量) x是多分类变量时: 常用1,2,3,…,k分别表示k个不同的类别。 进行logistic回归分析时,将变量转换为k-1个虚拟变量或 哑变量(dummy variable),每个虚拟变量都是一个二分 类变量,通常用0和1表示。 每个虚拟变量各有一个回归系数,其意义表示1与0相比的 优势比的对数值
线性回归模型: Logit变换:
ˆ a b1 x1 b2 x2 bm xm y
P logit P ln( ) 1 P
p表示事件发生的概率,1-p为事件不发生的概率 当p=1时,logit(p)=+∞, 当p=0.5时,logit(p)=0, 当p=0时,logit(p)=-∞ 故logit(p)的取值范围是(-∞,+∞)
logistic回归分析思路
(4)AIC、SC——用于多个模型之间的拟合优度比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
?
P 0 1 x1 2 x2 8 x8 ?
4
多元线性回归模型要求:因变量为服从正 态分布的连续性变量… 但在病因学研究或疾病预后研究中,观察 结果常为两分类资料:
1 阳性结果 (发病、有效、死亡等) Y 0 阴性结果 (未发病、无效、存活等)
5
表2.冠心病危险因素的病例对照调查资料
腋下淋巴 结转移 无=0 有=1 合计 甲医院=1 病例 生存 生存率% 45 35 77.7 710 450 63.4 755 485 64.2
病例 300 83 383
乙医院=0 生存 生存率% 215 71.6 42 50.6 257 67.1
多因素分析作用: 1.可校正混杂因素,正确评价结果的效应。 2.回答哪个因素对事件(疾病)作用更大?
回顾性收集暴露情况 比较 人数 过去 现在
暴露
调查方向
疾病
a
a/(a+c)
+
病 人
c b
b/(b+d)
+
非 病 人
研究 人群
d
-
图1 病例对照研究的结构模式图
队列研究的概念
队列研究 (cohort study)
是将一个范围明确的人群按是否暴露于某可疑 因素及其暴露程度分为不同的亚组,追踪其各 自的结局,比较不同亚组之间结局的差异,从 而判定暴露因子与结局之间有无因果关联及关 联大小的一种观察性研究方法。
15
第一节 logistic回归
(非条件logistic回归)
16
一、基本概念
Logistic回归:属于概率型非线性回归, 是研究二分类或多分类观察结果与一些影响 因素之间关系的一种多变量分析方法。 它是以疾病发生概率为应变量,影响疾 病发生的因子为自变量,分析疾病与致病因 子之间联系的一种回归分析法。
p1 log it ( p) ln( ) 1 p1
Y~(-∞至+∞)
y= logit(p) =β0+βixi
截距(常数)
回归系数
21
1
P
0.5 0.5
Z : , 0, P : 0, 0.5, 1
Z
0 1 2 3 4
22
0 -4 -3 -2 -1
图16-1 logistic函数的图形
二分类变量
连续变量
1 因变量Y= 0
阳性率P:(0,1)
P ln : (, ) 1-P
Logit变换
23
分析性研究
病例对照研究(case-control study) 也称回顾性研究(retrospective study) 队列研究 (cohort study) 也称前瞻性研究(prospective study)
RR
I
0
c n 0
35
式中Ie和Io分别代表暴露组和非暴露组的发病率或死亡率。
RR的流行病学意义
RR的数值从0~正无限大,是两组人群某 事件发生频率的比值。 RR=1,表示暴露组与非暴露组的发病或 死亡率相同,暴露与疾病的发生无关; RR>1,说明暴露组的发病率或死亡率高 于非暴露组,即暴露可增加疾病发生的危险 性,这种相关叫做“正”相关; RR<1,表示暴露组的发病率或死亡率低 于非暴露组,说明暴露对于疾病的发生起制 止作用,可减少疾病的危险性,这种相关叫 做“负”相关。
3
引 言
例:冠心病可疑危险因素的研究中,冠心病的 发病(Y)可能与年龄(X1)、高血压史(X2) 、高 血压家族史(X3)、吸烟(X4)、高血脂史(X5)、 动物脂肪摄入(X6)、体重指数(X7)、A型性格 (X8)有关,如何建立冠心病的发病与影响因素 X之间的回归模型?
Y 0 1x1 2 x2 8 x8
37
优势比OR(odds ratio)
流行病学衡量危险因素作用大小的比数比例 指标。计算公式为:
P /(1 P ) 1 1 OR j P0 /(1 P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, OR j 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
36
P ln = 0 1 X1 2 X 2 m X m log itP 1 P
模 型 常数项 0 表示暴露剂量为0时个体发病与 参 不发病概率之比的自然对数(基线值)。 数 回归系数 j ( j 1,2,, m)表示其他自变量不 的 变时,自变量 X j改变一个单位时logitP 意 义 的改变量。即所得到比值比或称优势比 (Odds Ratio, OR)的自然对数。
序号 X1 X2 1
2 3 …
X3 0
1 0 …
X4 1
1 1 …
X5 0
0 0 …
X6 0
0 0 …
X7 1
1 1 …
X8 1
0 0 …
Y 0
0 0 …
3
2 2
1
0 1
… …
54
3
1
1
0
1
0
3
1
1
6
问题的提出
医学科研中常研究多个影响因素(x)对 结果变量(y为分类变量)的关系或作用.
例1.冠心病与可能危险因素关系的研究 冠心病结果(y) (x)危险因素 结果记录
33
队列研究资料归纳整理表 病例 暴露组 非暴露 组 合计 a c a+c 非病例 b d b+d 合计 a+b c+d a+b+c+d=N 发病率 a/(a+b) c/(c+d)
34
相对危险度或率比
相对危险度(RR):是表示暴露与疾病等生物学 事件关联强度大小最重要的指标,又称作率比 (rate ratio)或危险比(risk ratio),是暴 露组与非暴露组人群发病率或死亡率的比值,表 明暴露组发病或死亡的危险性是非暴露组的若干 I a n 倍。 e 1
39
P0 P 1 ln ln 1 (c1 c0 ) 1 P 1 P0 1 P 1 P0 P 1 P 1 1 ln ln ln ln OR P0 1 P 1 P0 1 1 P0
31
*比值比(OR)
a c c 病例组的暴露比值为 a c a c a;
同理可获得对照组的暴露率比值为b/d。
OR a c ad bc
b d
32
OR=ad / bc 意义:
(0~无限大)
OR=1,因素与疾病无关联; OR>1,表示暴露与疾病呈正关联, 即该因素是疾病的危险因素; OR<1,表示暴露与疾病呈负关联, 即该因素是疾病的保护因素。
24
病例对照研究的概念
病例对照研究(case-control study)
选择患有特定疾病的人群作为病例组,以不患 有该病但具有可比性的人群作为对照组,调查两 组人群过去暴露于某种可能危险因素的比例,判 断暴露危险因素是否与疾病有关联及其关联程度 大小的一种观察性研究方法。
25
病 例 对 照 研 究
P ln = 0 1 X 1 2 X 2 m X m log itP 1 P
取值范围 概率P :0~1,logitP :-∞~∞。
20
logistic回归模型方程的线性表达
对logistic回归概率(p)模型做logit变换:
线性表达形式:
食管癌的发生与吸烟、饮酒、不良饮食习惯 等危险因素的关系 抢救急性心肌梗死病人能否成功的危险因素: 年龄、性别、时间、休克、心衰… 临床试验中药物有效性的影响因素: 年龄、性别、病情轻重、合并症、时间…
12
logistic回归
目的:作出以多个自变量(危险因素) 估计应变量(结果因素)的logistic回归方 程。属于概率型非线性回归。 资料:1. 应变量为反映某现象发生与不
8
单因素方法 分类变量(y)与影响因素(x)关系
冠心病 (Y) 有=1 无=0 危险因素(x1=高血压) 有=1 无= 0 60(a) 40(b) 40(c) 60(d)
合计 100 100
例1.按血脂水平分层分析 血脂高水平 血脂低水平 冠心病 有高血压 无高血压 有高血压 无高血压 有=1 (40) (10) (10) (40) 无=0 (30) (20) (20) (30) 血压与血脂何者对冠心病作用更大?
38
P ln 0 1 X1 2 X 2 m Xm 1 P
假定其它自变量保持不变时,把X1的某 两个不同暴露水平分别赋值为c0和c1
P0 0 1 c0 ... X1=c0 : ln 1 P0 1 X1=c1 : ln P c ... 0 1 1 1 P 1
将
P ln( ) 1 P
称为P的logit转换。
19
1 P 1 exp[ ( 0 1 X 1 2 X 2 m X m )]
回 归 模 型
若令 Z 0 1 X 1 2 X 2 m X m
1 P 1 e Z
其中 0 为常数项, 1 , 2 ,, m 为回归系数。
27
队 列 研 究
出现某种结局 a /(a+b) a
暴露组
研究 人群
暴露状况
不出现某种结局 b
出现某种结局 c
非暴 露组
暴露
c /(c+d)
疾病 不出现某种结局
现在 调查方向
将来
d 人数
图2.队列研究的结构模式图
成组资料分析
病例对照研究成组资料分析表