Logistic回归分析简介
医学统计学:Logistic回归分析
析包含某个或某几个变量的模型是否有统计学意义。
模型s的对数似然函数
模型s的对数似然函数 大样本
G = -2 ( ln Ls- ln LP ) ~ 2 ( p -s)
模型s嵌套 于模型p内
LS :包含s个回归系数的模型的似然函数对数值; LP:包含p个回归系数的模型的似然函数对数值,p > s ;
• G值的大小反映增加某个或某几个自变量的模型拟合优度提高的程度。 • s=0时,是对模型的整体检验;p=s+1时,是对某个自变量的检验。
包括:多元线性回归模型,logistic回归模型,Probit回归模型,
Poisson回归模型,负二项回归模型
2
当因变量是分类变量时,其自变量与因变量更多的是 非线性关系,严重违背了线性回归模型的假设条件。 故直接应用线性回归分析不合理;
不能直接分析 y 与 x 的关系 y=f(x) ,因y仅取有 限的几个值
23
2019/6/6
Logistic回归模型的统计推断 • Logistic回归方程(系数)的假设检验 • Logistic回归模型的拟合优度检验 • Logistic回归模型预测准确度的检验
22
(1) 似然比检验(likelihood ratio test)
通过比较两个相嵌套模型的对数似然函数统计量G (又称Deviance):来分
对数似然 ln L a(0 1) a ln[1 exp(0 1)] b ln[1 exp(0 1)] c0 c ln[1 exp(0)] d ln[1 exp(0 )]
求一非阶线偏性导迭,代并方令法一阶偏导数=0 ——Newton-Raphson迭代法
最大似然估计
ˆ0
ln
c d
LOGISTIC回归分析
LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
统计学中的Logistic回归分析
统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。
它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。
本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。
一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。
其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。
该非线性函数被称为logit函数,可以将概率转化为对数几率。
Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。
而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。
二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。
例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。
通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。
2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。
例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。
通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。
3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。
通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。
logistic回归方差
logistic回归方差
Logistic回归分析是一种统计分析方法,它可以用来预测可能性或概率。
它是一种基于回归分析的机器学习技术,可以用于预测事件发生的概率,比如是否获得某种学位的概率。
与传统的线性回归不同,Logistic回归分析的目的是预测因变量(事件是否发生)的影响变量(系列自变量)。
Logistic回归应用于研究事件,其中变量值要么为0(当事件未发生),要么为1(当事件发生)。
这种技术被用于预测拥有特定客户属性的客户是否会购买特定产品。
这是一项根据某一自变量或一组自变量(如年龄或性别)预测因变量(如购买或不购买)的分类分析。
Logistic回归非常有用,它有助于确定预测和影响事件的变量,它可以用于检验两个变量之间的联系是否统计显著。
此外,Logistic回归可以测算客户的获取成本和占用率,以及客户到客户之间的平均消费水平。
Logistic回归可以帮助组织了解客户购物行为,并利用结果来进行定价、推广和市场营销等活动的计划。
它也可以帮助理解有害行为的可能性和风险,用于风险评估和管理,并预测可能降低风险的措施,以降低不良结果的可能性。
然而,Logistic回归的变量很容易受到异常数据的影响,而且Logistic回归预测的准确性取决于给定数据的分布。
另外,由于它
涉及预测概率,因此模型可能会欠拟合,也就是说可能存在模型方差,它可能不能很好地预测新数据。
同样重要的是,我们也不能确定未知数据的真实变量,因此可能存在混乱,这会影响Logistic回归模型的效果。
logistic回归模型分析和总结
含有名义数据的logit
含有名义数据的logit
• 例:某地25岁及以上人中各类婚姻状况居民的死
亡情况见表,试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p
A 1M1
2M 2
3M3
• 其中,A表示年龄(取中值),M1、M2、M3表示婚 姻状况
• 于是,估计的logit方程为:
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何 种学习方式的影响。调查数据见表:
• 其中,三个学校对应两个哑变量x1和x2,两个课 程计划为常规(x3=1)和附加(x3=0),学习方式分 为:自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出,响应变量是学习方式有三类, 属于多项逻辑斯蒂回归问题。于是,建模为:
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程:
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄,E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是,估计的logit方程为:
ln p 11.637 0.124A 0.164E 1 p
• 其中,年龄的系数0.124,说明年龄越大死亡率会 越高;
• 文化程度的系数-0.164,说明文化程度与死亡率 呈负相关,文化程度越高,死亡率越低。
统计学-logistic回归分析
在患病率较小情况下,OR≈RR
• Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。 • Logistic回归中的回归系数( bi )表示, 某一因素改变一个单位时,效应指标 发生与不发生事件的概率之比的对数 变化值,即OR的对数值。
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e
P odds1 1 /(1 P 1) OR P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
i
事件发生率很小,OR≈RR。
二、 Logistic回归模型
• Logistic回归的分类
二分类 多分类
条件Logistic回归 非条件Logistic回归
• Logit变换
也称对数单位转换
P logit P= ln 1 P
流行病学概念:
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之 比为优势(odds), logit P就是odds 的对数值。
Y 发病=1 不发病=0a p1 ac源自有暴露因素人群中发病的比例
多元回归模型的的 i 概念
P logit(p) ln = 0 1 X 1 1 P m X m
i 反映了在其他变量固定后,X=1与x=0相比
发生Y事件的对数优势比。 回归系数β与OR X与Y的关联 • β=0,OR=1, 无关 β>0,OR>1 , 有关,危险因素 β<0,OR<1, 有关,保护因子
第十九章 Logistic回归分析
三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0:β=0 (模型中不含变量) H1: β≠ 0 (模型中含变量)
统计量:G = - 2lnL- (-2lnL') ~ χ2(k) 在例19-1中的SAS结果中:
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类 按反应变量的类型分:
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分: 1.非条件 Logistic 回归模型,研究对象未经过配对的成组资料 2.条件 Logistic 回归模型,研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死(AMI)患者能否成功的危险因素调查中,某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前:X1=1表 示已发生休克,X1=0表示未发生休克;X2=1表示发生心衰, X2=0表示未发生
心衰;X3=1表示12小时内将患者送往医院, X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义(释义同于病例-对照设计研究)
1. 相对危险度RR (Re lative Risk) RR P 1 P0
logit regression 系数解释
logit regression 系数解释
一、logit回归简介
logit回归是一种用于分类问题的线性模型。
在这种模型中,输出变量是一个离散概率分布,通常表示为0-1之间的值。
logit(逻辑斯蒂)函数用于将线性模型的输出转换为概率。
logit回归的系数解释是理解模型的重要步骤。
二、logit回归系数含义
在logit回归中,系数表示自变量对因变量概率的影响程度。
具体来说:
1.系数为正:自变量增加一个单位,对应的概率增加。
2.系数为负:自变量增加一个单位,对应的概率减少。
三、logit回归系数解释方法
1.绝对值大小:系数绝对值越大,自变量对因变量的影响越大。
2.符号:系数符号表示自变量与因变量之间的关系。
正值表示正相关,负值表示负相关。
3.模型稳定性:系数稳定性的判断可以依据系数大小和显著性检验。
显著的系数表示该自变量对因变量有实质性影响。
四、实例分析
假设一个logit回归模型预测某产品的购买概率,其中有一个自变量为“收入”。
系数为正,说明收入与购买概率正相关;系数为负,则表示收入越高,购买概率越低。
通过分析系数大小,可以为企业制定针对不同收入群体的营销策略。
五、总结
logit回归系数解释是理解模型的重要环节。
掌握系数含义、判断关系和实际应用,有助于更好地利用模型进行预测和决策。
在实际分析中,还需结合显著性检验和实际意义,综合判断自变量对因变量的影响。
Logistic回归分析
注:因为p>a,所以认为样本实际值得到的分布与 预测值得到的分布无显著差异,模型拟合优度较好 。
33
注:模型整体的准确度不高,对不购买人群的准确 率极高,对购买人群的准确率很低。
34
注:预测类别图上可以看出,预测概率在0.4附近的 样本预测准确率相对最低。事实上,无论用什么分 类方法,这类样本身就是最难预测的。
Hosmer—Lemeshow检验:通过模型可以计算出给 定解释变量取值时被解释变量取1的概率预测。如 果模型拟合较好,则应给实际值为1的样本以较高 的概率,给实际值为0的样本以低的概率预测值。 于是对概率预测值进行分位数分组(通常为10分位 数,将样本分为10组),预测概率大小分得的10组 和实际观测值0/1类别分组形成了交叉列联表。由 观测频数和期望频数计算卡方统计量,即Hosmer— Lemeshow统计量,它服从自由度为n-2的卡方分布 ,n为组数。
39
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的 程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 方法: 第一目的:Cox &Snell R2 统计量和 Nagel ker ke R2 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验
16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值 越大表明模型的拟合优度越高。不足之处在于其取值 范围无法确定,不利于模型之间的比较。
Cox &Snell R 2
logistic回归分析
队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
Logistic回归分析
Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。
适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。
一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。
二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。
变量筛选的原理与普通的回归分析方法是一样的,不再重复。
三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。
(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。
当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。
四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。
例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。
Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。
Logistic回归分析报告结果解读分析
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。
比较常用的情形是分析危险因素与是否发生某疾病相关联。
例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。
自变量既可以是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌的危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。
多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1.Logistic回归的用法一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。
2.用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。
Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。
如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。
这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。
如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。
撇开了参照组,相对危险度就没有意义了。
logistic回归分析
表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
Logistic回归分析概要
多项无序分类:肝炎分型 甲、乙、丙、丁、 戊
研究分类反应变量与多个影响因素之间的 相互关系的一种多变量分析方法,进行疾病的 病因分析。
• Logistic回归的分类
Logistic回归 二分类 有序反应变量 多分类 无序反应变量
非条件 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变 量, 影响疾病发生的因素为自变量建立回 归模型。
• 例:为了探讨糖尿病与血压、血脂等因素 的关系,研究者对56例糖尿病病人和65例 对照者进行病例对照研究,收集了性别、 年龄、学历、体重指数、家族史、吸烟、
一、Logistic回归方程 Logistic回归的logit模型
P= 1x1 2 x2 n xn
Logit变换 P转换为ln[P/(1-P)]
logit (P)= 1x1 2 x2 n xn ln[P/(1-P)]= 1x1 2 x2 n xn
• (1)取值问题
• (2)曲线关联
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
( 1x1 2 x2 n xn )
P 1 e e( 1x1 2x2 n xn ) 1
1 P 1 e( 1x1 2x2 nxn )
其中,为常数项,为偏回归系数。
二、参数估计
• 建立Logistic回归方程就是求和i • 意义 常数项是当各种暴露因素为0时,个体发
得出参数 j 的估计值 b j 和 b j 的渐进标准误 Sbj 。
最大似然法的基本思想是先建立似然 函数与对数似然函数,再通过使对数 似然函数最大求解相应的参数值(使 得一次抽样中获得现有样本的概率为 最大),所得到的估计值称为参数的 最大似然估计值。
Logistic回归分析报告结果解读分析-logit回归解读
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。
比较常用得情形就是分析危险因素与就是否发生某疾病相关联。
例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。
自变量既可以就是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌得危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。
多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。
2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。
Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。
如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。
这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。
如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。
logistic回归分析
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
exp(0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
exp(b1 u /2Sb1 ) exp(0.8856 1.960.15) (1.81,3.25)
2. 优势比(OR)及可信区间的估计
OR e
❖ 如X=1,0两分类,则OR的1-α可信区间估计公式
e(bj u / 2Sbj )
S 为回归系数 bj 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对照资料 (886例),试作logistic回归分析。
❖ 变量的赋值
2.模型中参数的意义
ln P 1 P
=
0
1 X 1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln
P(y 1/ x 1 P(y 0 /
x
0) 0)
=
0
与Xii=0的相含比义,:发某生危某险结因果素(,如暴发露病水)平优变势化比时的,对即数X值i=。1
2.两值因变量的logistic回归模型方程
❖ 一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1,无=0, 记为p(y=1/x)表示某暴露因素状态下,结果y=1
的概率(P)模型。
或
P(
y
1/
x)
e0 x 1 e0 x
1
p(y 1/ x)
1 exp[(0 x)]
模型描述了应变量p与x的关系
P( y
0/ x
Logistic回归分析报告结果解读分析-logit回归解读
Logistic回归分析陈说结果解读分析之迟辟智美创作Logistic回归经常使用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系.比力经常使用的情形是分析危险因素与是否发生某疾病相关联.例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有分歧的临床暗示和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等.自变量既可以是连续变量,也可以为分类变量.通过Logistic回归分析,就可以年夜致了解胃癌的危险因素. Logistic回归与多元线性回归有很多相同之处,但最年夜的区别就在于他们的因变量分歧.多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更经常使用,也更加容易解释.一般而言,Logistic回归有两年夜用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在分歧的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立).所谓相对危险度(risk ratio,RR)是用来描述某一因素分歧状态发生疾病(或其它结局)危险水平的比值.Logistic回归给出的OR(odds ratio)值与相对危险度类似,经常使用来暗示相对某一人群,另一人群发生终点事件的风险超越或减少的水平.如分歧性另外胃癌发生危险分歧,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就暗示,男性发生胃癌的风险是女性的1.7倍.这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7.如果以男性作为参照,算出的OR将会是0.588(1/1.7),暗示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%.撇开了参照组,相对危险度就没有意义了. Logistic回归在医学研究中广泛使用的原因之一,就是模型直接给出具有临床实际意义的OR值,很年夜水平上方便了结果的解读与推广.图1 相对危险度(risk ratio,RR)与OR(odds ratio)的表达3. Logistic陈说OR值或β值在Logistic回归结果汇报时,往往会遇到这样一个问题:是应该陈说OR值,还是β值,还是两个都要陈说?这个决定权最终固然还是作者自己,但有一点需要进一步了解:OR值和β值其实是等价的.图2 OR值与β值的公式推导4 Logistic回归结果判读“EXP(B)”即为相应变量的OR值(又叫优势比,比值比),为在其他条件不变的情况下,自变量每改变1个单元,事件的发生比“Odds”的变动率.伪决定系数cox & Snell R2和Nagelkerke R2,这两个指标从分歧角度反映了以后模型中自变量解释了因变量的变异占因变量总变异的比例.但对Logistic回归而言,通常看到的伪决定系数的年夜小不像线性回归模型中的决定系数那么年夜.预测结果列联表解释,看”分类表“中的数据,提供了2类样本的预测正确率和总的正确率.建立Logistic回归方程logit(P)=β0+β1*X1+β2*X2+……+βm*Xm图2 Logistic回归结果陈说样例。
logistic_回归分析1
74
55
104663
212555
选择0和1使似然函数L达到最大,即最 大似然估计。
17
STATA命令
Expand f Logit y x Logit, or 或直接logisitc y x
18
expand f (317343 observations created)
OR e
0.4117232
1.509417
21
OR的95%可信区间为(1.06,2.14)
应用Logistic模型校正混杂作用
实例2:上例没有考虑吸烟情况,故将吸烟作 为分层加入,资料如下:
吸烟 不吸烟 饮酒 不饮酒 饮酒 不饮酒 患病 33 21 22 53 未患病 22331 14210 82332 198345 合计 22364 14231 82354 198398
. logistic y x Logistic regression Log likelihood = -1133.5955 Number of obs = 317347 LR chi2(1) = 5.20 (模型检验) Prob > chi2 = 0.0225 Pseudo R2 = 0.0023
----------------------------------------------------------------------------- y | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+--------------------------------------------------------------- x1 | .999979 .1877859 -0.00 1.000 .6920603 1.4449 x2 | 5.530467 1.0412 9.08 0.000 3.823925 7.998605 ------------------------------------------------------------------------------
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Logistic回归分析简介
Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。
1.应用范围:
①适用于流行病学资料的危险因素分析
②实验室中药物的剂量-反应关系
③临床试验评价
④疾病的预后因素分析
2.Logistic回归的分类:
①按因变量的资料类型分:
二分类
多分类
其中二分较为常用
②按研究方法分:
条件Logistic回归
非条件Logistic回归
两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍
研究。
3.Logistic回归的应用条件是:
①独立性。
各观测对象间是相互独立的;
②LogitP与自变量是线性关系;
③样本量。
经验值是病例对照各50例以上或为自变量的5-10倍(以10倍
为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然
估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;
④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观
察时间的影响(建议用Poisson回归)。
4.拟和logistic回归方程的步骤:
①对每一个变量进行量化,并进行单因素分析;
②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等
级资料。
可采用的方法有依据经验进行离散,或是按照四分、五分位数
法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离
散变量。
③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级
变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量
变换;
④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或
0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型
程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变
量。
可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计
量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选
择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald
统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔
除。
这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般
地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,
则降低选入界值、提高删除标准。
但筛选标准的不同会影响分析结果,
这在与他人结果比较时应当注意。
⑤在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两
变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但
在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交
互作用,最多是研究少量的一级交互作用。
⑥对专业上认为重要但未选入回归方程的要查明原因。
5.回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)
①决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。
R2
随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。
但亦有研究指出R2是多元线性回归中经常用到的一个指标,
表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预
测值与观测值之间差别的问题,因此在logistic回归中不适合。
②C p选择法:选择C p最接近p或p+1的方程(不同学者解释不同)。
C p
无法用SPSS直接计算,可能需要手工。
1964年CL Mallows提出:
Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自
变量总个数。
③AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的
方程越好。
在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。
Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。
Pearson χ2、偏差
(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P>0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。
AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。
6.拟合方程的注意事项:
①进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法
(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于
或等于剔除变量的检验水准;
②小样本检验水准α定为0.10或0.15,大样本把α定为0.05。
值越小说明
自变量选取的标准越严;
③在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感
兴趣的研究变量选入方程;
④强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应
该是同等的,实际并非如此。
有些样本点(记录)对回归模型影响很大。
对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。
⑤多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越
强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;
⑥异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)
以及强影响点(influential points)。
特异点是指残差较其他各点大得多的点;
高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。
单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。
对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。
这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。
杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。
Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。
Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。
DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值
越大),表明该观测值的影响越大。
如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原
因后酌情处理。
如来自测量或记录错误,应剔除或校正,否则处置就必
须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完
事。
因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的
或许更为重要因素的线索。
7.回归系数符号反常与主要变量选不进方程的原因:
①存在多元共线性;
②有重要影响的因素未包括在内;
③某些变量个体间的差异很大;
④样本内突出点上数据误差大;
⑤变量的变化范围较小;
⑥样本数太少。
8.参数意义
①Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素
条件下,效应指标发生与不发生事件的概率之比的对数值。
②Logistic回归中的回归系数(b i)表示,其它所有自变量固定不变,某一
因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变
化值,即OR或RR的对数值。
需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联
系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。
③存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别
小心。
④模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料
不适合使用该模型。
另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随
访期的延长,回归系数变得不稳定,标准误增加。
9.统计软件
能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。