logistic回归分析

合集下载

Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。

比较常用得情形就是分析危险因素与就是否发生某疾病相关联。

例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。

自变量既可以就是连续变量,也可以为分类变量。

通过Logistic回归分析,就可以大致了解胃癌得危险因素。

Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。

多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。

1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。

2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。

Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。

如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。

这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。

如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。

LOGISTIC回归分析

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。

参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。

若等于1的话,该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。

若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。

P<1-P,则为不和谐对(discordant)。

P=1-P,则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

数据分析知识:数据分析中的Logistic回归分析

数据分析知识:数据分析中的Logistic回归分析

数据分析知识:数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法,它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。

在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。

一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法,可以将一个或多个自变量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,并确定自变量对因变量的影响。

Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无穷到正无穷的数映射到0-1的范围内。

这样,我们可以用这个数值来表示某个事件发生的概率。

当这个数值大于0.5时,我们就可以判定事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定事件发生的概率比较小。

2、方法Logistic回归分析的方法有两种:一是全局最优化方法,二是局部最优化方法。

其中全局最优化方法是使用最大似然估计方法,而局部最优化方法则是使用牛顿法或梯度下降算法。

在进行Logistic回归分析之前,我们首先要对数据进行预处理,将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。

在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参数估计和模型拟合,最后进行模型评估和预测。

在进行参数估计时,我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样本观测数据的参数值。

在进行模型拟合时,我们需要选取一个合适的评价指标,如准确率、召回率、F1得分等。

3、评价指标在Logistic回归分析中,评价指标包括拟合度、准确性、鲁棒性、可解释性等。

其中最常用的指标是拟合度,即模型对已知数据的拟合程度,通常使用准确率、召回率、F1得分等指标进行评价。

此外,还可以使用ROC曲线、AUC值等指标评估模型的性能。

二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中,Logistic回归分析可以用来预测患某种疾病的概率,如心脏病、肺癌等。

统计学中的Logistic回归分析

统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。

它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。

本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。

一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。

其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。

该非线性函数被称为logit函数,可以将概率转化为对数几率。

Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。

而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。

二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。

例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。

通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。

2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。

例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。

通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。

3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。

通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。

统计学-logistic回归分析

统计学-logistic回归分析

在患病率较小情况下,OR≈RR
• Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。 • Logistic回归中的回归系数( bi )表示, 某一因素改变一个单位时,效应指标 发生与不发生事件的概率之比的对数 变化值,即OR的对数值。
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e

P odds1 1 /(1 P 1) OR P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
i
事件发生率很小,OR≈RR。
二、 Logistic回归模型
• Logistic回归的分类
二分类 多分类
条件Logistic回归 非条件Logistic回归
• Logit变换
也称对数单位转换
P logit P= ln 1 P
流行病学概念:
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之 比为优势(odds), logit P就是odds 的对数值。
Y 发病=1 不发病=0a p1 ac源自有暴露因素人群中发病的比例
多元回归模型的的 i 概念
P logit(p) ln = 0 1 X 1 1 P m X m
i 反映了在其他变量固定后,X=1与x=0相比
发生Y事件的对数优势比。 回归系数β与OR X与Y的关联 • β=0,OR=1, 无关 β>0,OR>1 , 有关,危险因素 β<0,OR<1, 有关,保护因子

第十九章 Logistic回归分析

第十九章 Logistic回归分析

三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0:β=0 (模型中不含变量) H1: β≠ 0 (模型中含变量)
统计量:G = - 2lnL- (-2lnL') ~ χ2(k) 在例19-1中的SAS结果中:
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类 按反应变量的类型分:
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分: 1.非条件 Logistic 回归模型,研究对象未经过配对的成组资料 2.条件 Logistic 回归模型,研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死(AMI)患者能否成功的危险因素调查中,某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前:X1=1表 示已发生休克,X1=0表示未发生休克;X2=1表示发生心衰, X2=0表示未发生
心衰;X3=1表示12小时内将患者送往医院, X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义(释义同于病例-对照设计研究)
1. 相对危险度RR (Re lative Risk) RR P 1 P0

logistic回归分析

logistic回归分析

Logistic回归分析
数学模型:
e p 1 e
1 X 1 2 X 2 m X m
1 X 1 2 X 2 m X m
Logistic回归分析
一、基本思想
用模型去描述实际资料时,须使 得理论结果与实际结果尽可能的一致。
资料整理格式
Logistic回归分析
1
消除xj量纲的影响
2.标准化偏回归系数j 的意义
果的发生,为“不利因素”;
xij
xij x j sj
(1)符号:取 “+”,xj 增大,则P增大,即促进阳性结
取 “-”,xj增大,则P减小,即抑制阳性结 果的发生,为“保护因素”。 (2)大小 :∣ j ∣越大,则xj 对结果的影响也就越大。
i 1 2 n
x1 x11 x21 xn1
x2
...
xm x1m x2m xnm
δ δ δ δ
1 2
x12 ... x22 ... …... xn2 ...
n
Logistic回归分析
二、基本原理
1.结果问题 : 对于第i个个体而言,其理论结果为pi , 而实际结果是i 。 2.一致问题: 对于第i个个体而言, i =1 pi i =0 qi
m

OR e j 1
j ) ˆ j ( x*j x
(1)对多指标的共同效应进行评价:

若OR>1,则处于X*水平下的阳性结果发生风险要高于X 水平, 即“不利因素”占主导地位;



若OR<1,则处于X*水平下的阳性结果发生风险要低于X 水平, 即“保护因素”占主导地位;

Logistic回归分析

Logistic回归分析
32

注:因为p>a,所以认为样本实际值得到的分布与 预测值得到的分布无显著差异,模型拟合优度较好 。
33

注:模型整体的准确度不高,对不购买人群的准确 率极高,对购买人群的准确率很低。
34

注:预测类别图上可以看出,预测概率在0.4附近的 样本预测准确率相对最低。事实上,无论用什么分 类方法,这类样本身就是最难预测的。

Hosmer—Lemeshow检验:通过模型可以计算出给 定解释变量取值时被解释变量取1的概率预测。如 果模型拟合较好,则应给实际值为1的样本以较高 的概率,给实际值为0的样本以低的概率预测值。 于是对概率预测值进行分位数分组(通常为10分位 数,将样本分为10组),预测概率大小分得的10组 和实际观测值0/1类别分组形成了交叉列联表。由 观测频数和期望频数计算卡方统计量,即Hosmer— Lemeshow统计量,它服从自由度为n-2的卡方分布 ,n为组数。

39
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的 程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 方法: 第一目的:Cox &Snell R2 统计量和 Nagel ker ke R2 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验

16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值 越大表明模型的拟合优度越高。不足之处在于其取值 范围无法确定,不利于模型之间的比较。
Cox &Snell R 2

logistic回归分析

logistic回归分析

队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:

Logistic回归分析

Logistic回归分析

Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。

适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。

一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。

二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。

变量筛选的原理与普通的回归分析方法是一样的,不再重复。

三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。

(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。

当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。

四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。

例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。

Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。

Logistic回归分析(共53张PPT)

Logistic回归分析(共53张PPT)
数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。

Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。

logistic回归分析

logistic回归分析

表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。

Logistic回归分析(LogisticRegressionAnalysis)

Logistic回归分析(LogisticRegressionAnalysis)

• 由于
模型参数的意义
log it( ) ln( ) ln(Odds) 1
Odds e(0X )
模型参数的意义
• 例中
“超重或肥胖”组(X=1)患高血压的优势
为:
Odds1 e(0 1) e(0 )
“正常”组(XO=d0d)s0患高e(血0 压0的) 优e势0为:
两组O的R优势 比o(doddds1s odds0
log it( ) ln( ) ln(Odds) 1
• 这个变换将取值在0-1间的值转换为值域在
( , )的值。
• 建立log it( )与X的线性模型:
• log it( ) 0 X

ln( 1
)
0
X
Logistic回归模型
• 求解
•ln( 1
)
0
X
e(0X ) 1
e(0X )
• 当变量Xj的回归系数Βj >0时, Xj增加1个单位后与 增加前相比,事件的优势比ORj >1,表明Xj为危险 因素;
• Βj <0时, Xj增加1个单位后与增加前相比,事件的 优势比ORj <1 ,表明Xj 为保护因素;
• Βj =0 , Xj增加1个单位后与增加前相比,事件的 优势比, ORj =1,表明Xj对结果变量不起作用。
1 e e(0 1X1P X P )
1 e 1 (0 1X1P X P )
模型参数的意义
• Β0 :常数项(截距),表示模型中所有自变 量均为0时,log it( ) 的值;
• β1 , β2 、... βP:回归系数 ,表示在控 制其他自变量时,自变量变化一个单位所引
起的
log it( ) 改变量。

20 第二十章 logistic回归分析

20 第二十章 logistic回归分析
吸烟 X1 否 否 是 是 饮酒 X2 否 是 否 是 观察例数 N 199 170 101 416 患者 Y=1 63 63 44 265 正常人 Y=0 136 107 57 151 患病率(%) 31.66 37.06 43.56 63.70
各变量赋值表:
变量
含义
量化值(赋值)
x1
x2 y
X1
X2
一、 logistic回归模型
1、 logistic回归分析属于非线性回归,因为它的因变量y为 二项分类或多项分类,不是连续型正态分布变量,所以不 符合线性回归条件。 2、 logistic回归模型的分类 (1)根据设计类型分: 成组设计的非条件logistic回归分析 配对设计的条件logistic回归分析 (2)根据因变量的分类个数 二分类logistic回归分析 多分类logistic回归分析(无序、有序)
第二十章 logistic回归分析
回顾多重线性回归模型相关知识点
1、适用条件? Line条件 2、模型
Y 0 1 X 1 2 X 2 ...... m X m ˆ b b x b x ...... b x Y
0 1 1 2 2 m m
3、例题 p233-234例13-1 脂联素作为因变量,体重 指数、病程、瘦素、空腹血糖作为自变量。
ˆ b0 b1 x1 b2 x2
不满足,需要进行变量变换(?):logit变换
log it ( ) ln(

1
) ln(odds )
优势的自 然对数
logit变换后,logit(π)就满足多重线性回归模型条件
6
log it ( ) ln(

1
) ln(odds )

logistic_回归分析1

logistic_回归分析1
0
74
55
104663
212555
选择0和1使似然函数L达到最大,即最 大似然估计。
17
STATA命令
Expand f Logit y x Logit, or 或直接logisitc y x
18
expand f (317343 observations created)
OR e
0.4117232
1.509417
21
OR的95%可信区间为(1.06,2.14)
应用Logistic模型校正混杂作用
实例2:上例没有考虑吸烟情况,故将吸烟作 为分层加入,资料如下:
吸烟 不吸烟 饮酒 不饮酒 饮酒 不饮酒 患病 33 21 22 53 未患病 22331 14210 82332 198345 合计 22364 14231 82354 198398
. logistic y x Logistic regression Log likelihood = -1133.5955 Number of obs = 317347 LR chi2(1) = 5.20 (模型检验) Prob > chi2 = 0.0225 Pseudo R2 = 0.0023
----------------------------------------------------------------------------- y | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+--------------------------------------------------------------- x1 | .999979 .1877859 -0.00 1.000 .6920603 1.4449 x2 | 5.530467 1.0412 9.08 0.000 3.823925 7.998605 ------------------------------------------------------------------------------

logistic回归分析

logistic回归分析

它与自变量x1, x2,…,xp之间的Logistic回
归模型为:
p exp(0 1X1 2 X 2 ... m X m ) 1 exp(0 1X1 2 X 2 ... m X m )
1
1 p
1 exp( 0 1 X 1 p X p )
6
模 型
ln
P 1 P
=0
1
• 按照研究设计类型 –非条件logistic回归(研究对象未经匹配) –条件logistic回归(研究对象经过匹配)
5
Logistic回归模型
应变量Y
1 0
发生 未发生 ,
自变量X1, X 2 ,
, Xm
在m个自变量的作用下阳性结果发生的概率记作:
P P(Y 1| X1, X 2 ,, X m ) 0 P 1
X1
2
X
2
m X m log itP
参 数
常数项 0
表示暴露剂量为0时个体

发病与不发病概率之比的自然对数。
意 义
回归系数 j ( j 1,2,, m)
表示自变量 X j 改变一个单位时
logitP 的改变量。 7
优势比OR(odds ratio)
流行病学衡量危险因素作用大小的比数比例指标。 计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, OR j 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
8
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平 X j c1 与 X j c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为:

《logistic回归分析》课件

《logistic回归分析》课件

信用卡欺诈检测
应用逻辑回归模型检测信用 卡交易中的欺诈行为,保护 用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户 的历史行为和偏好进行电影 推荐,提供个性化的影片推 荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制,讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模

介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件,涵盖课程内容、逻辑回归模型、参数估计与 模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果,确定 哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用,用于评 估模型的分类性能。
混淆矩阵
介绍混淆矩阵,用于评估逻辑回归模型的分类 准确性和误判情况。
模型的诊断
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
设 X j 为两分类变量: c1 =1 为暴露, c0 =0 为非暴露,
(二)病例与对照匹配---条件logistic回归
1、成组匹配(category matching):匹配的因素所占的比例,在对照组 和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组 也是如此。
2、个体匹配(individual matching):以病例和对照的个体为单位进行 匹配叫个体匹配。1:1匹配又叫配对(pair matching), 1:2,┅ ,1:m 匹配时称为匹配。
PYi i
(1
Pi
)1Yi
(i 1, 2, , n ) (15.6)
其中, Pi 表示第 i 例观察对象处于暴露条件下时阳
性结果发生的概率。阳性结果时,Yi 1 ;阴性结
果时,Yi 0 。
根据最大似然原理,似然函数 L 应取最大值。
对似然函数取对数形式:
n
ln L i1[Yi ln Pi (1 Yi ) ln(1 Pi )]
则暴露组和非暴露组发病的优势比为: OR j exp j
当 j =0 时, OR j =1,表示因素 X j 对疾病的发生不起 作用; j >0 时, OR j >1,表示 X j 是一个危险因素; j <0 时, OR j <1,表示 X j 是一个保护因素。 由于 OR j 值与模型中的常数项 0 无关,因此 0 在危 险因素分析中常常被视为无效参数。对于发病率很低 的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作 为相对危险度(relative risk ,RR)的近似估计。

在logistic过程步

中加“descending”
例 数
选项的目的是使 SAS过程按阳性
率(y=1)拟合模
型,得到阳性病
例对应于阴性病
例的优势比。
OR值
OR的95%CI
对偏回归系数 的假设检验
吸烟与不吸烟的优势比: ORˆ1 expb1 exp 0.8856 2.42 ,其OR1 的 95%可信区间: exp[b1 u0.05 2Sb1 ] exp(0.8856 1.96 0.1500) (1.81,3.25) 饮酒与不饮酒的优势比: ORˆ2 expb2 exp 0.5261 1.69 ,其OR2 的 95%可信区间: exp[b2 u0.05 S2 b2 ] exp(0.52611.96 0.1572) (1.24, 2.30) 由结果可看出,吸烟和饮酒均为食管癌发病的危险因素,
调查方向:追踪收集资料
暴露
疾病 人数
比较
+
研究人群
-
+a -b
+c -d
a/(a+b) c/(c+d)
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio)
OR>1,说明 该因素是疾病的危险性增加,为危险因素; OR<1,说明 该因素是疾病的危险性减小,为保护因素;
病例对照研究的类型
(一)病例与对照不匹配---非条件logistic回归 在设计所规定的病例和对照人群中,分别抽取一定量的研究 对象,一般对照应等于或多于病例数,此外无其他任何限制。
(二)病例与对照匹配---条件logistic回归 匹配或称配比(matching),即要求对照在某些因素或特征 上与病例保持一致,目的是对两组比较时排除混杂因素的 干扰。匹配分为成组匹配和个体匹配。
或率比(rate ratio)。 RR Ie a /n1 、 Ie a / n1 、 I0 c / n2
I0 c / n0
RR(相对危险度relative risk):表示暴露组与非暴露组 发病率(或死亡率)的比值。也称为危险比(risk ratio)。 反映了暴露与疾病发生的关联强度。
RR表明暴露组发病或死亡的危险是非暴露组的多少倍。
• 病例对照研究(case-control studies):一种由果及因的回顾性
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
比较
调查方向:收集回顾性资料
个自变量(即暴露因素)作用下阳性结果发生的条件
ቤተ መጻሕፍቲ ባይዱ
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
型可表示为:
P
1
exp(
exp(
0
1X1 0 1X
2 X 2 1 2X
m 2
Xm mX
)
m
)
其中, 0 为常数项, 1, 2 ,, m 为偏回归系数。
阳性数 dg 阴性数ng dg
1
0
0
199
63
136
2
0
1
170
63
107
3
1
0
101
44
57
4
1
1
416
265
151
首先确定变量的赋值或编码:
1 吸烟 X1 0 不吸烟
1 饮酒 X 2 0 不饮酒
Y
1 0
病例 对照
logistic 回归分析过程可通过 SAS 统计软件包中 logistic 过程步实现
第十五章 logistic回归分析
Logistic Regression Analysis
山东大学公共卫生学院
回归分析的分类
一个 因变 量y
连续型因变量 (y) --- 线性回归分析 分类型因变量 (y) ---Logistic 回归分析 生存时间因变量 (t) ---生存风险回归分析 时间序列因变量 (t) ---时间序列分析
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
c
+
d
-
病例对照原理示意图
病例 对照
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
比值(odds):某事物发生的可能性与不发生的可能性之比。
病例组暴露的比值 a /(a b) 、对照组暴露的比值 c /(c d)
b /(a b)
d /(c d )
该暴露因素的优势比: OR = a /(a b) c /(c d) ad
b /(a b) d /(c d) bc
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
logit 变换:logit P = ln P 为 P 的 logit 变换, 1 P
通过 logit 变换之后,就可将 0 P 1 的资料转换为
log it(P) 的资料。
作 logit 变换后,logistic 回归模型可以表示成如下
的线性形式:
exp(0 1X1 2 X 2 m X m )
即 OR P1 (1 P1) P1 RR P0 (1 P0 ) P0
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。
其基本思想是先建立似然函数与对数似然函数,
求使对数似然函数最大时的参数值,其估计值即
为最大似然估计值。 建立样本似然函数:
n
L
i 1
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类:
(1)二分类资料logistic回归: 因变量为两分类变量的资料,可用非 条件logistic回归和条件logistic回归进行分析。非条件logistic回归 多用于非配比病例-对照研究或队列研究资料,条件logistic回归多 用于配对或配比资料。
当各种暴露因素为 0 时:
ln( P 1 P
)
0
1
X1
2
X
2
mXm
0 1 0 m 0 0
可看出:常数项 0 是当各种暴露因素为 0 时,个体发病
与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2,, m )表示在其它自变量固定的
条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变
(2)多分类资料logistic回归: 因变量为多项分类的资料,可用多项 分类logistic回归模型或有序分类logistic回归模型进行分析。
• 队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果 的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人 群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死 亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾 病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知 道每个研究对象的暴露情况。
相关文档
最新文档