logistic回归分析

合集下载

Logistic回归分析报告结果解读分析-logit回归解读

Logｉstiｃ回归分析报告结果解读分析Logisｔｉc回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。

比较常用得情形就是分析危险因素与就是否发生某疾病相关联。

例如,若探讨胃癌得危险因素，可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量，自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。

自变量既可以就是连续变量,也可以为分类变量。

通过Logistiｃ回归分析，就可以大致了解胃癌得危险因素。

Lｏｇistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。

多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量，但二分类变量更常用,也更加容易解释。

１、Ｌｏgｉsｔic回归得用法一般而言,Logisｔic回归有两大用途，首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Lｏgistｉc 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率（包括风险评分得建立)。

2、用Logisｔic回归估计危险度所谓相对危险度（ｒisk ｒatio,ＲR）就是用来描述某一因素不同状态发生疾病（或其它结局)危险程度得比值。

Loｇistic回归给出得OR(ｏdds ratiｏ)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。

如不同性别得胃癌发生危险不同，通过Loｇistｉc回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。

这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是１、7。

如果以男性作为参照,算出得OＲ将会就是0、58８(1／1、7),表示女性发生胃癌得风险就是男性得0、5８８倍,或者说,就是男性得５8、8％。

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析，从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢？在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别，这是我们就要⽤到logistic分析（逻辑回归分析，⾮线性模型）。

参数解释（对变量的评价）发⽣⽐(odds)： ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率（odds ratio）：odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率）注：odds ratio⼤于1或者⼩于1都有意义，代表⾃变量的两个分组有差异性，对因变量的发⽣概率有作⽤。

若等于1的话，该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中，主要是采⽤最⼩⼆乘法进⾏参数估计，使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的，但不同的是极⼤似然法可以⽤于⾮线性模型，⼜因为逻辑回归是⾮线性模型，所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式：L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时，极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时，估计的风险会⽐较⼤，⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准：AIC准则和SC准则，两统计量越⼩说明模型拟合的越好，越可信。

若事件发⽣的观测有n条，时间不发⽣的观测有M条，则称该数据有n*m个观测数据对，在⼀个观测数据对中，P>1-P，则为和谐对（concordant）。

P<1-P,则为不和谐对（discordant）。

P=1-P，则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T，其中NC为和谐对数，ND为不和谐对数，这⾥我们就可以根据C统计量来表明模型的区分度，例如C=0.68，则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

数据分析知识：数据分析中的Logistic回归分析

数据分析知识：数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法，它主要用于研究变量之间的关系，并且可以预测某个变量的取值概率。

在实际应用中，Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。

一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法，可以将一个或多个自变量与一个二分类的因变量进行分析，主要用于分析变量之间的关系，并确定自变量对因变量的影响。

Logistic回归分析使用的是逻辑回归模型，该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上，即把一个从负无穷到正无穷的数映射到0-1的范围内。

这样，我们可以用这个数值来表示某个事件发生的概率。

当这个数值大于0.5时，我们就可以判定事件发生的概率比较高，而当这个数值小于0.5时，我们就可以判定事件发生的概率比较小。

2、方法Logistic回归分析的方法有两种：一是全局最优化方法，二是局部最优化方法。

其中全局最优化方法是使用最大似然估计方法，而局部最优化方法则是使用牛顿法或梯度下降算法。

在进行Logistic回归分析之前，我们首先要对数据进行预处理，将数据进行清洗、变量选择和变量转换等操作，以便进行回归分析。

在进行回归分析时，我们需要先建立逻辑回归模型，然后进行参数估计和模型拟合，最后进行模型评估和预测。

在进行参数估计时，我们通常使用最大似然估计方法，即在估计参数时，选择最能解释样本观测数据的参数值。

在进行模型拟合时，我们需要选取一个合适的评价指标，如准确率、召回率、F1得分等。

3、评价指标在Logistic回归分析中，评价指标包括拟合度、准确性、鲁棒性、可解释性等。

其中最常用的指标是拟合度，即模型对已知数据的拟合程度，通常使用准确率、召回率、F1得分等指标进行评价。

此外，还可以使用ROC曲线、AUC值等指标评估模型的性能。

二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中，Logistic回归分析可以用来预测患某种疾病的概率，如心脏病、肺癌等。

统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法，用于建立并探索自变量与二分类因变量之间的关系。

它在医学、社会科学、市场营销等领域得到广泛应用，能够帮助研究者理解和预测特定事件发生的概率。

本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。

一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型，通过对数据的处理，将线性回归模型的预测结果转化为概率值。

其基本原理在于将一个线性函数与一个非线性函数进行组合，以适应因变量概率为S形曲线的特性。

该非线性函数被称为logit函数，可以将概率转化为对数几率。

Logistic回归模型的表达式如下：\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中，P(Y=1|X)表示在给定自变量X的条件下，因变量为1的概率。

而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。

二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。

例如，研究者可以使用Logistic回归分析，探索某种疾病与一系列潜在风险因素之间的关系。

通过对患病和非患病个体的数据进行回归分析，可以估计各个风险因素对疾病患病的影响程度，进而预测某个个体患病的概率。

2. 社会科学领域在社会科学研究中，研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。

例如，研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。

通过Logistic回归分析，可以对不同自变量对于投票行为的作用进行量化，进而预测某个选民投票候选人的概率。

3. 市场营销领域在市场营销中，Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。

通过分析客户的个人特征、购买习惯和消费行为等因素，可以建立Logistic回归模型，预测不同客户购买某一产品的概率，以便制定个性化的市场营销策略。

统计学-logistic回归分析

在患病率较小情况下，OR≈RR
• Logistic回归中的常数项（b0）表示，在不接触任何潜在危险／保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。 • Logistic回归中的回归系数（ bi ）表示，某一因素改变一个单位时，效应指标发生与不发生事件的概率之比的对数变化值，即OR的对数值。
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e

P odds1 1 /(1 P 1) OR P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30（a） 10（ b） 70（c） 90（d） a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
i
事件发生率很小，OR≈RR。
二、 Logistic回归模型
• Logistic回归的分类
二分类多分类
条件Logistic回归非条件Logistic回归
• Logit变换
也称对数单位转换
P logit P= ln 1 P
流行病学概念：
设P表示暴露因素X时个体发病的概率，则发病的概率P与未发病的概率1-P 之比为优势（odds）， logit P就是odds 的对数值。
Y 发病=1 不发病=0a p1 ac源自有暴露因素人群中发病的比例
多元回归模型的的 i 概念
P logit(p) ln = 0 1 X 1 1 P m X m
i 反映了在其他变量固定后，X=1与x=0相比
发生Y事件的对数优势比。回归系数β与OR X与Y的关联 • β=0，OR=1，无关 β＞0，OR＞1 ，有关，危险因素 β＜0，OR＜1，有关，保护因子

第十九章 Logistic回归分析

三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0：β=0 （模型中不含变量） H1： β≠ 0 （模型中含变量）
统计量：G = － 2lnL－ (－2lnL') ~ χ2(k) 在例19-1中的SAS结果中：
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类按反应变量的类型分：
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分： 1.非条件 Logistic 回归模型，研究对象未经过配对的成组资料 2.条件 Logistic 回归模型，研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死（AMI）患者能否成功的危险因素调查中，某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前：X1=1表示已发生休克，X1=0表示未发生休克；X2=1表示发生心衰， X2=0表示未发生
心衰；X3=1表示12小时内将患者送往医院， X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义（释义同于病例-对照设计研究）
1. 相对危险度RR （Re lative Risk） RR P 1 P0

logistic回归分析

Logistic回归分析
数学模型：
e p 1 e
1 X 1 2 X 2 m X m
1 X 1 2 X 2 m X m
Logistic回归分析
一、基本思想
用模型去描述实际资料时，须使得理论结果与实际结果尽可能的一致。
资料整理格式
Logistic回归分析
1
消除xj量纲的影响
2.标准化偏回归系数j 的意义
果的发生，为“不利因素”；
xij
xij x j sj
（1）符号：取 “+”，xj 增大，则P增大，即促进阳性结
取 “-”，xj增大，则P减小，即抑制阳性结果的发生，为“保护因素”。（2）大小：∣ j ∣越大，则xj 对结果的影响也就越大。
i 1 2 n
x1 x11 x21 xn1
x2
...
xm x1m x2m xnm
δ δ δ δ
1 2
x12 ... x22 ... …... xn2 ...
n
Logistic回归分析
二、基本原理
1.结果问题：对于第i个个体而言，其理论结果为pi , 而实际结果是i 。 2.一致问题：对于第i个个体而言， i =1 pi i =0 qi
m
▲
OR e j 1
j ) ˆ j ( x*j x
（1）对多指标的共同效应进行评价：

若OR>1，则处于X*水平下的阳性结果发生风险要高于X 水平，即“不利因素”占主导地位；
▲
▲

若OR<1，则处于X*水平下的阳性结果发生风险要低于X 水平，即“保护因素”占主导地位；
▲

Logistic回归分析

32

注：因为p>a，所以认为样本实际值得到的分布与预测值得到的分布无显著差异，模型拟合优度较好。
33

注：模型整体的准确度不高，对不购买人群的准确率极高，对购买人群的准确率很低。
34

注：预测类别图上可以看出，预测概率在0.4附近的样本预测准确率相对最低。事实上，无论用什么分类方法，这类样本身就是最难预测的。

Hosmer—Lemeshow检验：通过模型可以计算出给定解释变量取值时被解释变量取1的概率预测。如果模型拟合较好，则应给实际值为1的样本以较高的概率，给实际值为0的样本以低的概率预测值。于是对概率预测值进行分位数分组（通常为10分位数，将样本分为10组），预测概率大小分得的10组和实际观测值0/1类别分组形成了交叉列联表。由观测频数和期望频数计算卡方统计量，即Hosmer— Lemeshow统计量，它服从自由度为n-2的卡方分布，n为组数。

39
模型拟合优度的评价与检验目的：第一，回归方程能够解释被解释变量变差的程度，即线性回归的部分能解释LogitP的程度，这一点与一般线性回归分析是相同的；第二，由回归方程得到的概率进行分别判别的准确率。方法：第一目的：Cox &Snell R2 统计量和 Nagel ker ke R2 统计量第二目的：混淆矩阵（错判矩阵）和 Hosmer-Lemeshow检验

16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
，N为样本容量。该统计量类似于一般线性模型中的R方，统计量的值越大表明模型的拟合优度越高。不足之处在于其取值范围无法确定，不利于模型之间的比较。
Cox &Snell R 2

logistic回归分析

队列研究(cohort study)：也称前瞻性研究、随访研究等。是一种由因及果的研
究，在研究开始时，根据以往有无暴露经历，将研究人群分为暴露人群和非暴露人群，在一定时期内，随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义，则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在，研究者知道每个研究对象的暴露情况。
调查方向：追踪收集资料暴露疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度（relative risk， RR）也称危险比（risk ratio）或率比（rate ratio） RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究，先按疾病状态确定调查对象，分为病例(case)和对照 (control)两组，然后利用已有的记录、或采用询问、填写调查表等方式，了解其发病前的暴露情况，并进行比较，推测疾病与暴露间的关系。
调查方向：收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。其基本思想是先建立似然函数与对数似然函数，求使对数似然函数最大时的参数值，其估计值即为最大似然估计值。建立样本似然函数：

Logistic回归分析

Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。

适用于因变量的取值仅有两个（即二分类变量，一般用1和0表示）的情况，如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等，对于这类数据如果采用线性回归方法则效果很不理想，此时用Logistic 回归分析则可以很好的解决问题。

一、Logistic 回归模型设Y 是一个二分类变量，取值只可能为1和0，另外有影响Y 取值的n 个自变量12,,...,n X X X ，记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率，则Logistic 回归模型为：[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式：01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。

二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。

变量筛选的原理与普通的回归分析方法是一样的，不再重复。

三、Logistic 回归的应用（1）可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。

（2）预测与判别Logistic回归是一个概率模型，可以利用它预测某事件发生的概率。

当然也可以进行判别分析，而且可以给出概率，并且对数据的要求不是很高。

四、SPSS操作方法1．选择菜单2．概率预测值和分类预测结果作为变量保存其它使用默认选项即可。

例：试对临床422名病人的资料进行分析，研究急性肾衰竭患者死亡的危险因素和统计规律。

Logistic回归分析.sav解：在SPSS中采用Logistic回归全变量方式分析得到：（1）模型的拟合优度为0.755。

Logistic回归分析(共53张PPT)

数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率之比称为比值（odds),即odds=p/1-p。两个
比值之比称为比值比（Odds Ratio),简称 OR。
• Logistic回归中的常数项（b0）表示，在不
接触任何潜在危险／保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。

Forward: LR （向前逐步法：似然比法 likelihood ratio，LR）→ 再击下方的 Save 钮，将 Predicted values 、 Influence 与 Residuls 窗口中的预选项全勾选 → Continue → 再击下方的 Options 钮，将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验（likehood ratio test）
通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行，其统计量为G （又称Deviance）。
G=-2(ln Lp-ln Lk) 样本量较大时， G近似服从自由度
为待检验因素个数的２分布。
• 比分检验（score test）
， Logistic回归系数的解释变得更为复杂，应特别小心。
根据Wald检验，可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归其中，为常数项，为偏回归系数。应变量水平数大于2，且水平之间不存在等级递减或递增的关系时，对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布，即为标准正态离差。

logistic回归分析

表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步常数项
回归系数标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间下限上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果，如发病与不发病、死亡与生存、有效与无效、复发与未复发等，当需要研究二分类应变量的影响因素时，适合采用 logistic回归分析。
logistic回归属于概率型非线性回归，它是研究二分类（可以扩展到多分类）反应变量与多个影响因素之间关系的一种多变量分析方法。logistic回归模型参数具有明确的实际意义。
OR值的可信区间：
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟（X1）、饮酒（X2）与食道癌（Y）关系的病例－对照资料，试作logistic回归分析。

Logistic回归分析(LogisticRegressionAnalysis)

• 由于
模型参数的意义
log it( ) ln( ) ln(Odds) 1
Odds e(0X )
模型参数的意义
• 例中
“超重或肥胖”组（X=1）患高血压的优势
为：
Odds1 e(0 1) e(0 )
“正常”组（XO=d0d）s0患高e(血0 压0的) 优e势0为：
两组O的R优势比o(doddds1s odds0
log it( ) ln( ) ln(Odds) 1
• 这个变换将取值在0-1间的值转换为值域在
（，）的值。
• 建立log it( )与X的线性模型：
• log it( ) 0 X
或
ln( 1
)
0
X
Logistic回归模型
• 求解
•ln( 1
)
0
X
e(0X ) 1
e(0X )
• 当变量Xj的回归系数Βj >0时， Xj增加1个单位后与增加前相比，事件的优势比ORj >1，表明Xj为危险因素；
• Βj <0时， Xj增加1个单位后与增加前相比，事件的优势比ORj <1 ，表明Xj 为保护因素；
• Βj =0 ， Xj增加1个单位后与增加前相比，事件的优势比， ORj =1,表明Xj对结果变量不起作用。
1 e e(0 1X1P X P )
1 e 1 (0 1X1P X P )
模型参数的意义
• Β0 ：常数项（截距），表示模型中所有自变量均为0时，log it( ) 的值；
• β1 ， β2 、．．． βP：回归系数，表示在控制其他自变量时，自变量变化一个单位所引
起的
log it( ) 改变量。

20 第二十章 logistic回归分析

吸烟 X1 否否是是饮酒 X2 否是否是观察例数 N 199 170 101 416 患者 Y=1 63 63 44 265 正常人 Y=0 136 107 57 151 患病率(%) 31.66 37.06 43.56 63.70
各变量赋值表：
变量
含义
量化值（赋值）
x1
x2 y
X1
X2
一、 logistic回归模型
1、 logistic回归分析属于非线性回归，因为它的因变量y为二项分类或多项分类，不是连续型正态分布变量，所以不符合线性回归条件。 2、 logistic回归模型的分类（1）根据设计类型分：成组设计的非条件logistic回归分析配对设计的条件logistic回归分析（2）根据因变量的分类个数二分类logistic回归分析多分类logistic回归分析（无序、有序）
第二十章 logistic回归分析
回顾多重线性回归模型相关知识点
1、适用条件？ Line条件 2、模型
Y 0 1 X 1 2 X 2 ...... m X m ˆ b b x b x ...... b x Y
0 1 1 2 2 m m
3、例题 p233-234例13-1 脂联素作为因变量，体重指数、病程、瘦素、空腹血糖作为自变量。
ˆ b0 b1 x1 b2 x2
不满足，需要进行变量变换(?)：logit变换
log it ( ) ln(

1
) ln(odds )
优势的自然对数
logit变换后，logit(π)就满足多重线性回归模型条件
6
log it ( ) ln(

1
) ln(odds )

logistic_回归分析1

0
74
55
104663
212555
选择0和1使似然函数L达到最大，即最大似然估计。
17
STATA命令
Expand f Logit y x Logit, or 或直接logisitc y x
18
expand f (317343 observations created)
OR e
0.4117232
1.509417
21
OR的95%可信区间为（1.06，2.14）
应用Logistic模型校正混杂作用
实例2：上例没有考虑吸烟情况，故将吸烟作为分层加入，资料如下：
吸烟不吸烟饮酒不饮酒饮酒不饮酒患病 33 21 22 53 未患病 22331 14210 82332 198345 合计 22364 14231 82354 198398
. logistic y x Logistic regression Log likelihood = -1133.5955 Number of obs = 317347 LR chi2(1) = 5.20 （模型检验） Prob > chi2 = 0.0225 Pseudo R2 = 0.0023
----------------------------------------------------------------------------- y | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+--------------------------------------------------------------- x1 | .999979 .1877859 -0.00 1.000 .6920603 1.4449 x2 | 5.530467 1.0412 9.08 0.000 3.823925 7.998605 ------------------------------------------------------------------------------

logistic回归分析

它与自变量x1, x2,…,xp之间的Logistic回
归模型为:
p exp(0 1X1 2 X 2 ... m X m ) 1 exp(0 1X1 2 X 2 ... m X m )
1
1 p
1 exp( 0 1 X 1 p X p )
6
模型
ln
P 1 P
=0
1
• 按照研究设计类型 –非条件logistic回归（研究对象未经匹配） –条件logistic回归（研究对象经过匹配）
5
Logistic回归模型
应变量Y
1 0
发生未发生 ,
自变量X1, X 2 ,
, Xm
在m个自变量的作用下阳性结果发生的概率记作:
P P(Y 1| X1, X 2 ,, X m ) 0 P 1
X1
2
X
2
m X m log itP
参数
常数项 0
表示暴露剂量为0时个体
的
发病与不发病概率之比的自然对数。
意义
回归系数 j ( j 1,2,, m)
表示自变量 X j 改变一个单位时
logitP 的改变量。 7
优势比OR(odds ratio)
流行病学衡量危险因素作用大小的比数比例指标。计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时的发病概率， OR j 称作多变量调整后的优势比，表示扣除了其他自变量影响后危险因素的作用。
8
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平 X j c1 与 X j c0 的发病情况（假定其它因素的水平相同），其优势比的自然对数为:

《logistic回归分析》课件

信用卡欺诈检测
应用逻辑回归模型检测信用卡交易中的欺诈行为，保护用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户的历史行为和偏好进行电影推荐，提供个性化的影片推荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制，讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件，涵盖课程内容、逻辑回归模型、参数估计与模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果，确定哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用，用于评估模型的分类性能。
混淆矩阵
介绍混淆矩阵，用于评估逻辑回归模型的分类准确性和误判情况。
模型的诊断

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

则该因素的优势比： OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病概率， OR j 为调整后优势比（adjusted odds ratio）, 表示扣除了其它自变量影响后危险因素 X j 的作用。
设 X j 为两分类变量： c1 =1 为暴露， c0 =0 为非暴露，
（二）病例与对照匹配---条件logistic回归
1、成组匹配（category matching）：匹配的因素所占的比例，在对照组和在病例组一致。如病例组中男女各半，65岁以上者占1/3，则对照组也是如此。
2、个体匹配（individual matching）：以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对（pair matching）， 1:2，┅ ，1:m 匹配时称为匹配。
PYi i
(1
Pi
)1Yi
（i 1, 2, , n ） (15.6)
其中， Pi 表示第 i 例观察对象处于暴露条件下时阳
性结果发生的概率。阳性结果时，Yi 1 ；阴性结
果时，Yi 0 。
根据最大似然原理，似然函数 L 应取最大值。
对似然函数取对数形式：
n
ln L i1[Yi ln Pi (1 Yi ) ln(1 Pi )]
则暴露组和非暴露组发病的优势比为： OR j exp j
当 j =0 时， OR j =1，表示因素 X j 对疾病的发生不起作用； j >0 时， OR j >1，表示 X j 是一个危险因素； j <0 时， OR j <1，表示 X j 是一个保护因素。由于 OR j 值与模型中的常数项 0 无关，因此 0 在危险因素分析中常常被视为无效参数。对于发病率很低的慢性疾病如心脑血管病、恶性肿瘤等，优势比可作为相对危险度（relative risk ,RR）的近似估计。
观
在logistic过程步
察
中加“descending”
例数
选项的目的是使 SAS过程按阳性
率（y=1）拟合模
型，得到阳性病
例对应于阴性病
例的优势比。
OR值
OR的95%CI
对偏回归系数的假设检验
吸烟与不吸烟的优势比： ORˆ1 expb1 exp 0.8856 2.42 ，其OR1 的 95%可信区间： exp[b1 u0.05 2Sb1 ] exp(0.8856 1.96 0.1500) (1.81,3.25) 饮酒与不饮酒的优势比： ORˆ2 expb2 exp 0.5261 1.69 ，其OR2 的 95%可信区间： exp[b2 u0.05 S2 b2 ] exp(0.52611.96 0.1572) (1.24, 2.30) 由结果可看出，吸烟和饮酒均为食管癌发病的危险因素，
调查方向：追踪收集资料
暴露
疾病人数
比较
+
研究人群
-
+a -b
+c -d
a/(a+b) c/(c+d)
队列研究原理示意图
暴露组非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度（relative risk， RR）也称危险比（risk ratio）
OR>1,说明该因素是疾病的危险性增加，为危险因素； OR<1,说明该因素是疾病的危险性减小，为保护因素；
病例对照研究的类型
（一）病例与对照不匹配---非条件logistic回归在设计所规定的病例和对照人群中，分别抽取一定量的研究对象，一般对照应等于或多于病例数，此外无其他任何限制。
（二）病例与对照匹配---条件logistic回归匹配或称配比（matching），即要求对照在某些因素或特征上与病例保持一致，目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。
或率比（rate ratio）。 RR Ie a /n1 、 Ie a / n1 、 I0 c / n2
I0 c / n0
RR（相对危险度relative risk）：表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比（risk ratio）。反映了暴露与疾病发生的关联强度。
RR表明暴露组发病或死亡的危险是非暴露组的多少倍。
• 病例对照研究(case-control studies)：一种由果及因的回顾性
研究，先按疾病状态确定调查对象，分为病例(case)和对照 (control)两组，然后利用已有的记录、或采用询问、填写调查表等方式，了解其发病前的暴露情况，并进行比较，推测疾病与暴露间的关系。
比较
调查方向：收集回顾性资料
个自变量（即暴露因素）作用下阳性结果发生的条件
ቤተ መጻሕፍቲ ባይዱ
概率为 P P(Y 1 X1, X 2 ,, X m ) ，则 logistic 回归模
型可表示为：
P
1
exp(
exp(
0
1X1 0 1X
2 X 2 1 2X
m 2
Xm mX
)
m
)
其中， 0 为常数项， 1, 2 ,, m 为偏回归系数。
阳性数 dg 阴性数ng dg
1
0
0
199
63
136
2
0
1
170
63
107
3
1
0
101
44
57
4
1
1
416
265
151
首先确定变量的赋值或编码：
1 吸烟 X1 0 不吸烟
1 饮酒 X 2 0 不饮酒
Y
1 0
病例对照
logistic 回归分析过程可通过 SAS 统计软件包中 logistic 过程步实现
第十五章 logistic回归分析
Logistic Regression Analysis
山东大学公共卫生学院
回归分析的分类
一个因变量y
连续型因变量 (y) --- 线性回归分析分类型因变量 (y) ---Logistic 回归分析生存时间因变量 (t) ---生存风险回归分析时间序列因变量 (t) ---时间序列分析
人数暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
c
+
d
-
病例对照原理示意图
病例对照
是否暴露暴露组未暴露组合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比（odds ratio、OR）：病例对照研究中表示疾病与暴露间
联系强度的指标，也称比值比。
比值（odds）：某事物发生的可能性与不发生的可能性之比。
病例组暴露的比值 a /(a b) 、对照组暴露的比值 c /(c d)
b /(a b)
d /(c d )
该暴露因素的优势比： OR = a /(a b) c /(c d) ad
b /(a b) d /(c d) bc
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率，只能计算比值比OR值。 OR与RR的含义是相同的，也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时，OR是RR的极好近似值。
logit 变换：logit P = ln P 为 P 的 logit 变换， 1 P
通过 logit 变换之后，就可将 0 P 1 的资料转换为
log it(P) 的资料。
作 logit 变换后，logistic 回归模型可以表示成如下
的线性形式：
exp(0 1X1 2 X 2 m X m )
即 OR P1 (1 P1) P1 RR P0 (1 P0 ) P0
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。
其基本思想是先建立似然函数与对数似然函数，
求使对数似然函数最大时的参数值，其估计值即
为最大似然估计值。建立样本似然函数：
n
L
i 1
logistic回归:不仅适用于病因学分析，也可用于其他方面的研究，研究某个二分类（或无序及有序多分类）目标变量与有关因素的关系。
logistic回归的分类：
（1）二分类资料logistic回归：因变量为两分类变量的资料，可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料，条件logistic回归多用于配对或配比资料。
当各种暴露因素为 0 时：
ln( P 1 P
)
0
1
X1
2
X
2
mXm
0 1 0 m 0 0
可看出：常数项 0 是当各种暴露因素为 0 时，个体发病
与不发病概率之比的自然对数值。偏回归系数 j （ j 1,2,, m ）表示在其它自变量固定的
条件下，第 j 个自变量每改变一个单位时 logit (P) 的改变
（2）多分类资料logistic回归：因变量为多项分类的资料，可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。
• 队列研究(cohort study)：也称前瞻性研究、随访研究等。是一种由因及果的研究，在研究开始时，根据以往有无暴露经历，将研究人群分为暴露人群和非暴露人群，在一定时期内，随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义，则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在，研究者知道每个研究对象的暴露情况。