logistic回归分析

合集下载

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析，从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢？在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别，这是我们就要⽤到logistic分析（逻辑回归分析，⾮线性模型）。

参数解释（对变量的评价）发⽣⽐(odds)： ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率（odds ratio）：odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率）注：odds ratio⼤于1或者⼩于1都有意义，代表⾃变量的两个分组有差异性，对因变量的发⽣概率有作⽤。

若等于1的话，该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中，主要是采⽤最⼩⼆乘法进⾏参数估计，使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的，但不同的是极⼤似然法可以⽤于⾮线性模型，⼜因为逻辑回归是⾮线性模型，所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式：L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时，极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时，估计的风险会⽐较⼤，⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准：AIC准则和SC准则，两统计量越⼩说明模型拟合的越好，越可信。

若事件发⽣的观测有n条，时间不发⽣的观测有M条，则称该数据有n*m个观测数据对，在⼀个观测数据对中，P>1-P，则为和谐对（concordant）。

P<1-P,则为不和谐对（discordant）。

P=1-P，则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T，其中NC为和谐对数，ND为不和谐对数，这⾥我们就可以根据C统计量来表明模型的区分度，例如C=0.68，则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

数据分析知识：数据分析中的Logistic回归分析

数据分析知识：数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法，它主要用于研究变量之间的关系，并且可以预测某个变量的取值概率。

在实际应用中，Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。

一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法，可以将一个或多个自变量与一个二分类的因变量进行分析，主要用于分析变量之间的关系，并确定自变量对因变量的影响。

Logistic回归分析使用的是逻辑回归模型，该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上，即把一个从负无穷到正无穷的数映射到0-1的范围内。

这样，我们可以用这个数值来表示某个事件发生的概率。

当这个数值大于0.5时，我们就可以判定事件发生的概率比较高，而当这个数值小于0.5时，我们就可以判定事件发生的概率比较小。

2、方法Logistic回归分析的方法有两种：一是全局最优化方法，二是局部最优化方法。

其中全局最优化方法是使用最大似然估计方法，而局部最优化方法则是使用牛顿法或梯度下降算法。

在进行Logistic回归分析之前，我们首先要对数据进行预处理，将数据进行清洗、变量选择和变量转换等操作，以便进行回归分析。

在进行回归分析时，我们需要先建立逻辑回归模型，然后进行参数估计和模型拟合，最后进行模型评估和预测。

在进行参数估计时，我们通常使用最大似然估计方法，即在估计参数时，选择最能解释样本观测数据的参数值。

在进行模型拟合时，我们需要选取一个合适的评价指标，如准确率、召回率、F1得分等。

3、评价指标在Logistic回归分析中，评价指标包括拟合度、准确性、鲁棒性、可解释性等。

其中最常用的指标是拟合度，即模型对已知数据的拟合程度，通常使用准确率、召回率、F1得分等指标进行评价。

此外，还可以使用ROC曲线、AUC值等指标评估模型的性能。

二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中，Logistic回归分析可以用来预测患某种疾病的概率，如心脏病、肺癌等。

logistic回归模型结果解读

logistic回归模型结果解读
x
一、 logistic回归模型结果解读
Logistic回归模型是一种分类数据模型，主要用于对不同类别的输出结果进行预测，因此，其结果解读也要以分类的形式来解释。

1、系数与因变量之间的关系
Logistic回归模型通过对因变量的分析，来推断被解释变量的概率。

结果中的系数提供了因变量与被解释变量之间的关系，比如我们可以分析不同系数值大小，从而获得因变量对被解释变量的影响程度，正相关的影响是系数的正值，反之是负值。

2、P值
P值是从回归结果中获取的，它可以反映特定因变量对被解释变量的重要性，P值越小，表明相对于其它因变量，该因变量对被解释变量影响越明显，则说明该因变量是重要因素。

3、R-Square和平均绝对值
R-Square是可决系数，它反映回归结果的好坏，R-Square的值越大，表明模型的预测效果越好，也就是越能够准确的来预测被解释变量的值。

平均绝对值也是可以用来判断模型好坏的指标，它比较每个样本的预测值和实际值之间的误差，值越小则表示模型的预测精度越高。

4、改进模型
可以通过以上结果，来判断模型的预测效果好坏，从而思考如何改进模型：比如可以进行特征选择，去掉系数值较小或者P值较大的因变量；也可以使用其它模型，如决策树或神经网络模型来进行比较，看哪一个模型对被解释变量的预测效果更好。

统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法，用于建立并探索自变量与二分类因变量之间的关系。

它在医学、社会科学、市场营销等领域得到广泛应用，能够帮助研究者理解和预测特定事件发生的概率。

本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。

一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型，通过对数据的处理，将线性回归模型的预测结果转化为概率值。

其基本原理在于将一个线性函数与一个非线性函数进行组合，以适应因变量概率为S形曲线的特性。

该非线性函数被称为logit函数，可以将概率转化为对数几率。

Logistic回归模型的表达式如下：\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中，P(Y=1|X)表示在给定自变量X的条件下，因变量为1的概率。

而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。

二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。

例如，研究者可以使用Logistic回归分析，探索某种疾病与一系列潜在风险因素之间的关系。

通过对患病和非患病个体的数据进行回归分析，可以估计各个风险因素对疾病患病的影响程度，进而预测某个个体患病的概率。

2. 社会科学领域在社会科学研究中，研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。

例如，研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。

通过Logistic回归分析，可以对不同自变量对于投票行为的作用进行量化，进而预测某个选民投票候选人的概率。

3. 市场营销领域在市场营销中，Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。

通过分析客户的个人特征、购买习惯和消费行为等因素，可以建立Logistic回归模型，预测不同客户购买某一产品的概率，以便制定个性化的市场营销策略。

logistic回归

概念
logistic回归是一种广义线性回归（generalized linear model），因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同，都具有 w‘x+b，其中w和b是待求参数，其区别在于他们的因变量不同，多重线性回归直接将w‘x+b作为因变量，即y =w‘x+b，而logistic回归则通过函数L将w‘x+b对应一个隐状态p， p =L(w‘x+b),然后根据p与1-p的大小决定因变量的值。如果L是logistic函数，就是logistic回归，如果L是多项式函数就是多项式回归。
感谢观看
logistic回归
一种广义的线性回归分析模型
01 概念
目录
02 主要用途
logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌，值为“是”或“否”，自变量就可以包括很多了，如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。然后通过logistic回归分析，可以得到自变量的权重，从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
实际上跟预测有些类似，也是根据logistic模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。
这是logistic回归最常用的三个用途，实际中的logistic回归用途是极为广泛的，logistic回归几乎已经成了流行病学和医学中最常用的分析方法，因为它与多重线性回归相比有很多的优势，以后会对该方法进行详细的阐述。实际上有很多其他分类方法，只不过Logistic回归是最成功也是应用最广的。

第十九章 Logistic回归分析

三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0：β=0 （模型中不含变量） H1： β≠ 0 （模型中含变量）
统计量：G = － 2lnL－ (－2lnL') ~ χ2(k) 在例19-1中的SAS结果中：
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类按反应变量的类型分：
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分： 1.非条件 Logistic 回归模型，研究对象未经过配对的成组资料 2.条件 Logistic 回归模型，研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死（AMI）患者能否成功的危险因素调查中，某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前：X1=1表示已发生休克，X1=0表示未发生休克；X2=1表示发生心衰， X2=0表示未发生
心衰；X3=1表示12小时内将患者送往医院， X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义（释义同于病例-对照设计研究）
1. 相对危险度RR （Re lative Risk） RR P 1 P0

单因素与多因素logistic回归的解读

单因素logistic回归与多因素logistic回归都是用于研究因变量（通常为0-1或1-2-3顺序变量）与一个或多个自变量之间的关系。

但这两者在应用和解释上有所不同。

1. 单因素logistic回归：顾名思义，这种分析主要研究因变量对一个自变量的影响。

例如，如果您想研究某个特定的因素（如年龄、性别或教育水平）如何影响某种疾病的风险，单因素logistic回归可能是一个合适的选择。

2. 多因素logistic回归：与单因素logistic回归不同，多因素分析考虑了两个或更多自变量与因变量之间的关系。

这通常用于更全面地了解哪些因素共同作用以影响因变量。

例如，在预测冠心病的风险时，多因素logistic回归可能会考虑年龄、性别、高血压、糖尿病等多个因素。

在数据分析的全过程中，这两种方法通常都有其用途。

例如，在研究有生育障碍的妇女进行注射HCG后卵巢反应的影响因素时，可能首先使用单因素logistic回归来识别哪些因素具有显著影响，然后进一步使用多因素logistic回归来评估这些因素如何共同作用。

第11章__Logistic回归分析

概述
• 线性回归模型和广义线性回归模型要求因变量是
连续的正态分布变量，且自变量和因变量呈线性关系。当因变量是分类型变量时，且自变量与因变量没有线性关系时，线性回归模型的假设条件遭到破坏。这时，最好的回归模型是Logistic回归模型，它对因变量的分布没有要求，从数学角度看，Logistic回归模型非常巧妙地避开了分类型变量的分布问题，补充完善了线性回归模型和广义线性回归模型的缺陷。从医学研究角度看， Logistic回归模型解决了一大批实际应用问题，对医学的发展起着举足轻重的作用。
非条件Logistic回归
• 分析因变量y取某个值的概率P与自变量x的关系，就是寻
找一个连续函数，使得当x变化时，它对应的函数值P不超出[0，1]范围。数学上这样的函数是存在且不唯一的， Logistic回归模型就是满足这种要求的函数之一。与线性回归分析相似，Logistic回归分析的基本原理就是利用一组数据拟合一个Logistic回归模型，然后借助这个模型揭示总体中若干个自变量与一个因变量取某个值的概率之间的关系。具体地说，Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下，每个自变量对因变量取某个值的概率的数值影响大小。 Logistic回归模型有条件与非条件之分，前者适用于配对病例对照资料的分析，后者适用于队列研究或非配对的病例-对照研究成组资料的分析。
不同年龄组内服用避孕药的比例
——————————————————————————
年龄
服OC
不服OC
合计
——————————————————————————
〈40 ≥40
38(0.31) 25(0.12)
85 183
123 208

Logistic回归分析

32

注：因为p>a，所以认为样本实际值得到的分布与预测值得到的分布无显著差异，模型拟合优度较好。
33

注：模型整体的准确度不高，对不购买人群的准确率极高，对购买人群的准确率很低。
34

注：预测类别图上可以看出，预测概率在0.4附近的样本预测准确率相对最低。事实上，无论用什么分类方法，这类样本身就是最难预测的。

Hosmer—Lemeshow检验：通过模型可以计算出给定解释变量取值时被解释变量取1的概率预测。如果模型拟合较好，则应给实际值为1的样本以较高的概率，给实际值为0的样本以低的概率预测值。于是对概率预测值进行分位数分组（通常为10分位数，将样本分为10组），预测概率大小分得的10组和实际观测值0/1类别分组形成了交叉列联表。由观测频数和期望频数计算卡方统计量，即Hosmer— Lemeshow统计量，它服从自由度为n-2的卡方分布，n为组数。

39
模型拟合优度的评价与检验目的：第一，回归方程能够解释被解释变量变差的程度，即线性回归的部分能解释LogitP的程度，这一点与一般线性回归分析是相同的；第二，由回归方程得到的概率进行分别判别的准确率。方法：第一目的：Cox &Snell R2 统计量和 Nagel ker ke R2 统计量第二目的：混淆矩阵（错判矩阵）和 Hosmer-Lemeshow检验

16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
，N为样本容量。该统计量类似于一般线性模型中的R方，统计量的值越大表明模型的拟合优度越高。不足之处在于其取值范围无法确定，不利于模型之间的比较。
Cox &Snell R 2

Logistic回归分析

Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。

适用于因变量的取值仅有两个（即二分类变量，一般用1和0表示）的情况，如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等，对于这类数据如果采用线性回归方法则效果很不理想，此时用Logistic 回归分析则可以很好的解决问题。

一、Logistic 回归模型设Y 是一个二分类变量，取值只可能为1和0，另外有影响Y 取值的n 个自变量12,,...,n X X X ，记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率，则Logistic 回归模型为：[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式：01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。

二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。

变量筛选的原理与普通的回归分析方法是一样的，不再重复。

三、Logistic 回归的应用（1）可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。

（2）预测与判别Logistic回归是一个概率模型，可以利用它预测某事件发生的概率。

当然也可以进行判别分析，而且可以给出概率，并且对数据的要求不是很高。

四、SPSS操作方法1．选择菜单2．概率预测值和分类预测结果作为变量保存其它使用默认选项即可。

例：试对临床422名病人的资料进行分析，研究急性肾衰竭患者死亡的危险因素和统计规律。

Logistic回归分析.sav解：在SPSS中采用Logistic回归全变量方式分析得到：（1）模型的拟合优度为0.755。

Logistic回归分析(共53张PPT)

数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率之比称为比值（odds),即odds=p/1-p。两个
比值之比称为比值比（Odds Ratio),简称 OR。
• Logistic回归中的常数项（b0）表示，在不
接触任何潜在危险／保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。

Forward: LR （向前逐步法：似然比法 likelihood ratio，LR）→ 再击下方的 Save 钮，将 Predicted values 、 Influence 与 Residuls 窗口中的预选项全勾选 → Continue → 再击下方的 Options 钮，将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验（likehood ratio test）
通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行，其统计量为G （又称Deviance）。
G=-2(ln Lp-ln Lk) 样本量较大时， G近似服从自由度
为待检验因素个数的２分布。
• 比分检验（score test）
， Logistic回归系数的解释变得更为复杂，应特别小心。
根据Wald检验，可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归其中，为常数项，为偏回归系数。应变量水平数大于2，且水平之间不存在等级递减或递增的关系时，对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布，即为标准正态离差。

logistic回归分析

表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步常数项
回归系数标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间下限上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果，如发病与不发病、死亡与生存、有效与无效、复发与未复发等，当需要研究二分类应变量的影响因素时，适合采用 logistic回归分析。
logistic回归属于概率型非线性回归，它是研究二分类（可以扩展到多分类）反应变量与多个影响因素之间关系的一种多变量分析方法。logistic回归模型参数具有明确的实际意义。
OR值的可信区间：
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟（X1）、饮酒（X2）与食道癌（Y）关系的病例－对照资料，试作logistic回归分析。

logistic回归分析

即 OR P1 (1 P1) P1 RR P0 (1 P0 ) P0
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。
其基本思想是先建立似然函数与对数似然函数，
求使对数似然函数最大时的参数值，其估计值即
为最大似然估计值。建立样本似然函数：
n
L
i 1
（1）Mantel-Haenszel分层分析：适用于样本量大、分析因素较少的情况。当分层较多时，由于要求各格子中例数不能太少，所需样本较大，往往难以做到；当混杂因素较多时，分层数也呈几何倍数增长，这将导致部分层中某个格子的频数为零，无法利用其信息。
（2）线性回归分析：由于因变量是分类变量，不能满足其正态性要求；有些自变量对因变量的影响并非线性。
人数暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
c
+
d
-
病例对照原理示意图
病例对照
是否暴露暴露组未暴露组合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比（odds ratio、OR）：病例对照研究中表示疾病与暴露间
联系强度的指标，也称比值比。
比值（odds）：某事物发生的可能性与不发生的可能性之比。
第十五章 logistic回归分析
Logistic Regression Analysis
山东大学公共卫生学院
回归分析的分类
一个因变量y
连续型因变量 (y) --- 线性回归分析分类型因变量 (y) ---Logistic 回归分析生存时间因变量 (t) ---生存风险回归分析时间序列因变量 (t) ---时间序列分析

Logistic回归分析(LogisticRegressionAnalysis)

• 由于
模型参数的意义
log it( ) ln( ) ln(Odds) 1
Odds e(0X )
模型参数的意义
• 例中
“超重或肥胖”组（X=1）患高血压的优势
为：
Odds1 e(0 1) e(0 )
“正常”组（XO=d0d）s0患高e(血0 压0的) 优e势0为：
两组O的R优势比o(doddds1s odds0
log it( ) ln( ) ln(Odds) 1
• 这个变换将取值在0-1间的值转换为值域在
（，）的值。
• 建立log it( )与X的线性模型：
• log it( ) 0 X
或
ln( 1
)
0
X
Logistic回归模型
• 求解
•ln( 1
)
0
X
e(0X ) 1
e(0X )
• 当变量Xj的回归系数Βj >0时， Xj增加1个单位后与增加前相比，事件的优势比ORj >1，表明Xj为危险因素；
• Βj <0时， Xj增加1个单位后与增加前相比，事件的优势比ORj <1 ，表明Xj 为保护因素；
• Βj =0 ， Xj增加1个单位后与增加前相比，事件的优势比， ORj =1,表明Xj对结果变量不起作用。
1 e e(0 1X1P X P )
1 e 1 (0 1X1P X P )
模型参数的意义
• Β0 ：常数项（截距），表示模型中所有自变量均为0时，log it( ) 的值；
• β1 ， β2 、．．． βP：回归系数，表示在控制其他自变量时，自变量变化一个单位所引
起的
log it( ) 改变量。

《logistic回归分析》课件

信用卡欺诈检测
应用逻辑回归模型检测信用卡交易中的欺诈行为，保护用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户的历史行为和偏好进行电影推荐，提供个性化的影片推荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制，讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件，涵盖课程内容、逻辑回归模型、参数估计与模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果，确定哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用，用于评估模型的分类性能。
混淆矩阵
介绍混淆矩阵，用于评估逻辑回归模型的分类准确性和误判情况。
模型的诊断

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2.模型中参数的意义
P ln = 0 1 X 1 1 P
Β0（常数项）：暴露因素Xi=0时，个体发病概率与不发病概率之比的自然对数比值。
P( y 1 / x 0) = 0 ln 1 P( y 0 / x 0)
i
事件发生率很小，OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数（βi）估计
，
P ln = 0 1 X 1 2 X 2 m X m 1 P
通常用最大似然函数 (maximum likelihood estimate， MLE)估计β，由统计软件包完成。(讲义259页）
研究问题可否用多元线性回归方法？
ˆ y a b1 x1 b2 x2 bm xm
1.多元线性回归方法要求 Y 的取值为计量的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线性关系。 ˆ 3.多元线性回归结果 Y 不能回答“发生与否” logistic回归方法补充多元线性回归的不足
OR e

如X=1，0两分类，则OR的1-α可信区间估计公式
e
( b j u / 2 Sb j )
Sb j
为回归系数的标准误
（公式16-10）
例：讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例－对照资料（886例），试作logistic回归分析。变量的赋值
1 Y 0
0
0 x
logistic回归模型方程的线性表达
对logistic回归模型的概率（p）做logit变换，
p log it ( p) ln( ) 1 p
方程如下：
线形关系
y log it ( p) 0 1 x1
Y～（-∞至+∞）
截距（常数）
回归系数
在有多个危险因素（Xi）时
Point
Effect 吸烟x1 饮酒x2 Estimate 2.424 1.692
95% Wald
Confidence Limits 1.807 1.244 3.253 2.303
似然比检验（讲义）
对某个β做检验，检验统计量（G）
G 2(ln L1 ln L0 )
ln L1 ln L0
包括p个自变量的对数似然函数包括 l 个自变量的对数似然函数
e p1 P( y 1/ x 1) 0 x 1 e
0 x
e P( y 0 / x 1) 1 1 p1 0 x 1 e e p0 P( y 1/ x 0) 0 1 e 0 e P( y 0 / x 0) 1 1 p0 0 1 e
例表16-1资料，对各x的β做检验（wald检验）
参数 β估计值常数-0.9099 吸烟 0.8856 标准误 0.1358 0.1500 Chi-Squa 44.8699 34.8625 Pr .0001 .0001
饮酒 0.5261
0.1572
11.2069
.0008
Odds Ratio Estimates
b j ' b j s j /( / 3)
标准回归系数（b’）比较各自变量对Y 的相对贡献
第二节条件Logistic回归
概念：用配对设计获得病例对照研究资料，计算的 Logistic回归模型为条件Logistic回归。
成组（未配对）设计的病例对照研究资料，计算的 Logistic回归模型为非条件Logistic回归。例：见265页区别：条件Logistic回归的参数估计无常数项（β0），主要用于危险因素的分析。
饮酒与不饮酒OR的95%可信区间：
exp(b2 u / 2 Sb2 ) exp(0.5261 1.96 0.1572) (1.24, 2.30)
1.检验一：对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
三、Logistic 回归模型的假设检验
H 0 : 1 2 m 0
2.两值因变量的logistic回归模型方程
一个自变量与Y关系的回归模型如：y：发生=1,未发生=0 x ：有=1，无=0，记为p（y=1/x）表示某暴露因素状态下，结果y=1的概率（P）模型。x 0
或
e P( y 1 / x) 0 x 1 e
1 p( y 1 / x) 1 exp[ ( 0 x)]
Xi=1与Xi=0相比，发生某结果（如发病）优势比的对数值。
i
的含义：某危险因素，暴露水平变化时，即
P /(1 P ) 1 ln OR ln 1 P0 /(1 P0 ) log itP log itP0 1
P1（y=1/x=1）的概率 P0（y=1/x=0）的概率
Y 发病=1 不发病=0
a p1 ac
有暴露因素人群中发病的比例
多元回归模型的的
i
概念
P logit(p) ln = 0 1 X 1 m X m 1 P
i 反映了在其他变量固定后，X=1与x=0相
比发生Y事件的对数优势比。回归系数β与OR X与Y的关联 β=0，OR=1，无关 β＞1，OR＞1 ，有关，危险因素 β＜1，OR＜1，有关，保护因子
模型描述了应变量p与x的关系
P概率 1 p( y 1) 1 1 exp[ ( 0 x)]
z 0 1 x
0.5
Β为正值，x越大，结果y=1发生的可能性（p）越大。
Z值 -3 -2 -1 0 1 2 3
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e

P /(1 P ) odds1 1 OR 1 P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30（a） 10（ b） 70（c） 90（d） a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
项一、logistic回归的应用
1.疾病（某结果）的危险因素分析和筛选
用回归模型中的回归系数（β i）和OR说明危险因素与疾病的关系。例：讲义例16-1， 16-2，16-3
适用的资料：
前瞻性研究设计、病例对照研究设计、横断面研究设计的资料。
三类研究计算的logistic 回归模型的β意义是一致。仅常数项不同。（证明略）
DF 2 2 2
Pr <.0001 <.0001 <.0001
2.检验二：
检验模型中某β是否对Y有作用。检验假设：
H0 : j 0
bj Sb j
2
H1 : j 0
检验统计量：主要为Wald检验（SAS软件）
(
2
)
2
ν=1的χ2
公式16-13
例；
0.8856 2 ( ) 在大样本时，三方法结果一致。 33.86 0.15
第十六章 logistic回归分析
logistic回归为概率型非线性回归模型，是研究分类观察结果(y)与一些影响因素(x) 之间关系的一种多变量分析方法
问题提出：医学研究中常研究某因素存在条件下某结果是否发生？以及之间的关系如何？因素（X）疾病结果（Y） x1，x2，x3…XK 发生 Y=1 不发生 Y=0 例：暴露因素高血压史(x1)：有或无高血脂史(x2)：有或无吸烟(x3)：有或无冠心病结果有或无
1 X1 0
食管癌患者对照：非食管癌
吸烟不吸烟
1 X2 0 饮酒不饮酒
经logistic回归计算后得 b0 =-0.9099， b1 =0.8856， b2 =0.5261，方程表达：
p ln( ) 0.9099 0.8856 x1 0.5261x2 1 p
H1 : 各（j 1，，m)不全为0 2， j
P ln = 0 1 X 1 2 X 2 m X m 1 P
检验方法（讲义260-261页） 1）似然比检验 (likelihood ratio test) 2）Wald检验
例表16-1吸烟、饮酒与食管癌资料（SAS软件计算）
Logistic回归方法
该法研究是当 y 取某值（如y=1）发生的概率（p）与某暴露因素（x）的关系。
p( y 1/ x) f ( x),即p f ( x)
P（概率）的取值波动0～1范围。基本原理：用一组观察数据拟合Logistic模型，揭示若干个x与一个因变量取值的关系，反映y 对x的依存关系。
exp( ) OR
exp( 0.8856) OR 2.4244
控制饮酒因素后，吸烟与不吸烟相比患食管癌的优势比为2.4倍
exp( 0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间：
exp(b1 u / 2 Sb1 ) exp(0.8856 1.96 0.15) (1.81,3.25)
多个变量的logistic回归模型方程的线性表达：公式16-2
P logit(p) ln = 0 1 X 1 2 X 2 m X m 1 P
或ห้องสมุดไป่ตู้
p( y 1/ x1 , x2 xk )
1 1 e
( 0 1 xk .... k xk )
1.对建立的整个模型做检验。 p ln( ) 0.9099 0.8856 x1 0.5261x2 1 p