Logistic回归分析分析
Logistic 回归分析
![Logistic 回归分析](https://img.taocdn.com/s3/m/0a27634be518964bcf847cce.png)
10
分层分析的局限性
只能控制少数因素(分层因素过多, 每个格子中的样本例数太少) 定量资料需要分组,信息丢失 不能对因素作用大小进行定量分析 (交互作用)
11
y = log2x y
二、Logistic 回归原理
0
1
经过数理统计学家证明:把疾病概率 P 转换成
p ln 1 − p ,会使该回归方程的统计性能更好一些。而且,
≈
当发病率低的时候ac所占的比例非常小, 当发病率低的时候 所占的比例非常小, 所占的比例非常小 公式中忽略ac后对 在RR公式中忽略 后对 值的影响非常小 公式中忽略 后对RR值的影响非常小 则有: 则有: RR
≈
(ad)/(bc) = OR
5
举例1 举例 口服避孕药与心肌梗塞的流行病学研究
(病例对照,曾光《现代流行病学方法与应用》,P90) 病例对照,曾光《现代流行病学方法与应用》 P90)
β1
ORX1 =
p X1 =1 q X1 =1 p X 1 =0 q X 1 =0
=
...... ...... 1 − p x1 =1 p x1 =0 1 − p x1 =0
e
14
假设建立了如下的logistic回归方程: 回归方程: 假设建立了如下的 回归方程 Logit P = α + βx x 为二分变量,当暴露时,取值为1; 为二分变量,当暴露时,取值为1 不暴露时,取值为0 不暴露时,取值为0。 暴露时 Logit(P1) = α + β, 所以暴露 , 所以暴露时, 比值(odds) = exp(α + β ) 比值 所以不暴露时 所以不暴露时, 不暴露 Logit(P0) = α , 比值(odds) = exp(α) 比值
logistic回归分析
![logistic回归分析](https://img.taocdn.com/s3/m/8a2dc9d8b9f3f90f76c61b3f.png)
三、Logistic回归模型参数的估计
1、假设变量 y 取值1和0,表示患和未患胃病。变量 x 也取 值1 和0,表示吸烟和不吸烟。调查数据的频数列在表A。
表A 频数 分布
表B 概率 分布
2、如果p=p(y=1|x)满足模型
那么,
3、根据最大似然法,该问题的最大似然函数是:
根据极值原理可以得到参数的估计值是: 4、拟和的logistic回归模型(fitted model):
其中,α和β是未知参数或待估计的回归系数。 该模型描述了y取某个值(这里y=1)的概率p与 自变量x之间的关系。
2、 多元logistic回归模型
令y是1,0变量,x1,x2,…,xk是k个危险因素; p=p(y=1|x1,x2,…,xk),那么,变量y关于变 量x1,x2,…,xk的k元logistic回归模型是:
Logistic回归系数的意义
分析因素xi为多分类变量时,为方便起见, 常用1,2,…,k分别表示k个不同的类别。 进行Logistic回归分析前需将该变量转换成 k-1个指示变量或哑变量(design/dummy variable),这样指示变量都是一个二分变 量,每一个指示变量均有一个估计系数,即 回归系数,其解释同前。
研究者关心的问题诸如:
哪些因素导致了人群中有的人患胃癌而有 的人不患胃癌?
哪些因素导致了手术后有的人感染,而有 的人不感染?
哪些因素导致了某种治疗方法出现治愈、 显效、好转、无效等不同的效果?
是回归分析问题吗?
“ 这些应该是属于回归分析问题!”
但是这种回归分析问题不能借助于线性回归 模型,因为因变量的假设条件遭到破坏。
Logistic回归系数的意义
• 分析因素xi为等级变量时,如以最小或最大 等级作参考组,并按等级顺序依次取为0,1, 2,…。此时, e(bi) 表示xi增加一个等级时 的优势比, e(k* bi)表示xi增加k个等级时的 优势比。
数据分析知识:数据分析中的Logistic回归分析
![数据分析知识:数据分析中的Logistic回归分析](https://img.taocdn.com/s3/m/e5b0779eb1717fd5360cba1aa8114431b90d8edf.png)
数据分析知识:数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法,它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。
在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。
一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法,可以将一个或多个自变量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,并确定自变量对因变量的影响。
Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无穷到正无穷的数映射到0-1的范围内。
这样,我们可以用这个数值来表示某个事件发生的概率。
当这个数值大于0.5时,我们就可以判定事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定事件发生的概率比较小。
2、方法Logistic回归分析的方法有两种:一是全局最优化方法,二是局部最优化方法。
其中全局最优化方法是使用最大似然估计方法,而局部最优化方法则是使用牛顿法或梯度下降算法。
在进行Logistic回归分析之前,我们首先要对数据进行预处理,将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。
在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参数估计和模型拟合,最后进行模型评估和预测。
在进行参数估计时,我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样本观测数据的参数值。
在进行模型拟合时,我们需要选取一个合适的评价指标,如准确率、召回率、F1得分等。
3、评价指标在Logistic回归分析中,评价指标包括拟合度、准确性、鲁棒性、可解释性等。
其中最常用的指标是拟合度,即模型对已知数据的拟合程度,通常使用准确率、召回率、F1得分等指标进行评价。
此外,还可以使用ROC曲线、AUC值等指标评估模型的性能。
二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中,Logistic回归分析可以用来预测患某种疾病的概率,如心脏病、肺癌等。
统计学中的Logistic回归分析
![统计学中的Logistic回归分析](https://img.taocdn.com/s3/m/ad47fa0632687e21af45b307e87101f69e31fb18.png)
统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。
它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。
本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。
一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。
其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。
该非线性函数被称为logit函数,可以将概率转化为对数几率。
Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。
而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。
二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。
例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。
通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。
2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。
例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。
通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。
3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。
通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。
第十九章 Logistic回归分析
![第十九章 Logistic回归分析](https://img.taocdn.com/s3/m/9063e53114791711cc79179d.png)
三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0:β=0 (模型中不含变量) H1: β≠ 0 (模型中含变量)
统计量:G = - 2lnL- (-2lnL') ~ χ2(k) 在例19-1中的SAS结果中:
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类 按反应变量的类型分:
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分: 1.非条件 Logistic 回归模型,研究对象未经过配对的成组资料 2.条件 Logistic 回归模型,研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死(AMI)患者能否成功的危险因素调查中,某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前:X1=1表 示已发生休克,X1=0表示未发生休克;X2=1表示发生心衰, X2=0表示未发生
心衰;X3=1表示12小时内将患者送往医院, X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义(释义同于病例-对照设计研究)
1. 相对危险度RR (Re lative Risk) RR P 1 P0
回归分析-Logistic回归
![回归分析-Logistic回归](https://img.taocdn.com/s3/m/654c90135f0e7cd184253667.png)
zi = β 0 + β1 xi + ε i
其中 权系数
ri pi 1 zi = ln ~ N (ln , ) & ni − ri 1 − pi ni pi (1 − pi )
ni % , ε i = ε i / wi ~ N (0,1) wi = & ri (ni − ri )
回归模型
p( x ) ln = 0.013 − 0.25 x 1 − p( x )
Logistic 回归分析
前言
Logistic回归模型的基本思想 Logistic回归模型的参数估计
基本原理
Y 多元线性回归模型: = β0 + β1 x1 + β 2 x2 + ... + β n xn = β0 + X β β 其中是β 0 截距, 是参数向量,X是自变量向量。
表示n个自变量x与反应变量Y间的关系,Y为任 意实数 ,属于连续变量
yi i
n
1− yi
似然函数 对数似然
L( β 0 , β1 ) = ∏ piyi (1 − pi )1− yi
i =1
n n
ln L( β 0 , β1 ) = ∑ yi (β 0 + β1 xi ) − ∑ ln(1 + e β0 + β1xi )
i =1 i =1
加权最小二乘
设x可以取值x1,x2……xk。x=xi时,Y的取值 为yi(yi=0或1); 如果模型正确 pi ln = β 0 + β1 xi 1 − pi 观测模型
该转换称为logit转换。P为事件发生的概率,1-P 为事件不发生的概率
p 1− p
=e
β0 + X β
Logistic回归分析
![Logistic回归分析](https://img.taocdn.com/s3/m/d17413d789eb172ded63b76a.png)
注:因为p>a,所以认为样本实际值得到的分布与 预测值得到的分布无显著差异,模型拟合优度较好 。
33
注:模型整体的准确度不高,对不购买人群的准确 率极高,对购买人群的准确率很低。
34
注:预测类别图上可以看出,预测概率在0.4附近的 样本预测准确率相对最低。事实上,无论用什么分 类方法,这类样本身就是最难预测的。
Hosmer—Lemeshow检验:通过模型可以计算出给 定解释变量取值时被解释变量取1的概率预测。如 果模型拟合较好,则应给实际值为1的样本以较高 的概率,给实际值为0的样本以低的概率预测值。 于是对概率预测值进行分位数分组(通常为10分位 数,将样本分为10组),预测概率大小分得的10组 和实际观测值0/1类别分组形成了交叉列联表。由 观测频数和期望频数计算卡方统计量,即Hosmer— Lemeshow统计量,它服从自由度为n-2的卡方分布 ,n为组数。
39
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的 程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 方法: 第一目的:Cox &Snell R2 统计量和 Nagel ker ke R2 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验
16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值 越大表明模型的拟合优度越高。不足之处在于其取值 范围无法确定,不利于模型之间的比较。
Cox &Snell R 2
logistic回归分析
![logistic回归分析](https://img.taocdn.com/s3/m/7a60f1609b6648d7c1c746b0.png)
队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
Logistic回归分析
![Logistic回归分析](https://img.taocdn.com/s3/m/ac5aacb3c77da26925c5b0af.png)
Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。
适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。
一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。
二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。
变量筛选的原理与普通的回归分析方法是一样的,不再重复。
三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。
(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。
当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。
四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。
例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。
Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。
12 logistic回归分析
![12 logistic回归分析](https://img.taocdn.com/s3/m/5e7abf87d0d233d4b14e69f8.png)
Logistic回归分析(Logistic Regression)施红英主讲温州医科大学预防医学系肺癌心理遗传慢支smokeLogistic回归分析解决的问题医学研究中,有关生存与死亡,发病与未发病,阴性与阳性等结果的产生,可能与病人的年龄、性别、生活习惯、体质、遗传、心理等许多因素有关。
如何找出其中哪些因素对结果有影响?以及影响有多大?Logistic回归:概率型回归用于分析某类事件发生的概率与自变量之间的关系。
适用于因变量是分类变量的资料,尤其是二分类的情形。
线性回归:应变量是连续型变量分类二分类logistic回归模型◆非条件logistic回归模型-成组资料◆条件logistic回归模型-配对资料 多分类logistic回归模型内容提要♦非条件logistic回归☻数据库格式☻Logistic回归模型的基本结构☻参数估计☻假设检验☻变量筛选☻模型拟合效果的判断♦条件logistic回归♦应用及其注意事项案例1为了探讨冠心病发生的有关影响因素,对26例冠心病病人和28例对照者进行病例-对照研究,试用logistic回归分析筛选冠心病发生的有关因素。
(data:gxb.sav)冠心病8个可能的危险因素与赋值因素变量名赋值说明<45=1,45~=2,55~=3,65~=4年龄(岁)X1无=0,有=1高血压史X2无=0,有=1高血压家族史X3吸烟X不吸=0,吸=14无=0,有=1高血脂史X5低=0,高=1动物脂肪摄入X6<24=1,24~=2,26~=3体重指数(BMI)X7否=0,是=1A型性格X8冠心病Y对照=0,病例=11、数据库格式2、Logistic 回归模型的基本结构011011exp()1exp()p p p p X X P X X ββββββ+++=++++L L 设X 1,X 2,……,X p 是一组自变量,Y 是应变量(阳性记为y =1,阴性记为y =0),用P 表示发生阳性结果的概率。
LOGISTIC回归
![LOGISTIC回归](https://img.taocdn.com/s3/m/dbcafc0503d8ce2f0066234f.png)
一、回归分析的分类logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。
根据1个因变量与多个因变量之分,有以下区分:①一个因变量y:I连续形因变量(y)——线性回归分析II分类型因变量(y)——Logistic 回归分析III 生存时间因变量(y)——生存风险回归分析IV时间序列因变量(y)——时间序列分析②多个因变量(y1,y2,……yn):I 路径分析II 结构方程模型分析在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。
(1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。
当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。
(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。
(3)logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系。
二、logistic回归分析(一)logistic回归的分类(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。
非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。
(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。
队列研究(cohort study):也称前瞻性研究、随访研究等。
是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。
logistic回归分析
![logistic回归分析](https://img.taocdn.com/s3/m/628952f9bb0d4a7302768e9951e79b8968026825.png)
表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
Logistic回归分析(LogisticRegressionAnalysis)
![Logistic回归分析(LogisticRegressionAnalysis)](https://img.taocdn.com/s3/m/593267b7551810a6f524869c.png)
• 由于
模型参数的意义
log it( ) ln( ) ln(Odds) 1
Odds e(0X )
模型参数的意义
• 例中
“超重或肥胖”组(X=1)患高血压的优势
为:
Odds1 e(0 1) e(0 )
“正常”组(XO=d0d)s0患高e(血0 压0的) 优e势0为:
两组O的R优势 比o(doddds1s odds0
log it( ) ln( ) ln(Odds) 1
• 这个变换将取值在0-1间的值转换为值域在
( , )的值。
• 建立log it( )与X的线性模型:
• log it( ) 0 X
或
ln( 1
)
0
X
Logistic回归模型
• 求解
•ln( 1
)
0
X
e(0X ) 1
e(0X )
• 当变量Xj的回归系数Βj >0时, Xj增加1个单位后与 增加前相比,事件的优势比ORj >1,表明Xj为危险 因素;
• Βj <0时, Xj增加1个单位后与增加前相比,事件的 优势比ORj <1 ,表明Xj 为保护因素;
• Βj =0 , Xj增加1个单位后与增加前相比,事件的 优势比, ORj =1,表明Xj对结果变量不起作用。
1 e e(0 1X1P X P )
1 e 1 (0 1X1P X P )
模型参数的意义
• Β0 :常数项(截距),表示模型中所有自变 量均为0时,log it( ) 的值;
• β1 , β2 、... βP:回归系数 ,表示在控 制其他自变量时,自变量变化一个单位所引
起的
log it( ) 改变量。
logistic回归分析
![logistic回归分析](https://img.taocdn.com/s3/m/371db73a6294dd88d1d26b9a.png)
它与自变量x1, x2,…,xp之间的Logistic回
归模型为:
p exp(0 1X1 2 X 2 ... m X m ) 1 exp(0 1X1 2 X 2 ... m X m )
1
1 p
1 exp( 0 1 X 1 p X p )
6
模 型
ln
P 1 P
=0
1
• 按照研究设计类型 –非条件logistic回归(研究对象未经匹配) –条件logistic回归(研究对象经过匹配)
5
Logistic回归模型
应变量Y
1 0
发生 未发生 ,
自变量X1, X 2 ,
, Xm
在m个自变量的作用下阳性结果发生的概率记作:
P P(Y 1| X1, X 2 ,, X m ) 0 P 1
X1
2
X
2
m X m log itP
参 数
常数项 0
表示暴露剂量为0时个体
的
发病与不发病概率之比的自然对数。
意 义
回归系数 j ( j 1,2,, m)
表示自变量 X j 改变一个单位时
logitP 的改变量。 7
优势比OR(odds ratio)
流行病学衡量危险因素作用大小的比数比例指标。 计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, OR j 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
8
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平 X j c1 与 X j c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为:
统计学-logistic回归分析
![统计学-logistic回归分析](https://img.taocdn.com/s3/m/6a807c78c850ad02de804156.png)
研究问题可否用多元线性回归方法?
ˆ y a b x b x b x 1 1 2 2 m m 1.多元线性回归方法要求 Y 的取值为计量
的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线 性关系。 ˆ 不能回答“发生与 3.多元线性回归结果 Y 否” logistic回归方法补充多元线性回归的不足
第十六章 logistic回归分析
logistic回归为概率型非线性回归 模型,是研究分类观察结果(y)与 一些影响因素(x)之间关系的一种 多变量分析方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3…XK 发生 Y=1 不发生 Y=0 例:暴露因素 冠心病结果 高血压史(x1):有 或无 有 或 无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
lnllnplnlikehoodratiotest通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行其统计量为近似服从自由度为待检验因素个数的scoretest以未包含某个或几个变量的模型为基础保留模型中参数的估计值并假设新增加的参数为零计算似然函数的一价偏导数又称有效比分及信息距阵两者相乘便得比分检验的统计量分布
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或 最大等级作参考组,并按等级顺序依次取为 0,1,2,…。此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则 应按多分类资料处理。 • 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
Y 发病=1 不发病=0
《logistic回归分析》课件
![《logistic回归分析》课件](https://img.taocdn.com/s3/m/fea3f18ea0c7aa00b52acfc789eb172dec63994f.png)
信用卡欺诈检测
应用逻辑回归模型检测信用 卡交易中的欺诈行为,保护 用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户 的历史行为和偏好进行电影 推荐,提供个性化的影片推 荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制,讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件,涵盖课程内容、逻辑回归模型、参数估计与 模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果,确定 哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用,用于评 估模型的分类性能。
混淆矩阵
介绍混淆矩阵,用于评估逻辑回归模型的分类 准确性和误判情况。
模型的诊断
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
39
14
二、logistic回归模型的参数估计
1. 参数估计
原理:最大似然 ( likelihood )估计
n
? L ?
P Yi i
(1
?
Pi )1? Yi
i?1
n
? ln L ? [ Yi ln Pi ? (1 ? Yi ) ln(1 ? Pi )] i?1
b0 , b1 , b2 ,? , bm
44
57
4
1
1
416
265 151
39
18
logistic 回归计算后得
lolgo经igsiltsloioctgigcisi回st经回itci归c回归lo计回归g计i算s归计t算ic后计算后回得算后得归得后计:得算b0后=-得0.9099 , Sb0 =0.1358 ; b1 =0.885 b0b=0 -=0-b.090.0=990-099.99,0b,09=9S-bS00,.b=90 0=09.S019b.031=53,085.81S;3b;05=Sb80b1b.11=;1=30=05.0.88b1.1885;=5800650.b68,1;8=,506.b882,5=60.,5261 , Sb2 =0.15 SSb1 b=1 0=S.01b.151=05000.01;5S;0b1b0=2b0;=2.10=5.0b5.0225=62;016.15b,22,吸6=S10烟Sb.5, 2b2=2与60=1S.0不1b.,251=吸75027S烟.2b12 5=的70.21优57势2 比: OR?1 ? exp
m
? ? ? ( ? 0 ? ? j c1 ? ? t X t ) ? ( ? 0 ? ? j c0 ? ? t X t )
t? j
t? j
? ? j (c1 ? c0 )
39
13
即 ORj ? exp[? j (c1 ? c0 )]
若X j
?
?1
? ?
0
暴露 非暴露 ,
c1 ? c0 ? 1,
?? ?
0,
ORj
?1
无作用
则有 ORj ? exp ? j , ? j ??>0, ORj ? 1 危险因子
?
??? 0, ORj ? 1 保护因子
当 P ?? 1, 则有OR ? P1 /(1? P1) ? RR P0 /(1? P0 )
由于 OR j 值与模型中的常数项 ? 0 无关, ? 0 在危险因素分析中通常视其为无效参数。
39
15
2. 优势比估计 可反映某一因素两个不 同水平(c1,c0)的优势比。
OR? ? exp[ j
bj (c1 ? c0 )]
若自变量 X j 只有暴露和非暴露两个水 平,则优势比ORj 的1 ? ? 可信区间估计公式为
exp(b j ? u? S / 2 bj )
39
16
例16-1 表16-1是一个研究吸烟、饮酒与食道癌关 系的病例-对照资料,试作 logistic回归分析。
第十六章 logistic回归分析
(Logistic Regression)
39
1
Content
? Logistic regression ? Conditional logistic regression ? Application
39
2
讲述内容:
第一节 logistic回归 第二节 条件logistic回归 第三节 logistic回归的应用
用? 2检验(或u检验)的局限性:
1.只能研究1个危险因素; 2.只能得出定性结论。
39
5
种类: 1. 成组(非条件)logistic回归方程。 2. 配对(条件)logistic回归方程。
39
6
第一节 logistic回归
(非条件logistic 回归 )
39
7
一、基本概念
应变量 Y ? ???10
归 模 型
P
?
1 1? e?Z
其中?0 为常数项, ?1,?2,? ,?m为回归系数。
ln
? ??1
P ?P
???=?
0
?
? 1 X1
?
? 2 X2
?L
?
? mXm ?
logitP
取值范围 概率P:0~1,logitP:-∞~∞。
39
9
1P
00..55
Z : ?? , 0, ?
P : 0, 0.5, 1
改变一个单位时logit P 的改变量。
39
11
优势比OR(odds ratio)
流行病学衡量危险因素作用大小的 比数比例 指标。
计算公式为:
ORj
?
P1 /(1? P0 /(1?
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, ORj 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
0ቤተ መጻሕፍቲ ባይዱ
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
39
10
模 型
ln
?P ??1? P
???=?
0
?
?1X1 ?
?2 X2
?L
?
? m Xm
?
logitP
参 数
常数项 ? 0 表示暴露剂量为0 时个体发病
的
与不发病概率之比的自然对数。
意 义
回归系数 ? j ( j ? 1,2,? , m) 表示自变量 X j
39
12
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平 X j ? c1 与 X j ? c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为 :
ln
OR j
?
ln
? ? ?
P1 P0
/(1 ? /(1 ?
P1 P0
) )
? ? ?
?
logit
P1
?
logit
P0
m
确
X1
?
??1 ?
吸烟
定
?0 不吸烟
各 变 量
X2
?
??1 ?
?0
饮酒 不饮酒
编
码
Y
?
??1 ?
病例
?0 对照
39
17
表16-1 吸烟与食道癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g
X1
X2
ng
dg
ng? dg
1
0
0
199
63 136
2
0
1
170
63 107
3
1
0
101
发生 , 未发生
自变量X1, X2,L , Xm
在m个自变量的作用下阳性结果发生的概率记作 :
P ? P(Y? 1| X1, X2,? , Xm)
0? P?1
39
8
P
?
1
?
exp[?
(?0
?
?1 X1
1 ?
?
2
X2
?
L
?
? m Xm)]
若令 :
回
Z ? ? 0 ? ? 1 X1 ? ? 2 X2 ? ? ? ? m Xm
及其注意事项
39
3
目的:作出以多个自变量(危险因素)估计
应变量(结果因素)的logistic回归方程。
属于概率型非线性回归。
资料:1. 应变量为反映某现象发生与不发生的
二值变量;2. 自变量宜全部或大部分为分类
变量,可有少数数值变量。分类变量要数量
化。
39
4
用途:研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。