LOGISTIC回归
Logistic回归

不同体质指数高血压患病率
BMI(X) 调查人数
患病 (y=1) 1331
1656 2987
未患病 (y=0) 5461
2492 7953
患病率 (%) 19.60
39.92 27.30
正常(x=0)
超重(x=1) 合计
6792
4148 10940
Logistic回归模型为:
模型中回归系数的解释: X=1时(超重): X=0时(正常):
1.
2.当自变量为连续型变量时,不需编码
表示自变量X每增加一个单位得到的比值比的自然对数 例如:前列腺癌患者淋巴组织有无转移与年龄(X)回归模 型
实际工作中,常把连续型变量→等级资料来解释。
3. 当自变量为有序分类变量时,一般按等级对疾病 影响的顺序由大到小编码。(各等级对应变量的 影响是线性变化的)
无序多分类Logistic模型
例: 研究不同细胞分化程度(X1)和细胞染色 (X2)与恶性肿瘤组织类型(Y)的关系, 得到资料如表,分析细胞分化程度和细胞 染色与组织类型的关系。
得到两个回归方程:
以大细胞癌水平3为基准,分别用两个回归进行 水平1与水平3、水平2与水平3的比较。
X1的系数均为正值,说明分化程度高,鳞 癌和腺癌的危险高于大细胞癌的危险 X2的系数均为负值,说明细胞染色阳性, 鳞癌和腺癌的危险高于大细胞癌的危险
0
1 1 … 0
建立模型:
P(一对中只有一人得病)=P(A得病)P(B不得病)+ P(A不得病)P(B得病) 在病例和对照中只有1人得病的条件下恰好是A得病的条件概 率为 P(A得病|一对中只有一人得病)= P(A得病)P(B不得病) P(A得病)P(B不得病)+ P(A不得病)P(B得病)
logistic回归

b'j 来计算标准化回归系数
,式中bj是我们通常所指的回
3 1.8138
归参数,即偏回归系数;Sj为第j自变量的标准差;S是
logistic随机变量分布函数的标准差,为 /
每个参数的以e为底的指数就是每个自变量对应的优势比( odds
ratio,OR),即 ORj=exp(bj),ORj值的100(1-α)%可信区间为: exp[bj±1.96 SE(bj)] (16-7)
自变量 (x)
累计发病率P(%)
Logit值
2.3 2.6 2.8 2.9 3.0 3.08
0.1537 0.3829 0.6383 0.7779 0.8519 0.8519
-1.71 -0.48 0.57 1.25 1.75 1.75
Logit=Ln[p/(1-p)]
剂量与效应关系的“S”型曲线
线的形状与方向。随着X的增加,正β值对应的曲线呈上升趋势(见图
16-1),负β值对应的曲线是下降趋势。β=0时,S形曲线变成水平直 线,表示π与自变量X无关;β的绝对值增加,曲线形状逐渐陡峭;β的 绝对值减少,曲线形状逐渐平坦。 当预报概率π为0.5时,由式(16-2)可得对应的X=-β0/β,实例有X =-(-1.4351)/1.6582=0.8655。此X值有时被称为中效水平 (median effective level,EL50),代表了二种结局出现的概率各为 50
Logistic回归

31 May 2010
华东师范大学
Logistic回归简介 Logistic回归简介 其他一些问题 条件Logistic回归; 多分类有序相应变量的Logistic回归; 多分类无序相应变量的Logistic回归; 含定性解释变量的Logistic回归.
第10页 10页
31 May 2010
华东师范大学
Logistic回归简介 Logistic回归简介
第1页
Logistic回归简介 Logistic回归简介
31 May 2010
华东师范大学
Logistic回归简介 Logistic回归简介 Logistic 回归基本概念
第2页
线性回归模型的一个局限性是要求因变量是定量变量而不 能是定性变量.但是在许多实际问题中,经常出现因变量是 定性变量(分类变量)的情况. 可用于处理分类因变量的统计分析方法有:判别分别, Probit 分析,Logistic 回归分析和对数线性模型等. 在社会科学中,应用最多的是Logistic回归分析. Logistic 回归分析根据因变量取值类别不同,又可以分为 二 值 Logistic 回 归 分 析 和 多 分 类 Logistic 回 归 分 析 , 二 值 Logistic 回归模型中因变量只能取两个值1 和0.
31 May 2010
华东师范大学
Logistic回归简介 Logistic回归简介 Logistic 回归模型的检验
第8页
似然比检验( 似然比检验(likehood ratio test) ) 通过比较包含与不包含某一个或几个待检验观察因素的两个 模型的对数似然函数来进行,其统计量为G=-2(ln L0-ln L1),样 本量较大时,G近似服从自由度为待检因素个数的χ2分布. 记分检验(score test) 记分检验( ) 以未包含待检变量的模型为基础,保留模型中参数的估计值, 并假设新增加的参数为零,计算似然函数的一阶偏导数(称有 效记分)及信息矩阵,两者相乘便得记分检验统计量S.样本量 较大时,S近似服从自由度为待检因素个数的χ2分布. 还有Wald检验等多种检验方法,此处从略.
十三、logistic回归模型

非条件logistic回归
模型简介
❖
简单分析实例
内
容
哑变量设置
提
自变量的筛选方法与逐步回归
要
模型拟合效果与拟合优度检验
模型的诊断与修正
条件logistic回归
模型简介
对分类变量的分析,当考察的影响因素较少,且也为分类 变量时,常用列联表(Contingency Table)进行整理,并 用2检验或分层2检验进行分析,但存在以下局限性:
.184
Wal d 6.391
30.370 6.683 4.270
33.224
df 1 1 1 1
1
Sctep lwt
3
ptl
-.015
.007
5.584
1
.728
.327
4.961
1
ht
1.789
.694
6.639
1
Constant
.893
.829
1.158
1
a. Variable(s) entered on step 1: ptl.
模型拟合效果检验
结果分析
Area Under the Curv e
Test Result Variable(s): Predicted probability
Area Std. Errora
.708
.043
Asymptotic Sigb. .000
Asymptotic 95% Confidence Interval
❖ 给出了模型拟合过程中每一步的-2log(L)及 两个伪决定系数。
逐步回归
结果分析
Variables in the Equation
Logistic回归

2 2 2 3
0 1 1 1
1 1 0 1
1 1 1 0
0 0 0 1
1 0 0 0
2 2 1 3
1 1 1 1
1 1 1 1
学会看结果!
表16-4 例16-2进入方程中的自变量及有关参数的估计值 选入 回归系 标准误 Wald 标准回归 ˆ 2 P值 OR Sb 变量 数b 系数 b’
常数项 X1 X5 X6 X8
单纯从数学上讲,与多元线性 回归分析中回归系数的解释并无不 同,亦即bi表示xi改变一个单位时, logit P的平均变化量。
变量筛选
方法:前进法、后退法和逐步法。 Wald 统计量和计分统计量之一。
检验统计量:不是 F 统计量,而是似然比统计量、
例16-2 为了探讨冠心病发生的有关危险因素,对26
第三节 Logistic回归分析的方法与步骤
一.准备资料:
(一)资料审核: 1.资料的性质: (1)因变量P必须是限于0-1之间的数据或二分类数据(0,1) (2)自变量的要求则随所用的Logistic回归分析方法不同而有所区别。 若采用Logistic判别法,则要求自变量X1,X2,…,XP服从下列①或②或 ③或④。若采用Logistic最大似然法,则要求自变量X1,X2,…,XP服从 下列②或③或④或⑤。 ①要服从多元正态分布且协方差距阵相同 ②自变量X1,X2,…,XP为多元独立的二分类变量 ③自变量X1,X2,…,XP都服从对数正态的离散变量 ④为①和③两项同时存在 ⑤自变量X1,X2,…,XP不一定符合正态分布
例冠心病病人和28例对照者进行病例对照研究,各
因素的说明及资料见表16-2和表16-3。试用logistic 逐
步回归分析方法筛选危险因素。
二元logistics回归结果解读

二元Logistic回归是一种用于预测离散变量的机器学习模型,可以用来预测一个事件是否发生或者预测一个物体属于哪一类。
其结果解读如下:1. 估计的回归系数:回归系数的符号表示自变量与因变量之间的相关关系,正值表示正相关,负值表示负相关。
回归系数的绝对值越大,表示该自变量对因变量的影响越大。
2. OR值:OR值是用来衡量自变量对因变量的影响程度,如果OR值大于1,说明自变量对因变量的影响程度比参考类别更大,反之则更小。
3. P值:P值是用来判断回归系数的显著性水平,如果P值小于设定的显著性水平(如0.05),则说明该自变量对因变量的影响是显著的。
4. 95%置信区间:置信区间是用来衡量回归系数的可信程度,如果置信区间不包含1,则说明该自变量对因变量的影响是显著的。
5. R方值:R方值是用来衡量模型拟合程度的一个指标,其值越大表示模型拟合程度越好。
但是需要注意的是,R方值的解释需要谨慎,因为其值可能会受到样本量、数据分布等因素的影响。
在解读二元Logistic回归结果时,需要注意以下几点:1. 模型假设条件:二元Logistic回归的假设条件包括比例风险假设、独立性假设和正态性假设等。
如果数据不符合这些假设条件,则需要对模型进行调整或者采用其他模型进行预测。
2. 变量选择:在选择自变量时,需要考虑到其与因变量的关系以及其在模型中的贡献。
如果某个自变量对因变量的影响不大或者与其他自变量存在高度相关性,则可以考虑将其从模型中移除。
3. 结果解释:在解释结果时,需要注意回归系数的符号、OR值、P 值以及95%置信区间等信息。
同时还需要结合实际业务背景和专业知识进行综合分析,以便更好地理解结果并做出决策。
Logistic回归分析

Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。
适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。
一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。
二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。
变量筛选的原理与普通的回归分析方法是一样的,不再重复。
三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。
(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。
当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。
四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。
例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。
Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。
logistic 回归模型和logit模型

Logistic回归模型和Logit模型都是常用的统计模型,它们在应用和特点上有一些不同。
Logit模型是线性概率模型在定量分析中的一种,但在分析分类变量时会遇到困难。
例如,当因变量是分类变量时,线性回归模型可能无法准确预测结果,因为对自变量的限定性不强,且因变量必须是连续变量。
另一方面,Logit模型的响应变量可以是多元的,也可以是多分类的。
Logistic回归模型属于回归分析,其分析结果为估计出自变量参数。
当因变量是多类的,Logistic回归模型同样适用,计算结果与Logit 模型并无多少差别。
总结来说,Logistic回归模型和Logit模型虽然都是常见的统计模型,但它们在应用和特点上有所区别。
选择使用哪种模型取决于研究目标、数据类型和分析需求等因素。
Logistic回归

为了探讨冠心病发生的有关危险因素,对26例冠心 病病人和28例对照者进行病例−对照研究,各因素 的说明见下表2。试用logistic逐步回归分析方法筛 ( 选危险因素 。α 入 = 0.10,α出 = 0.15)
X为自变量:X 1 , X 2 ,L , X m 为自变量: 为自变量 取值为1的概率为 则Y取值为 的概率为: 取值为 的概率为:
P = P{ = 1 X 1 , X 2 ,L, X m } Y
0 ≤ P ≤1
Logistic回归模型可表示为:
e β + β X + β X +L+ β X P= 1 + e β + β X + β X +L+ β X
0 1 1 2 2 m m 0 1 1 2 2 m
m
P=
1 1+ e
−( β + β X + β X +L+ β X )
0 1 1 2 2 m m
P ln = β 0 + β1 X 1 + β 2 X 2 + L + β m X m 1− P
P 为阳性与阴性结果发生概率之 ln 1− P 比的自然对数,称为P的logit变换 ,记为
df 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Sig. .010 .097 .007 .008 .005 .016 .010 .034 .002 .053 .044 .012 .021 .002
Exp(B) 16.875 .593 6.219 21.303 .278 5.597 20.656 5.277 .095 2.519 4.464 23.000 7.008 .009
LOGISTIC回归

一、回归分析的分类logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。
根据1个因变量与多个因变量之分,有以下区分:①一个因变量y:I连续形因变量(y)——线性回归分析II分类型因变量(y)——Logistic 回归分析III 生存时间因变量(y)——生存风险回归分析IV时间序列因变量(y)——时间序列分析②多个因变量(y1,y2,……yn):I 路径分析II 结构方程模型分析在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。
(1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。
当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。
(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。
(3)logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系。
二、logistic回归分析(一)logistic回归的分类(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。
非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。
(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。
队列研究(cohort study):也称前瞻性研究、随访研究等。
是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。
logistic回归模型的基本原理

logistic回归模型的基本原理Logistic回归模型的基本原理Logistic回归模型是一种常用的分类算法,它可以用于预测二元变量的概率。
该模型基于线性回归模型的基本思想,并通过使用逻辑函数(也称为sigmoid函数)将其结果转换为概率值。
一、逻辑函数的定义逻辑函数是一种S形曲线,可以将任意实数映射到区间(0,1)上。
它的数学表达式为:f(z) = 1 / (1 + e^(-z))其中,e为自然对数的底,z为输入变量。
逻辑函数具有以下特点:- 当z趋近于正无穷大时,f(z)趋近于1;- 当z趋近于负无穷大时,f(z)趋近于0;- 当z等于0时,f(z)等于0.5。
二、模型假设Logistic回归模型基于以下假设:1. 响应变量y是二元变量,取值为0或1;2. 假设y服从二项分布(Binomial distribution);3. 假设响应变量y的概率与输入变量x之间存在线性关系。
三、模型表达式假设我们有n个输入变量x1, x2, ..., xn,对应的系数为β1, β2, ..., βn。
那么Logistic回归模型的表达式为:P(y=1|x) = f(β0 + β1x1 + β2x2 + ... + βnxn)其中,β0为截距。
四、模型参数估计为了得到Logistic回归模型的参数,我们需要使用最大似然估计(Maximum Likelihood Estimation)方法。
该方法的目标是选择一组参数值,使得根据模型预测的概率值与观测到的实际结果之间的差异最小化。
最大似然估计的核心思想是,找到一组参数值,使得在给定参数条件下,观测到的数据出现的概率最大。
对于Logistic回归模型,我们可以使用对数似然函数来进行最大似然估计。
五、模型训练与预测模型训练是指利用已知的训练数据来估计模型的参数。
在Logistic 回归模型中,可以使用梯度下降(Gradient Descent)等优化算法来最小化对数似然函数,从而得到模型的参数值。
logistic回归结果解读

logistic回归结果解读Logistic回归是一种分类方法,主要应用于预测响应变量是二进制的情况,比如成功与失败、健康与疾病、风险与无风险等。
它相当于在特征区间内,将所有样本划分为两类,从而实现对数据集中每个样本的分类,并有效地实现了二元分类。
在衡量模型效果方面,logistic回归采用了准确率、召回率和ROC曲线等评估指标,可以更好地检验模型的性能。
Logistic回归结果解读是指解读Logistic回归模型的输出结果,其中包括:模型的性能、特征的重要性、概率和拟合度等。
首先,模型的性能是模型解释的重点。
Logistic回归模型一般使用AUC(Area Under Curve)值来衡量模型的性能,AUC值越大,模型的性能越好。
此外,查准率(Precision)和查全率(Recall)也是用来评估Logistic 回归模型性能的重要指标,查准率表示样本中被正确预测的个体占预测个体总数的比率,而查全率表示样本中被预测正确的个体占实际个体总数的比率。
其次,Logistic回归模型的参数可以用来判断特征变量对模型的重要性,通常来说,Wald检验的p值越小,特征变量对模型的重要性越大,反之,特征变量对模型的重要性越小。
最后,Logistic回归模型可以给出每个样本的概率,这样可以更加直观地看出模型的拟合度。
如果模型拟合度较差,说明存在模型拟合不足,此时可以对模型进行调整,比如添加新的特征变量或者更改模型的参数,以提高拟合度。
总的来说,Logistic回归结果的解读是一个重要的环节,它可以帮助我们更好地理解模型的性能、特征的重要性以及概率和拟合度。
只有解读了模型的结果,才能更好地分析模型的效果,并对模型进行调整,以达到更好的性能。
Logisitic回归

6.标准化回归系数
14
三.病例对照研究的Logistic回归模型:
设从病例和对照的人群总体中各按抽样比例 1 和 2 , 分别抽取一部分病例和对照组成一个随机样本。 这样一个具有X=( X1,X2,…,XP)的个体是病例且被抽到 样本中的概率为Px1,是病例而未被抽到样本中的概率 为Px(1-1)。
函数L达到最大的参数估计值称为最大似然值。为求得 最大似然估计值βi,往往需要借助专用程序在计算机上 迭代运算。 同样的工作还有最大似然估计值计算近似标准误、可
信区间以及显著性检验。
23
谢谢!
24
logisticregression天津医科大学公共卫生学院卫生统计学教研室majuntmueducnlogistic在医学研究中经常遇到应变量为二项分类的资料如治愈与未治愈生存与死亡发病与未发病等可以概括为阳性与阴性两种互斥结果同时存在可能对分类结果发生概率产生影响的因素即自变量
Logistic回归分析
生了冠心病。
9
1.发病率的估算:
根据表2-1中所估计的参数,利用公式2-3,得:
Px=P(d=1/X) = 1/ {1+exp[-(β 0+β 1X1+…+β 7X7)]} =1/{1+exp[-(-13.2573+0.1216X1+…+0.7206X7)]}
如:X=(45,210,130,100,12,0,0)
(Logistic regression)
天津医科大学公共卫生学院 卫生统计学教研室 马 骏 majun@
在医学研究中经常遇到应变量为二项分类的
资料,如治愈与未治愈、生存与死亡、发病与
未发病等,可以概括为阳性与阴性两种互斥结
logistic回归预测模型案例

logistic回归预测模型案例
以下是一个使用Logistic回归进行预测的案例:
我们使用Logistic回归来预测患有疝气病症的马的存活问题。
数据集包含299个训练样本和67个测试样本,每个样本有21个特征值。
这些特征可
能代表各种因素,例如马的年龄、体重、健康状况等。
首先,对特征值和因变量(存活率)进行二元Logistic回归分析,以确定哪些特征对存活率有影响。
分析过程中,可以使用方差分析来研究连续型变量(如年龄、体重等)与“是否违约”的关系,或者使用卡方检验来研究分类变量(如健康状况、疾病状况等)与“是否违约”的关系。
确定好分析项之后,进行Logistic回归分析,并解决回归分析中可能出现的多重共线性问题。
在这个过程中,可以采用随机抽样的方法来更新回归系数,以确保新数据仍然具有一定的影响。
通过这个过程,可以构建一个预测模型,以根据马的特征预测其存活率。
这样的模型可以帮助我们更好地理解影响马存活的各种因素,并优化马的健康管理和治疗策略。
以上案例仅供参考,如需更多信息,建议咨询统计学专业人士或查阅统计学相关书籍。
logistic回归模型

logistic回归模型一、模型简介在实际分析中,有时候因变量为分类变量,例如阴性阳性、性别、血型等,此时使用线性回归模型进行拟合会出现问题。
因此,我们需要找出其他解决思路,那就是logit变换(逻辑变换)。
逻辑变换将某种结果出现的概率和不出现的概率之比称为优势比P/(1-P),并取其对数,使之与自变量之间呈线性关系,从而解决了线性回归模型无法保证因变量只有两个取值的问题。
经过逻辑变换的线性模型称为logistic回归模型(逻辑回归模型),属于广义线性回归模型的范畴。
逻辑回归可以预测某个结果出现的概率,对因变量进行变换的方法很多,并不只有逻辑变换一种。
二、模型估计方法逻辑回归不能使用普通最小二乘估计,而使用极大似然估计或迭代重加权最小二乘法IRLS(XXX)。
使用极大似然估计的好处是,这是一种概率论在参数估计中的应用,正好和我们对因变量的概率预测相符合。
极大似然估计基于这样的思想:如果某些参数能使这个样本出现的概率最大,那就把这个参数作为估计的真实值。
三、优势比odds根据因变量的取值不同,逻辑回归可以分为四种:二分类逻辑回归、有序多分类逻辑回归、无序多分类逻辑回归、配对逻辑回归。
优势比odds是逻辑回归中的一个重要概念,指某种结果出现的概率和不出现的概率之比,通过逻辑变换,优势比可以被用作因变量进行拟合。
对于一些特殊情况,还需具体问题具体分析,不能一味地使用逻辑变换。
在二分类逻辑回归中,自变量可以是连续变量、二分类变量和多分类变量。
对于多分类变量,需要引入哑变量进行处理。
哑变量也称为虚拟变量,取值通常为0或1,代表参照分类和比较分类。
需要注意避免共线性,定义k-1个哑变量(包含截距)或k个哑变量(不包含截距)。
有序多分类变量指各因变量之间存在等级或程度差异。
对于因变量为有序分类变量的数据,可以通过拟合因变量个数-1个的逻辑回归模型,称为累积逻辑模型来进行。
这种方式依次将因变量按不同的取值水平分割成若干个二分类变量,然后再依次拟合二分类逻辑回归模型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 1
x x x
2 2 i
i
(8) 或:
l p / 1 p )] i xi n[ (
曲线LOGISTIC 回归模型公式:
P e 1 e P 1 e
i xi i xi i xi)
1
(
即单因素线性LOGISTIC 回归模型公式;
“p=在暴露变量E下有病D的概率 ” 解(1)式中以p为反应变量的方程,得:
e 1 e x
x
(2)
即单因素曲线LOGISTIC 回归模型公式。
单因素非条件LOGISTIC模型参数的解释
ln [p/(1-p)] = + x
二、概念的引入
按线性回归思想可建立模型: P=α +β X 期望P的意义是发生出生低体重的概率
在线性回归模型中,X的取值是任意的,
P值可能大于1或小于0,无法从医学意义 进行解释, 显然不适宜用线性回归分析 建立预测模型。
为避免P值大于1或小于0, 我们对P进行logit(即 logistic)变换, 把logit(P)作为因变量,即 : Logit(P)= + x
logit(P)可以从–∞到+ ∞之间取任何值
准确地说, logistic回归不是分析y与x的关系,而是建立一个概率 函数P=P(x),分析y取某个数值时的概率p与x的关系。
三、非条件Logistic回归分析与列联表分析之间的关系
队列研究:
D+ D-
E+
a
b
a+b
用ln [p/(1-p)]代替 p进行 模型拟合称为p的logit变 换,对应的模型称为logit 模型。
ln[ p /(1 p)]
1 1
x x x
2 2 i
i
或:
l p / 1 p )] i xi n[ (
曲线LOGISTIC 回归模型公式:
P e 1 e P 1 e
i xi i xi i xi)
1
(
P e 1 e P 1 e
CHD危险因素定群研究(12年追踪观察结果) 变量 截距 参数i
i估计值 i标准误
-13.2573
标化i
年龄(岁)
胆固醇(mg/dl) BP(mmHg) 相对体重(W/H) 血红蛋白(mg%) 吸烟(0,1,2,3)
ECG(0,1)
0 1 2 3 4 5 6 7
0.1216
40-
病例组 对照组
45-
病例组 对照组
Data aa; Do age =1 to 5; Do r =1 to 2; Do c =1 to 2; Input freq @@; Output; End; End; End; Cards; 4 2 62 224 9 12 33 390 4 33 26 330 6 65 9 362 6 93 5 301 ; Run;
冠心病 血中儿茶酚胺水平 高 低 合计 发病 27(a) 44(c) 71(a+c) 未发病 95(b) 443(d) 538(b+d) 合计 122(a+b) 487(c+d) 609(a+b+c+d)
Mantel-Haenszel检验
Data aa; Do r=1 to 2; Do c=1 to 2; Input freq @@; Output; End; End; Cards; 27 95 44 443 ; Run; Proc freq; Tables r*c/nopercent nocol chisq cmh; Weight freq; Run;
:变量 X 之外其他因素的影响 :自变量 X 的回归系数,大小由因素 X 决定。 = 0 表明 P与 X 无关, 发病不由因素 X 决定; > 0 表明 P与 X 有关, 变量 X 是疾病发生的危险因素; < 0 表明 P与 X 有关, 变量 X 是疾病发生的保护因素。
2. 多因素LOGISTIC 回归模型与混杂因素的控制 线性LOGISTIC 回归模型公式:
子宫内膜癌与口服雌激素的关系
暴 组 别 露 合计 183(a+b)
使用过雌激素 未用过雌激素 55(a) 128(b)
病例组 (子宫内膜癌患者) 对照组 (非子宫内膜癌患者) 合计
19(c)
164(d)
183(c+d)
74(a+c)
292(b+d)
366(a+b+c+d)
Mantel-Haenszel检验
Data aa; Do group=1 to 2; Do exposure=1 to 2; Input freq @@; Output; End; End; Cards; 55 128 19 164 ; Run; Proc freq; Tables group*exposure/nopercent nocol chisq cmh;
OR < 1 表明疾病D与因素 x 有关,变量 x 是疾病发生的保护因素。
对于队列研究,假设研究一个二值暴露变量X与某一疾病之 间的关联:
设暴露组(E+)发病的概率为P1,则其发病与不发病的概率比
为: Odds= P1 /(1- P1) (3)
设非暴露组(E-)发病的概率为P0,其发病与不发病的概率比为: Odds= P0 /(1- P0) (4)
1 x1 2 x 2 i x i 1 x1 2 x 2 i x i
1
(
1 x1 2 x 2 i x i )
建立的CHD影响因素的Logistic回归模型,公式如下: p=1/{1+exp[-(-13.2573 + 0.1216x1 + 0.0070x2 + + 0.7206 x1)]} 该多因素LOGISTIC回归分析模型的用途:
SMOKE 吸烟史: 1 吸烟 0 否
PTL
HT UI
早产史: 1 有
0无
妊娠高血压: 1 有 0 无 频繁宫缩: 1 有 0 无
FTV
BWT
产前访视次数
出生体重(克)
问题的提出(续)
在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等; 分析“母亲怀孕期间体重”对“新生儿出生低 体重”的影响
Weight freq;
Run;
分层分析Mantel-Haenszel检验
按年龄分层的心肌梗塞与口服避孕药的关系
年龄分层 25组别 病例组 对照组 30病例组 对照组 服过避孕药 4 62 9 33 未服过 2 224 12 390
35-
病例组
对照组
4
26 6 9 6 5
33
330 65 362 93 301
危险度分析和 logistic 回归分析
How to lie with statistics
需要掌握的内容
危险度分析
Logistics回归的概念
Logistics回归参数解释(OR、RR的计算) Logistics回归分析的用途 Logistics回归的适用条件
危险度分析
研究血液中儿茶酚胺水平与冠心病发病之间的关系, 对609名男子按血液中儿茶酚胺水平分为高、低两组, 经过10年追踪观察,结果见下表,试作危险度分析。
Proc freq; Tables r*c/nopercent nocol chisq cmh; Tables age*r*c/nopercent nocol chisq cmh; Weight freq; Run;
出生体重危险因素研究
一、问题的提出
分析 “新生儿出生体重”的影响
新生儿出生时的体重为因变量
:与变量 xi 无关的因素的影响;
1
x x x
1 2 2 i
i
i : 自变量 xi 的回归系数,大小由因素 xi 决定,是控
制了其他因素的混杂效应后的 i值。 i = 0: 表明 P与 xi 无关,
发病不由因素 xi 决定;
i > 0: 表明 P与 xi 有关, 变量 xi是疾病发生的危险因素; i < 0: 表明 P 与 xi 有关, 变量 xi 是疾病发生 的保护因素。
根据OR定义,得: OR=[ P1 / (1-P1 )] / [P0 / (1-P0)] (5) 两边取自然对数,得: ln OR=ln[ P1 / (1-P1 )] - ln[P0 / (1-P0)] (6) 用Logit P的值带入,得: ln OR=Logit P1-Logit P0=(1+1x1)-(0+0x0) 队列研究中假定暴露人群和非暴露人群影响疾病发生的 其他因素均相同,则可认为: 1 = 0 ; 在非暴露人群中不暴露研究因素,可知:x0 = 0, 带入,得: lnOR = (1 + 1x1) - (0 + 0x0 ) = 1x1 则: OR=Exp[(1 + 1x1) - (0 + 0x0 )]=Exp(1x1) (7) 即: OR=e1
E-
c
d
c+d
a+c
b+d
a+b+c+d
ln [p/(1-p)] 可简记为logit P
1.如果以logitP为因变量,暴露因素X为自变量, 建立直线回归方程: Logit P = + x 由 Logit P = ln [p/(1-p)] 可导出: ln [p/(1-p)] = + x (1)