Logistic回归分析2019

合集下载

Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。

比较常用得情形就是分析危险因素与就是否发生某疾病相关联。

例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。

自变量既可以就是连续变量,也可以为分类变量。

通过Logistic回归分析,就可以大致了解胃癌得危险因素。

Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。

多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。

1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。

2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。

Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。

如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。

这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。

如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。

19Logistic回归分析

19Logistic回归分析

19Logistic回归分析第十九章 Logistic 回归分析[教学要求]了解:logistic 回归模型的基本结构;参数估计的基本思想;如何用logistic 回归模型做预测。

熟悉:logistic 回归系数的假设检验和区间估计方法;条件logistic 回归与非条件logistic 回归的适用条件;如何用logistic 回归校正混杂因素和筛选因素。

掌握:logistic 回归分析的用途;logistic 回归系数的流行病学意义及其与优势比或相对危险度的关系。

[重点难点]第一节 Logistic 回归模型的基本概念基本概念线性logistic 回归模型为X PP Y ββ+=?=0)1ln(。

Logistic 回归模型又可表示为XX e e P ββββ+++=001。

第二节 Logistic 回归的参数估计及假设检验一、基本概念最大似然法的基本思想:先建立似然函数和对数似然函数;求似然函数或对数似然函数达到极大时参数的取值,称为参数的最大似然估计值。

Logistic 回归模型常数项:表示在其它自变量均为零时死亡(或发病)优势(odds) 的对数值,当死亡(或发病)概率很低时,不死亡(或不发病)的概率接近1,该值近似等于自然死亡率(或发病率)。

βLogistic 回归系数的意义:设是变量X 的logistic 回归系数,exp()是其它变量取值固定时,该变量与疾病关联的优势比(),反映了危险因素X 与疾病关联的程度。

ββ?∧OR二、计算似然比检验的统计量是G =-2ln L -(-2ln L ’)Wald 检验统计量是22))?(?(ββχSE =回归系数的区间估计: )?(?2/ββαSE Z ±第三节条件l ogistic 回归模型一、基本概念条件logistic 回归模型的结构:设只有一个自变量X ,假定个体得病的概率正比于)exp(0X ββ+,即)exp()1(0A A X Y P ββ+∝=,)exp()1(0B B X Y P ββ+∝=。

logistic回归分析及其应用-41页文档资料

logistic回归分析及其应用-41页文档资料
多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
21.03.2020
2
F(y) :因变量的logit值
1.00
0.75
0.50
0.25
0.00 -4.00 -2.00 0.00 2.00 4.00
X:自变量
21.03.2020
如果一定要进 行直线回归也 可以做出结果, 但此时效果不 佳。当自变量 取一定值时, 因变量的预测 值可能为负数。
21.03.2020
14
2.哑变量的设置和引入
哑变量,又称指示变量或设计矩阵。 有利于检验等级变量各个等级间的变 化是否相同,但主要适合于无序分类变 量。 一个k分类的分类变量,可以用k-1个 哑变量来表示。
21.03.2020
15
哑变量的设置
教育程度:文盲,小学,初中,高中以上
教育程度 X1
X2
X3
文盲:0 0
0
0
小学:1 1
0
0
初中:2 0
1
0
高中:3 0
0
1
以文盲作为参考组
21.03.2020
16
以高中作为参照
教育程度
X1
X2
X3
文盲:010 Nhomakorabea0
小学:1
0
1
0
初中:2
0
0
1
高中:3
0
0
0
21.03.2020
17
SPSS提供的方法
Indicator: 默认。以第1 或最后1类作对照,其他每类 与对照比较; Sample: 以第1 或最后1类作对照,其他每类与对照比 较,但反映平均效应。 Difference: 除第1类外各分类与其前各类平均效应比较; Helmert: 除最后1类外各分类与其前各类平均效应比较; Repeated: 除第1类外各分类与其前一类比较; Polynomial: 假设类间距相等,用于数值型变量。 Deviation: 以第1 或最后1类作对照,其余每类与总效 应比较。

Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。

比较常用的情形是分析危险因素与是否发生某疾病相关联。

例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。

自变量既可以是连续变量,也可以为分类变量。

通过Logistic 回归分析,就可以大致了解胃癌的危险因素。

Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。

多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。

1.Logistic回归的用法一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。

2.用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。

Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。

如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。

这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。

如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。

撇开了参照组,相对危险度就没有意义了。

logistic回归分析PPT精品课程课件讲义

logistic回归分析PPT精品课程课件讲义

问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进

Logistic回归分析报告结果解读分析

Logistic回归分析报告结果解读分析

L o g i s t i c回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。

比较常用的情形是分析危险因素与是否发生某疾病相关联。

例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。

自变量既可以是连续变量,也可以为分类变量。

通过Logistic回归分析,就可以大致了解胃癌的危险因素。

Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。

多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。

1.Logistic回归的用法一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。

2.用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。

Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。

如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。

这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。

如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。

Logistic回归分析 ppt课件

Logistic回归分析  ppt课件

Logistic回归分析
Logistic回归模型: Logit(p)=ln(p/(1-p))=β0+β1x1+β2x2+βnxn
Y=Logit(p) 的图形如下 (随p由0变到1,Y的值由-∞单调上升到∞)
5
Logistic回归分析
上模型称为Logistic回归模型.其中最简单的情况
0
3
0
8
31
PPT课件
20
Logistic回归
进入分析家并打开数据集 选择统计/回归/Logisti
YDependent,xQuantitative <Variables>/countFrequency 点击Model{}右侧的箭头,并选0(y=0
为发病) ok
1
Logistic回归分析
描述属性变量Y所表示的某一特征发生的可 能性大小(即概率p),也希望用一些自变量x1, x2,...来说明和预测。特别是两值问题(Y=0表示 某事件A不发生,Y=1表示发生):记
P{Y=1}=p
p的取值在0与1之间变化,所以简单地将 概率p表示为自变量x1, x2,....的线性函数 是不合适的。
4.6978=570.649-565.951 其对应的P值小,建模效果显著
12
结果分析
参数估计值
• (Analysis of Maxamum Likelihood Estimates)
回归方程:
• Logit(p)=-0.7566+0.4373*sex • 由检验的显著性概率值(分别为0.001和0.0312)可知
PPT课件
23
结果
结果:
1.Ln(p/(1-p))=1.9924-2.7462x3 有巩固治疗x3=1,Ln(p/(1-p))=-0.7538 p/(1-p)=0.471,p=0.471/1.471=0.32 有巩固治疗一年内死亡的概率是0.32 2.无巩固治疗x3=0,Ln(p/(1-p))=1.9924 p/(1-p)=7.33,p=7.33/8.33=0.88 无巩固治疗一年内死亡的概率是0.88

《logistic回归分析》PPT课件

《logistic回归分析》PPT课件
3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1

p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。

logistic回归分析

logistic回归分析

hdl
-.914
.432
4.484
1
.034
.401
.172
.934
ldl
.017
.416
.002
1
.967
1.017
.450
2.300
Constant -20.207
4.652 18.866
1
.000
.000
a. Vari able(s) ente red o n step 1: 性 别 , 年 龄 , 学 历 , 体 重 指 数 , 家 族 史 , 吸 烟 , 血 压 , 总 胆 固 醇 , 甘 油 三 脂 , hd l, ldl.
1 p
1
1 exp( 0 1 X 1 p X p )
模 型
ln

1
P P

=0

1
X1

2
X
2

m X m log itP
参 数
常数项 0
表示暴露剂量为0时个体

发病与不发病概率之比的自然对数。
意 义
回归系数 j ( j 1,2,, m) 表示自变量 X j 改变一个单位时
t j
t j
j (c1 c0 )
即 ORj exp[ j (c1 c0 )]
若X
j

1 0
暴露 非暴露 , c1 c0 1,
0,
OR j
1
无作用
则有 ORj exp j , j >0, ORj 1 危险因子

0, ORj 1 保护因子
开始变量都在方程中,然后 按自变量因变量的贡献(P值的大 小)由大到小依次剔除,变量剔 除的条件是其P值大于规定的剔除 标准Remove, 缺省值 p(0.10)。

logistic回归分析副本(共53张PPT)

logistic回归分析副本(共53张PPT)

ln OR j
ln
P1 P0
(1 (1
P1 ) P0 )
=
ln( P1 ) ln( P0 )
1 P1
1 P0
= j (c1 c0 )
则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
(2)多分类资料logistic回归: 因变量为多项分类的资料,可用多项分类 logistic回归模型或有序分类logistic回归模型进行分析。
队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研究,在
研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一 定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡 率差别有统计学意义,则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研 究开始前已存在,研究者知道每个研究对象的暴露情况。
或率比(rate ratio)。 RR Ie a /n1 、 I e a / n1 、 I 0 c / n2
I0 c / n0
RR(相对危险度relative risk):表示暴露组与非暴露组发病 率(或死亡率)的比值。也称为危险比(risk ratio)。反映了 暴露与疾病发生的关联强度。
病例组暴露的比值 、对照组暴露的比值 a /(a b) c /(c d ) 1、成组匹配(category matching):匹配的因素所占的比例,在对照组和在病例组一致。
匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。

Logisic回归分析PPT课件

Logisic回归分析PPT课件

OORˆ2Rˆ2OOeeRRxx2eˆpp2x(bp的b2bO2e29xRO5pe21Rxˆbe的 .2p2x9可p06.e09S5信ex.5b2x5p26p区2)b1260可 1.间5e1e2x信 :x.616pp1.O9(6区 009.R5.15间 22.266的169: 1
1.69
951.96可 0信.15区72间) :
例冠心病病人和28例对照者进行病例对照研究,各
因素的说明及资料见表16-2和表16-3。试用logistic 逐
步回归分析方法筛选危险因素。
(入 0.10,出 0.15)
39
21
表16-2 冠心病8个可能的危险因素与赋值
因素
变量名
赋值说明
年龄(岁)
X1 <45=1, 4554=2, 5564=3, 65=4
及其注意事项
39
3
目的:作出以多个自变量(危险因素)估计
应变量(结果因素)的logistic回归方程。
属于概率型非线性回归。
资料:1. 应变量为反映某现象发生与不发生的
二值变量;2. 自变量宜全部或大部分为分类
变量,可有少数数值变量。分类变量要数量
化。
39
4
用途:研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。
(1.24,
2.30)
OOR2R的 2 O的R92 59的5可9可 5ex信 p信(可 b区2区信 间1间 .9区 :6:S间 b2 ) : eexxpp((0b.52 2611.961.S9b62 )0.1e5x7p2()0.5(216.214, 21..3906) 0
exepx(pb(2ebx2 p1(.1b9.269S61bS2.b)92 6) Sebx2ep)x(p0(e.05x.25p62(106.1512.6191.6936910..9016.5175207).21)57(12(.1)2.42,4(21,.2.32.034)0, 2).30) 19

Logistic回归分析重点难点PPT课件

Logistic回归分析重点难点PPT课件
第十六章 Logistic回归分析
Logistic Regression Analysis
第1页/共65页
教学内容
流行病学概念回顾 第一节 非条件Logistic回归分析 第二节 条件Logistic回归分析
第三节 Logistic回归分析的应用 及注意事项
Department ofHealth Statistics
X2
mX
m
)
这就摆脱了二值反应变量在一般线性回归分析中可能出现的应变量值域的窘境。
其中,为常数项, 1 , 2 ,, m 称为回归系数。
Department ofHealth Statistics
第25页/共65页
Logistic曲线
11 P
00..55
Z : , 0,
P : 0, 0.5, 1
(对发病率较 低的疾病)
a / b ad / bc OR c/d
第13页/共65页
一个病例对照研究资料
一项膀胱癌患者及对照者吸烟史资料如下:
观察组
有吸烟史
无吸烟史
膀胱癌患 者
192(a)
156(b)
对照者
129(c)
181(d)
合计
321
337
合计
348 310 658
则吸烟的 ROR (ad) /(bc) 1.727 。
0101jjjjjjorororor???????????????无作用危险因保子护因子则有10110jccx??????暴非若暴露露10expjjorcc???即模型参数的意义departmentofhealthstatistics321100111ppporrrpp??????当则有模型参数的意义由于jor值与模型中的常数项0?无关0?在危险因素分析中通常视其为无效参数

Logistic回归分析简介

Logistic回归分析简介

Logistic回归分析简介Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。

1.应用范围:①适用于流行病学资料的危险因素分析②实验室中药物的剂量-反应关系③临床试验评价④疾病的预后因素分析2.Logistic回归的分类:①按因变量的资料类型分:二分类多分类其中二分较为常用②按研究方法分:条件Logistic回归非条件Logistic回归两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。

3.Logistic回归的应用条件是:①独立性。

各观测对象间是相互独立的;②LogitP与自变量是线性关系;③样本量。

经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。

4.拟和logistic回归方程的步骤:①对每一个变量进行量化,并进行单因素分析;②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。

可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。

③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。

可以采用双向筛选技术:a进入变量的筛选用score统计量或G 统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。

统计学-logistic回归分析ppt课件

统计学-logistic回归分析ppt课件

最新版整理ppt
38
九、logistic回归的应用举例
• 输精管切除术与动脉粥样硬化疾病的研究
• 1.问题的描述
(1)输精管切除术是否与动脉粥样硬化疾病 有关?
(2)如果存在联系,与其他已知的危险因素 相比,输精管切除术的相对重要性有多大?
(3)哪些男性亚群在输精管切除术以后发生 动脉粥样硬化疾病的可能性特别大?
• 条件Logistic回归的回归系数检验与分 析,和非条件Logistic回归完全相同。
最新版整理ppt
36
八、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(βi)和OR说明 危险因素与疾病的关系。
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。

p (y 1 /x 1 ,x 2 x k) 1 e (0 1 1 x k ....kx k)
最新版整理ppt
10
2.模型中参数的意义
ln1PP=01X1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln1PP (y(y 1/0x/x 0)0)=0
最新版整理ppt
调查员审阅每日住院病人情况如果诊断适合研究的范围将病例转给心脏病主任医师作评估由他做出病例诊断是否合格的决定调查人员核对病人背景资料是否合格如果病人满足诊断标椎和背景资料合格调查人员开始询问并填写调查表每完成5个病例和10个配对对照以后请研究中心的工作人员对调查表进行评估重复以上步骤
第十六章 logistic回归分析
最新版整理ppt
28
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或

13logistic 回归(研)

13logistic 回归(研)
吸烟、饮酒与食管癌关系的病例-对照研究资料 分 层 吸烟 X1 饮酒 X 2 总例数 ng g 病例数 1 2 3 4 0 0 1 1 0 1 0 1 199 170 101 416 63 63 44 265
对照数 136 107 57 151
首先确定变量的赋值或编码:
1 吸烟 X1 0 不吸烟
当分层较多时,由于要求各格子中例数不 能太少,所需样本较大,往往难以做到;
当混杂因素较多时,分层数也呈几何倍数 增长,这将导致部分层中某个格子的频数为 零,无法利用其信息。
2019/1/31
5
食管癌 对照 合计
食管癌与对照的吸烟史比较 吸烟 不吸烟 309(a) 126 (b) 208(c) 243(d) 435(m1) 451(m2)

即:
P P 1 (1 P 1) OR 1 RR P0 (1 P0 ) P0
2019/1/31
21
参数估计与假设检验
•参数估计:构造似然函数,采用极大似然函 数法求解
•假设检验

似然比法 检验法
Wald
2019/1/31
22
例题:吸烟、饮酒与食管癌关系的病例-对照研究资料, 试进行 logistic 回归分析。
2019/1/31
表示扣除了其它自变量影响后危险因素 X j 的作用。
19
设 X j 为两分类变量: c1 =1 为暴露, c0 =0 为非暴露, 则暴露组和非暴露组发病的优势比为: OR OR exp( j) j e exp j
j
当 j =0 时, ORj =1,表示因素 X j 对疾病的发生不起 作用; j >0 时, ORj >1,表示 X j 是一个危险因素;

论文经典方法:Logistic回归分析及其应用PPT课件

论文经典方法:Logistic回归分析及其应用PPT课件

04.02.2021
.
5
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
04.02.2021
.
6
寻找合适的模型
进行logit变换
p
logit(p) = ln( 1—-—p ), p为y=1所对应的概率 0.1
logit(0.1) = ln( ——— ) = ln(0.1/0.9) 1 - 0.1
称此为logistic回归模型
04.02.2021
.
8
P = ez / (1 + ez ) ea+b1x1+b2x2+… +bkxk
P = 1 + ea+b1x1+b2x2+… +bkxk
此为非条件logistic回归模型 应用于成组数据的分析
04.02.2021
.
9
自变量取定一些值时,因变量取0、1的概率就是 条件概率,对条件概率进行logistic回归,称为
04.02.2021
.
11
分析的一般步骤
变量的编码 哑变量的设置和引入 各个自变量的单因素分析 变量的筛选 交互作用的引入 建立多个模型 选择较优的模型 模型应用条件的评价 输出结果的解释
04.02.2021
.
12
1.变量的编码
变量的编码要易于识别 注意编码的等级关系 改变分类变量的编码,其分析的意 义并不改变。 牢记编码
04.02.2021
.
31
条件logistic回归
研究中有N个配比组,每组中n个病 例配m个对照者。这时,各个研究 对象发生某事件的概率即为条件概 率。 适用于 配比设计的病例-对照研究 精细分层设计的队列研究
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目的:作出以多个自变量(危险因素)估计应 变量(结果因素)的logistic回归方程。属于 概率型非线性回归。
资料:1. 应变量为反映某现象发生与不发生的 二值变量或多分类变量;2. 自变量宜全部或大 部分为分类变量,可有少数数值变量。分类变 量要数量化。
医学研究中常碰到应变量的可能取值仅有 两个(即二分类变量),如发病与未发病、 阳性与阴性、死亡与生存、治愈与未治愈、 暴露与未暴露等,也有多分类的应变量, 如疗效分级,血压等级等。
• 哑变量
• 自变量为多分类变量,与应变量之间通常 不存在线性关系,须用哑变量方式分析。 若K为该变量的水平数,则系统将自动产生 K-1个哑变量。Categorical子对话框用于此 设置。
• 多分类无序自变量
• 多分类有序自变量,要求其等级分组与 LogitP呈线性关系,如不满足条件,则将等 级变量当作无序变量,用哑变量进行分析。
病例 对照
55(a) 19(c)
128(b) 164(d)
O R P 1(1P 1)ad 5 5163 4.7089 P 0(1P 0) bc1 9128
9% C 5:3 I .7 e0 x 1 8 p.9 5 1 9 5 1 6 1 2 1 18 9 1 16 2 4 .09 ~ 6 .6 54 6
• 要求: • (1)各观察对象的独立性 • (2)所需样本量大小与自变量的个数
一、Logistic回归方程 Logistic回归的logit模型
P = 1 x1 2 x2 n xn
Logit变 换 P转 换 为 ln[P/(1-P)]
logit (P )= 1 x1 2 x2 n xn ln[P /(1-P )]= 1x1 2 x2 n xn
0,
ORj 1无作用
则有ORj expj, j >0,ORj 1 危险因子
0,ORj 1 保护因子
当 P1 , 则 有 O RP 1/(1P 1) R R P 0/(1P 0)
由于 OR j 值与模型中的常数项 0 无关, 0 在危险因素分析中通常视其为无效参数。
回归系数的解释
• 建立Logistic回归方程就是求和i • 意义:常数项是当各种暴露因素为0时,个体发
两个比值之比称为比值比(Odds Ratio),简称OR。
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, OR j 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
即 O R jexp[ j(c1c0)]
若 Xj 1 0
暴 露 非 暴 露 , c1c01,
病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数,表示在其它自变量固定的 • 条件下,第i个自变量每改变一个单位时logit的
改变量。它与比数比(优势比)(odds ratio) 有对应关系。是对自变量Xi 作用大小的一种度量。
• Logistic回归中的常数项(b0)表示,在不接触任 何潜在危险/保护因素条件下,效应指标发生与 不发生事件的概率之比的对数值。
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或
最大等级作参考组,并按等级顺序依次取为
0,1,2,…。此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则
应按多分类资料处理。
• 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
P0 1-P0
=
-0.2478
OR P1 (1 P1) P0 (1 P0)
ln O )( R l n P 1/1 ( P 1 ) l nP 1 l nP 0 1 .310 P 0/1 ( P 0) 1 P 1 1 P 0
O Re1.31073.7089
• 单因素病例对照研究的OR,与logistic 回归等价;
e( 1x12x2 nxn ) P 1 e( 1x12x2 nxn ) 1 P 1 e 1 (1x12x2 nxn )
其中,为常数项,为偏回归系数。
参数解释
比数(优势) Odds=P/(1-P)
优势比(比值比)OR(odds
r P0 /(1P0)
设P表示暴露因素X时个体发病的概率,则发病的概率P与 未发病的概率1-P 之比为优势(odds), logit P就是 odds的对数值。
ln(O R
)
ln
P1 P0
/(1 /(1
P1 ) P0 )
ln
1
P1 P1
ln
1
P0 P0
( 1) ( 0)
=
• 一个暴露因素时,当暴露为c1,非暴露为c0时,
ln (O
R
)
ln
P1 P0
/(1 /(1
P1 ) P0 )
ln
1
P1 P1
• Logistic回归中的回归系数( bi )表示,某一因 素改变一个单位时,效应指标发生与不发生事件 的概率之比的对数变化值,即OR的对数值。
Logistic回归系数的意义
• 分析因素xi为二分类变量时,存在(暴 露)xi =1,不存在(未暴露)xi =0, 则Logistic回归中xi的系数bi就是暴露与 非暴露优势比的对数值。即 OR=exp(bi)=e (bi)
Logistic回归分析
汕大医学院预防医学教研室
第一节 Logistic 回归
Logistic regression:
是研究分类变量统计分析的一种重要方 法。研究两水平或多水平反应变量与其影 响因子间关系的回归分析(线性回归分析: 应变量为连续计量资料)。
Logistic回归模型是一种概率模型, 通常以疾 病,死亡等结果发生的概率为因变量, 影响疾 病发生的因素为自变量建立回归模型。
注意:有实际意义;参照水平有一定频数保证。
为了便于解释,对二项分类变量一般按0、1编码, 一般以0表示阴性或较轻情况,而1表示阳性或较 严重情况。
西、中西、中三种疗法哑变量化
X1= 1 西 0 其它
X2= 1 中西 0 其它
• 分析因素xi为多分类变量时,为方便起 见,常用1,2,…,k分别表示k个不 同的类别。进行Logistic回归分析前需 将该变量转换成k-1个指示变量或哑变 量(design/dummy variable),这样指 示变量都是一个二分变量,每一个指 示变量均有一个估计系数,即回归系 数,其解释同前。
多因素Logistic回归分析时,对回 归系数的解释都是指在其它所有自变量 固定的情况下的优势比。存在因素间交 互作用时, Logistic回归系数的解释变 得更为复杂,应特别小心。
回归系数与OR的关系
• logistic回归中的系数,与OR有关!
• 一个暴露因素时,当暴露为1,非暴露为0时,
=ln(OR)
53例接受手术的前列腺癌患者情况
26例冠心病病人和28例对照者进行 病例对照研究
26例冠心病病人和28例对照者进行 病例对照研究
根据研究设计不同
• Logistic回归的分类
Logistic回归 二分类 多分类
非条件 :成组资料 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
• (1)取值问题
• (2)曲线关联
• 反应变量与自变量的关系通常不是直线关 系,而是S型曲线。曲线回归时,往往采用 变量变换,使得曲线直线化,再进行直线 回归方程的拟合。能否考虑对所预测的因 变量加以变换。1970年,COX引入了用于 人口学领域的Logit变换。
概率P是以0.5为对称点,分布在0~1的范围内 的,而相应的Logit(P)的大小为
四格表资料的logistic回归
• X=1 表示使用过雌激素 • X=0 表示未使用过雌激素
logPi=t-0.24+17.831x07 ln1-PP=-0.24+718.31x07
四格表资料与logistic回归
• X=1时 • X=0 时
ln1P -P 11 =-0.24781.3107
ln
回归系数的区间估计
bi u Sbi
例16-1 表16-1是一个研究吸烟、饮酒与食道癌关 系的病例-对照资料,试作logistic回归分析。
确 定
X
1
1
0
吸烟 不吸烟
各 变 量
X
2
1
0
饮酒 不饮酒


Y
1
病例
0 对 照
表16-1 吸烟与食道癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g X1 X2
ng
dg ngdg
1 0 0 199 63 136
2 0 1 170 63 107
3 1 0 101 44 57
4 1 1 416 265 151
经logistic回归计算后得:
经 lo g is t ic 回 归 计 算 后 得
b0 = - 0 . 9 0 9 9 , S b0 S b1 = 0 . 1 5 0 0 ;b 2
实例
试验者术前检查了53例前列腺癌患者,拟 用年龄(AGE)、酸性磷酸酯酶(ACID)两个连 续型的变量,X射线(X-RAY)、术前探针活 检病理分级(GRADE)、直肠指检肿瘤的大小 与位置(STAGE)三个分类变量与手术探查结 果变量NODES(1、0分别表示癌症的淋巴结 转移与未转移 )建立淋巴结转移的预报模 型。
• Logit变换
也称对数单位转换
logit P= l n
P 1 P
j(j1,2, ,m )
ln 1 P P = 01X 12X 2m X mlo g itP
相关文档
最新文档