第11章Logistic回归分析教学案例
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
= p q X10 X10
px10
= e 1x1
1 px10
e 1 1
= e 10
=e1
假设建立了如下的logistic回归方程:
Logit P = α + βx
x 为二分变量,当暴露时,取值为1;
不暴露时,取值为0。
所以暴露时,
Logit(P1) = α + β, 比值(odds) = exp(α + β )
用发病概率来表示四格表,可以得到四格表的另外一种表示形式:
四格表的另外一种表达形式(2)
——————————————————————————————
发病(y=1)
不发病(y=0)
——————————————————————————————
暴露(x=1) e(α + β)/[1+ e (α + β)]
p1/q1 = exp(1.063) =2.895
未使用过雌激素的Logit 为: Logit P(x=0) = -0.2478 + 0 = -0.2478 即:Ln (p0/q0) = -0.2478 所以,未使用过雌激素的比值(odds) 为:
p0/q0 = (exp(-0.2478)) = 0.781
331
———————————————————————————————————
2 = 17. 88 P〈0. 01
40岁以上服用OC的比例远小于40岁以下组。
Mantel-Haenszel分层分析法
按年龄分层,可以得到下表:
—————————————————————————————————
〈40岁
≥40岁
1/ [1+ e (α + β)]
不暴露(x=0) e α/[1+ e α]
1/ [1+ e α]
——————————————————————————————
因为四格表的四个实际数为a,b,c及d, 故可构造似然函数为:
L = {e(α + β)/[1+ e (α + β)] }a {1/ [1+ e (α + β)] }b
不同年龄组内服用避孕药的比例
——————————————————————————
年龄
服OC
不服OC
合计
——————————————————————————
〈40
38(0.31) 85
123
≥40
25(0.12) 183
208
——————————————————————————
合计
63
268
五、Logistic 回归模型的统计学检 验
• 多元线性回归的局限性 • 经典流行病学统计分析方法—分层分析的局限性
1.两种主要的流行病学设计 1)病历对照研究 2)队列研究
2.判断结局(疾病)和暴露(因素)联系强弱的指标 1) 相对危险度:RR = p1 / p0 p1: 暴露于某个危险因素下发病的概率 p0: 不暴露于某个危险因素下发病的概率(对照) 2)比值比:
每个格子中的样本例数太少)
❖定量资料需要分组,信息丢失 ❖不能对因素作用大小进行定量分析
(交互作用)
y
二、Logistic 回归原理 0 1
y = log2x
经过数理统计学家证明:把疾病概率 P 转换成
ln
1
p
p
,会使该回归方程的统计性能更好一些。而且,
在经
过转
换以
后,
ln
1
p
p
的
值域
为-∞
到+∞,
回归系数的流行病学意义是:在其它自变量都 不变的条件下,当因素X变化一个测量单位时所引起的 OR值自然对数的改变量。
三、Logistic 回归和OR值间的关系
ln1pp = 1x1
p e1x1 1 p
ORX1 =
p q X11 X11
...... px11 ...... 1 px11
e 1x1
—————————————————————————
OR(1) = 2.803 2 (1)= 6.77 OR(2) = 2.776 2 (2)= 5.03
ORMH = (ai*di/ni) / (bi *ci/ni) ORMH =2.79
分层分析中,可以分别计算出分层后的各层OR 值,如果发现与总的OR有较大的差异,则可以认为 该风层因素是混杂因素。必须对该因素进行MH调整, 调整后的OR值才能真正反映因素和结局间的关系。
暴露者发病概率: p1 = exp(α + βx)/[1+ exp(α + βx)]
暴露者不发病概率: q0= 1- p1 = 1/ [1+ exp(α + βx)];
不暴露者发病概率: p0 = exp(α)/[1+ exp(α)]
不暴露者不发病概率: q0= 1- p0 = 1/[1+ exp(α)] ;
建立的logistic 回归方程形式为:
Logit P = -0.2478 + 1.3107 x X取值:1 使用过雌激素
0 未使用过雌激素
使用过雌激素的Logit 为: Logit P(x=1) = -0.2478 + 1.3107 = 1.063 即:Ln (p1/q1) = 1.063 所以,使用过雌激素的比值(odds) 为:
————————————————————————————
暴露(x=1)
a
b
不暴露(x=0)
c
d
合计
—————————————————
a+c
b+d
—————————————————————————————
暴露者发病概率 p1 = a /(a+b); 不暴露者发病概率 p0= c/(c+d)
OR= ad/(bc)
使用过雌激素相对于未使用过雌激素的比值比为: OR (odds ratio) = 2.895 / 0.781 = 3.709
四、Logistic 回归最大似然建模
以四格表为例来说明最大似然求解的意义及过程。
四格表的一般表达形式
————————————————————————————
发病(y=1)
不发病(y=0)
Hale Waihona Puke Baidu解释;
• 了解条件Logistic回归的应用; • 掌握条件Logistic回归的SAS程序;
概述
• 线性回归模型和广义线性回归模型要求因变量是
连续的正态分布变量,且自变量和因变量呈线性 关系。当因变量是分类型变量时,且自变量与因 变量没有线性关系时,线性回归模型的假设条件 遭到破坏。这时,最好的回归模型是Logistic回归 模型,它对因变量的分布没有要求,从数学角度 看,Logistic回归模型非常巧妙地避开了分类型变 量的分布问题,补充完善了线性回归模型和广义 线性回归模型的缺陷。从医学研究角度看, Logistic回归模型解决了一大批实际应用问题,对 医学的发展起着举足轻重的作用。
如果当分层后各层的OR值经过一致性检验发现: 各层间的OR值有统计学差异,这时说明分析因素在 分层因素的不同水平上与结局变量的联系强度是不同 的,这时分层因素和研究因素存在这交互作用(效应 修饰作用)。这时应该分层报告OR值,而不能计算 调整OR值。
分层分析的局限性
❖只能控制少数因素(分层因素过多,
{e α/[1+ e α] }c {1/ [1+ e α] }d
取对数,有 Ln (L) = a (α + β) – a ln[1+e(α + β) ]– b ln[1+e (α + β)]
+ c α – c ln [1+e α ] – d ln[1+e α ]
对以上似然函数分别求对α 和 β的一阶偏导数,再令两个偏导数为零, 就可以解得α 和 β的估计值。
以一个最简单的Logistic回归模型做为例子。
——————————————————————————
使用过
未使用过
合计
——————————————————————————
病例
55
128
183
对照
19
164
183
——————————————————————
合计
74
293
366
——————————————————————————
用发病概率来表示四格表,可以得到四格表的另外一种表示形式:
四格表的另外一种表达形式(1)
————————————————————————————
发病(y=1)
不发病(y=0)
————————————————————————————
暴露(x=1)
p1
1- p1
不暴露(x=0)
p0
1- p0
—————————————————————————————
非条件Logistic回归
• 研究者将所研究的问题转换一个角度,不
是直接分析y与x的关系,而是分析y取某个
值的概率P与x的关系。例如,令y为1,0变
量,y=1表示有病,y=0表示未患病;x是
与患病有关的危险因素。如果P表示患病的 概率,即P=prob(y=1),那么研究患病 的概率P与危险因素x的关系就不是很困难
————————————
————————————
MI 非MI 合计
MI 非MI 合计
—————————————————————————————————
服OC 21 17 38
18 7 25
未—服—O—C——2—6———59———8—5——8—8———9—5———1—8—3
——
合计 47 76 123 106 102 208
而且
这
些
ln
1
p
p
值都可以
和在大于
0
小于
1
范围
内的
P
值相对
应。统计学中,常把
ln
1
p
p
称为
Logit
变换。
Logistic 回归方程:
ln
1
p
p
=
0 1 x1 n xn ,
而且有:
( 0 1x1 n xn )
p 1 e e ( 0 1x1 n xn )
Logistic 模型中系数的意义:
非条件Logistic回归
• 医学研究中经常需要分析分类型变量的问题。比如,生存
与死亡、有病与无病、有效与无效、感染与未感染等二分 类变量。研究者关心的问题是,哪些因素导致了人群中有 些人患某种病而有些人不患某种病,哪些因素导致了某种 治疗方法出现治愈、显效、好转和无效等不同的效果等。 这类问题,实质上是一个回归问题,因变量就是上述提到 的这些分类型变量,自变量x是与之有关的一些因素。但 是,这样的问题却不能直接用线性回归分析方法解决,其 根本原因在于因变量是分类型变量,严重违背了线性回归 分析对数据的假设条件。那么应该怎样解决这个问题呢?
所以不暴露时, Logit(P0) = α , 比值(odds) = exp(α)
则,暴露对于不暴露的比值比(odds ratio)为: OR = exp(α + β ) / exp(α) = exp(β)
举例2 使用雌激素与子宫内膜癌病例对照研究
(病例对照,曾光《现代流行病学方法与应用》,P76)
OR = {P(D=1|E=1)/P(D=0|E=1)} / {P(D=1|E=0)/P(D=0|E=0)}
D=1: 患某种疾病, D=0:不患某种疾病 E=1: 暴露于某个危险因素, E=0: 不暴露于某个危险因素 可以简单地表述成:OR = (p1 / q1) / (p0 / q0)
p1 : 暴露于某个危险因素下发病的概率 q1 : 暴露于某个危险因素下不发病的概率 p0 : 不暴露于某个危险因素下发病的概率 q0 : 不暴露于某个危险因素下不发病的概率
• Logistic回归模型有条件与非条件之分,前者适用于配对
病例对照资料的分析,后者适用于队列研究或非配对的病 例-对照研究成组资料的分析。
问题的提出
• 在流行病学研究中,经常遇到因变量为离散型分
类变量的情况。如治疗效果的无效好转、显效、 痊愈;不同染毒剂量下小白鼠的存活或死亡;在 某种暴露下的发病与不发病等。最常见的情况是 因变量为二分变量的问题。
第11章 Logistic回归分析
学习目标
• 了解Logistic回归模型的建立和假设检验; • 了解Logistic回归模型的应用领域; • 掌握Logistic回归模型系数的解释,及回归系数与
OR值之间的关系;
• 掌握Logistic回归过程步; • 掌握哑变量的设置和结果的解释; • 掌握多元Logistic回归模型的逐步过程法和系数的
的事情了。
非条件Logistic回归
• 分析因变量y取某个值的概率P与自变量x的关系,就是寻
找一个连续函数,使得当x变化时,它对应的函数值P不超
出[0,1]范围。数学上这样的函数是存在且不唯一的, Logistic回归模型就是满足这种要求的函数之一。与线性 回归分析相似,Logistic回归分析的基本原理就是利用一 组数据拟合一个Logistic回归模型,然后借助这个模型揭 示总体中若干个自变量与一个因变量取某个值的概率之间 的关系。具体地说,Logistic回归分析可以从统计意义上 估计出在其它自变量固定不变的情况下,每个自变量对因 变量取某个值的概率的数值影响大小。