Logistic 回归模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 反对数变换得到 OR e1
11
实例1
研究急性心肌梗塞(AMI)患病与饮酒 的关系, 采用横断面调查。
饮酒 不饮酒 合计
(X=1) (X=0)
患病(y=1) 55 74 129
未患病(y=0) 104663 212555 317218
合计
104718 21262Odds分别为
O R e1e1 .7 9 1 7 5 96
95% CI=(4.3, 8.5)
34
实例3:Logistic模型的交互作用
• 由于本例模型为
L o g i t( P ) 0 1 x 1 2 x 2 3 x 1 x 2
• 3,P=,差别有统计学意义,可以认为吸烟 和家属史对患肺癌有交互作用。
33
实例3:Logistic模型的交互作用
• 由于本例模型为 L o g i t( P ) 0 1 x 1 2 x 2 3 x 1 x 2
• 对于无家属史,x2=0代入模型,得到
Logit(P)01x1
• 由回归系数与OR的关系,得到吸烟的:
2
数据分析的背景
• 单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就不 合适了,应选用Logistic回归模型进行统 计分析。
3
Logistic回归模型
• 在本例中,对于同为吸烟或不吸烟的对象 而言(x2相对固定不变),
• 饮酒(x1=1)的对数Odds为
L o g (O d d s x 1 1 )0 1 2 x 2
• 不饮酒(x1=0)的对数Odds为
L o g (O d d sx 1 0 )02 x 2
28
多自变量Logistic模型的OR解释
实例2应用Logistic模型 校正混杂作用
• 饮酒:O R e-0 .0 0 0 0 2 10 .9 9 9 9 7 9
• P=1
• 校正了吸烟因素的情况下,没有足够的 证据推断饮酒与AMI患病有关联性。
• 吸烟: O R e1 .7 1 0 2 7 25 .5 3 > 1
• ,校正了饮酒的情况下,可以认为吸烟 与患AMI的关联性有统计学意义,并且 可以认为吸烟者患AMI的风险更大。
表达式
ln (O d d s) ln (1 P P )01 x 1m x m
9
Logistic回归模型
• 记: logit(P)ln( P )
• 故可以写为
1P
lo g it(P )0 1 x 1 m x m
• 也可以写为
P1 ex ep x(p(0 0 1 x1 1x 1 mx m m x)m)
bc
7
基础知识
P 1 P 2 O d d s 1 O d d s 2 O R 1 P 1 P 2 O d d s 1 O d d s 2 O R 1
• 故比较两个率<==> • 比较OR =1? OR>1 ? OR<1?
8
(二分类)Logistic回归模型
• 因为0<Odds<+ • 所以 -< ln(Odds) <+ • 对ln(Odds)引入类似多重线性回归的
未患病22331 14210 82332 198345
合计 22364 14231 82354 198398
20
实例2:应用Logistic模型 校正混杂作用
• 从分层的资料表述可知:由于吸烟的混 杂作用以致饮酒与AMI患病伴随有关联。
• 用x1=1和0分别表示饮酒和不饮酒,用 x2=1和0分别表示吸烟和不吸烟, Logistic模型表示如下
• H0: =0 H1: 0
• = • 检验统计量
z b
• 可以证明: H0:=0 为真时,z近s e似( b服) 从标
准正态分布,即:,P<0.05,拒绝H0
18
实例1:用Logistic模型进行统计分析
• 实例1的回归系数估计为
ˆ10.4117232 ˆ0-7.962891
拒绝H0,差异有统计学意义,可认为0。 • 饮酒与患AMI的关联性为
如在实例2中,自由度为2。
•
如果似然比检验统计量2ln(L)>
2 0 .0
5
,
d
f
则拒绝H0。
• 如果对模型中所有的自变量进行检验,
则称为模型检验。如实例2,对两个自变
量进行检验,故这是模型检验。
25
实例2应用Logistic模型 校正混杂作用
• 应用Stata软件进行最大似然估计,得到 模型拟合的主要结果如下
15
实例1:最大似然估计
• 本例的似然函数
L
e0 1 1 e0 1
55
1
1 e0 1
104663
e0 1 e0
74
1 1 e0
212555
• 选择0和1使似然函数L达到最大,即最 大似然估计。
16
实例1:用Logistic模型进行统计分析
• 以上述实例资料用Stata统计软件对回归系数 进行最大似然估计,得到回归系数估计为
1 P
P越大,则Odds越大;P越小,则Odds越小 并且 0<Odds<+
6
基础知识
P Odds P与Odds一一对应 1 Odds
• 对于两个Odds的比较,一般用它们的
Ratio,并称为Odds Ratio(OR),其定义
如下: OR Odds1 Odds2
ad
• 其样本估计统计量为 O R
P(Y1)1ee001x11x12x22x2 21
Logistic模型的似然比检验
• 在多个自变量回归模型中,回归系数检验分 为单个回归系数检验和多个回归系数检验。
• 单个回归系数检验表示其它变量均在模型中 的情况下,检验某个回归系数i=0,一般用 Wald检验(如实例1)。
• 多个回归系数检验要用似然比方法 (likelihood ratio test)
L o g it(P )01 x 12 x 2
• 用最大似然法进行估计,其对数最大似然函 数值记为ln(L1)
• 记似然比检验统计量为2ln(L)=2(ln(L1)-ln(L0))
24
Logistic模型的似然比检验
• 可以证明:H0为真时, 2ln(L)近似服从 2分布,自由度为需检验的自变量个数,
y
b
se(b) z P>|z|
x .4117232 .1780719 2.31 0.021
_cons -7.962891 .1162679 -68.49 0.000
• 即:10.4117232 0-7.962891
b
z 2.31
se(b)
17
Logistic模型的单个回归系数检验
• 关键是如果=0,意味自变量X与Y无关联 性。由于的估计存在抽样误差,即使=0, 其估计值b一般不为0,故需检验=0?
患肺癌和未患肺癌。
31
实例3:Logistic模型的交互作用
• 一般而言,吸烟和家属史均是肺癌的重要 相关因素,很有可能这两个因素对患肺癌 有交互作用,因此采用下列含有交互作用 项的Logistic模型。
L o g i t( P ) 0 1 x 1 2 x 2 3 x 1 x 2
• 其中x1和x2的乘积项x1x2称为交互作用项
• 似然函数比为2ln(L)=,df=2,,因此拒 绝H0 :1=2=0 ,可以认为1和2不全为 0。
26
实例2应用Logistic模型 校正混杂作用
• 应用Stata软件进行最大似然估计,得到 回归系数估计的主要结果如下
y x1 x2 _cons
Coef. -0.000021 1.710272 -8.227466
• 例如:研究患某疾病与饮酒的关联性
饮酒 不饮酒 合计
(X=1) (X=0)
患病(y=1)
a
b n1
未患病(y=0) c
d n2
合计
m1 m2 N
• 患病率 P1=a/m1 P2=b/m2
5
基础知识
• Odds(优势) Odds P 1 P
O d d sP(P 1 ) 1 1 1
1 P 1 P
• 按研究设计分类 – 非配对设计:非条件Logistic回归模型 – 配对的病例对照:条件Logistic回归模型
• 按反应变量分类 – 二分类Logistic回归模型(常用) – 多分类无序Logistic回归模型 – 多分类有序Logistic回归模型
4
基础知识
• 通过下例引入和复习相关概念
32
应用Logistic模型分析实例3
• 用Stata软件对实例3的资料拟合上述模型,得 到下列结果:
变量回归系数. P [95%Conf.Interval] x1 1.791759 0.000 1.449155 2.134364 x2 .2481449 0.026 0.029683 0.4666067 x12 .955828 0.040 0.0436748 1.867981 _cons -.4054651 0.000 -0.5515522 -0.259378
Logistic 回归模型
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较,一般采用t检 验或秩和检验。
– 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析
• 考虑多因素的影响,对于应变量(反应变 量)为计量资料,一般可以考虑应用多重 线性回归模型进行多因素分析。
22
Logistic模型的似然比检验
• 多个回归系数的检验(以实例2为例) • H0:1=2=0 H1:1,2不全为0
• H0为真时,模型为 Logit(P)0
• 用最大似然法进行估计,其对数最大似 然函数值(似然函数的最大值取对数)记 为ln(L0)
23
Logistic模型的似然比检验
• H1为真时,实例2的模型为
• 则饮酒的对数Odds Ratio为
l n ( O R ) L o g ( O d d s x 1 1 ) L o g ( O d d s x 1 0 ) 1
• 即:饮酒的 OR e1
• 意义:对于同为吸烟的对象或者同
为不吸烟的对象,其饮酒的 OR e1
• 故称校正吸烟后OR,而前者未考虑 吸烟的单因素OR称为crude OR 29
P>|z| 1.000 0.000 0.000
[95% Conf. Interval] -0.3680823 0.3680403 1.341277 2.079267 -8.478243 -7.976688
• 饮酒:O R e-0 .0 0 0 0 2 10 .9 9 9 9 7 9
27
多自变量Logistic模型的OR解释
30
Logistic模型中的交互作用
• 实例3:采用病例对照设计研究吸烟和家 属史与患肺癌的关联性。
有家属史
无家属史
患肺癌 未患肺癌
患肺癌 未患肺癌
吸烟
200
50
80
6
不吸烟 300
450
270
310
合计
500
500
350
316
• 用x1=1,0分别表示吸烟和不吸烟;x2=1,0
分别表示有无家属史;用y=1,0分别表示
• x=1 表示饮酒,x=0表示不饮酒 • 回归系数0,1是未知参数,通常用最大
似然估计的方法。
14
实例1:患病与未患病的概率
• 饮酒(x=1),患病概率和未患病概率分别
为
e0 1
P 1 e0 1
P
1
1 e0
1
• 不饮酒(x=0),患病概率和未患病概率分
别为
e0
P 1 e0
1 P 1 e0
55 P1 104718
Odds11P1P1 10456563
不饮酒的患病率和Odds分别为
74 P2 212629
Odds2
P2 1P2
74 211555
55211555
O R
1.5094166
74 104663
13
实例1的Logistic回归模型
• 患病(Y=1)的概率为
P(Y1| x)1ee001x1x
O R e 0 .4 1 1 7 2 3 2 1 .5 0 9 4 1 7
• OR的95%可信区间为(,)
19
应用Logistic模型校正混杂作用
• 实例2:上例没有考虑吸烟情况,故将吸 烟作为分层加入,资料如下:
吸烟
不吸烟
饮酒% 不饮酒%饮酒% 不饮酒%
患病 33(0.03)21(0.03) 22(0.015)53(0.015)
10
回归系数的意义
• 以x1的回归系数1为例
• 固定其它自变量,比较x1与x1 +1的ln(Odds) 变化。
• 对于x1,ln (O d d sx 1 )01 x 1 m x m
• 对于x1 +1,
ln ( O d d s x 1 1 ) 0 1 ( x 1 1 ) m x m
ln ( O R ) ln ( O d d s x 1 1 ) ln ( O d d s x 1 )1