logistic回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X2 1 0 1 0 0 0 0 0 0 0
来自百度文库
第一节
logistic回归模型的 基本结构与建立
12
一、 基本概念
1 发生 应变量Y , 自变量X1 , X 2 , 0 未发生
, Xm
在m个自变量的作用下阳性结果发生的概率记作
P P(Y 1 | X 1 , X 2 ,, X m )
0 P 1
13
Logistic回归模型的构造
30
例18-1的参数估计与Wald检验结果
变量值 常数项 X1 X2 X3
回归系 数b -2.0858 1.1098 0.7028 0.9751
标准误
Sb
Wald χ2 35.2624 10.1419 4.5586 8.0362
P值 0.0001 0.0014 0.0328 0.0046
ˆ OR
0.3513 0.3485 0.3292 0.3440
定义:logit(P)= ln[P/(1-P)]为 Logistic 变换, Logistic 回归模型为:
logit(P)=β0+β1X1+…+βpXp ;
取值范围 概率P:0~1,logitP:-∞~∞。
16
经数学变换可得:
P e
0 1 X 1 p X p 0 1 X 1 p X p
19
模 型 参 数 的 意 义
P ln = 0 1 X 1 2 X 2 1 P
m X m log itP
常数项 0 表示暴露剂量为 0 时 个体发病与不发病概率之比的自然 对数。 回归系数 j ( j 1,2, , m) 表示 自变量 X j 改变一个单位时 logitP 的 改变量。
20
优势比 OR(odds ratio)
流行病学衡量危险因素作用大小的比
数比例指标。计算公式为:
21
P /(1 P ) 1 1 OR j P0 /(1 P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, OR j 称作多变量调整后的优势比, 表示扣除了其它自变量影响后危险因素的作用。
第十八章 logistic回归分析
(logistic regression)
1
例18-1 在研究医院抢救急性心肌梗塞(AMI)
患者能否成功的危险因素调查中,某医院收集
了5年中该医院所有的AMI患者,共200例,
研究危险因素为X1(抢救前是否休克); X2(抢救前是否心衰); X3(抢救前是否超过 12小时)等。 研究目的:分析影响抢救成功的主要因素。
( 入 0.10,出 0.15)
32
表18-1 冠心病8个可能的危险因素与赋值
因素 年龄(岁) 高血压史 高血压家族史 吸烟 高血脂史 动物脂肪摄入 体重指数(BMI) A 型性格 冠心病
变量名 X1 X2 X3 X4 X5 X6 X7 X8 Y 无=0, 有=1 无=0, 有=1
赋值说明 <45=1, 4554=2, 5564=3, 65=4
若因变量 y为连续型正态定量变量时, 可采用 多元线性回归分析y与变量 X1, X2, … , Xp之间的 关系: y=β0+β1X1+β2X2+…+βpXp 现y为发病或未发病,生存与死亡等定性分 类变量,不能直接用上模型进行分析。
• • •
能否用发病的概率P来直接代替 y呢? p=β0+β1X1+β2X2+…+βpXp
基本思想:比较在两种不同假设条件下的对数似然函 数值,看其差别大小。
具体方法:先拟合一个不包含待检因素在内的 logistic模型,求出它的对数似然函数lnL0(包含l个自 变量),然后把需要检验的因素加入,模型中去再配合, 得到新的对数似然函数lnL1(包含p个自变量),
2 G=1( lnL1- lnL0) 服从自由度ν= p-l的 分布
22
与logisticP的关系:
对比某一危险因素两个不同暴露水平 X j c1 与 X j c0 的发病 情况(假定其它因素的水平相同) ,其优势比的自然对数为:
P 1 /(1 P 1) ln OR j ln 1 logitP 0 logitP 0 /(1 P 0) P ( 0 j c1 t X t ) ( 0 j c0 t X t ) j (c1 c0 )
-3.034 2.019 2.651
logit(P)=-2.0858+1.1098X1+0.7028X2+0.9751X3
e -2.08581.1098X1 0.7028X2 0.9751X3 P 1 e -2.08581.1098X1 0.7028X2 0.9751X3 1 1 e ( -2.08581.1098X1 0.7028X2 0.9751X3) 1 P 1 exp( -2.0858 1.1098X1 0.7028X2 0.9751X3)
惯、体质、遗传等许多因素有关。
5
如何找出其中哪些因素对结果
的产生有显著性影响呢?
显然这类资料不满足多重线性 回归的条件 。 Logistic回归分析能较好地解 决这类问题。
目的:作出以多个自变量(危险因素)估计
应变量(结果因素)的logistic回归方程。
资料:1. 应变量为反映某现象发生与不发生
不吸=0, 吸=1 无=0, 有=1 低=0, 高=1 <24=1, 24<26=2, 26=3 否=0, 是=1 对照=0,病例=1
33
表18-2 冠心病危险因素的病例对照调查资料
序号 1 2 3 4 5 6 7 8 9 10
. . .
X1 3 2 2 2 3 3 2 3 2 1
. . .
的二值变量;2. 自变量宜全部或大部分为分
类变量,可有少数数值变量。分类变量要数
量化。
7
例18-1 在研究医院抢救急性心肌梗塞(AMI)
患者能否成功的危险因素调查中,某医院收集
了5年中该医院所有的AMI患者,共200例,
研究危险因素为X1(抢救前是否休克); X2(抢救前是否心衰); X1(抢救前是否超过 12小时)等。 研究目的:分析影响抢救成功的主要因素。
1 e 1 e
1
( 0 1 X 1 p X p )
1 P 1 exp[ ( 0 1 X 1 p X p )]
概率预报模型
1 P 1 exp[ ( 0 1 X 1 p X p )]
令Z 0 1 X 1 p X p
t j t j m m
23
即 OR j exp[ j (c1 c0 )]
0, OR j 1 无作用 则有 OR j exp j , j >0, OR j 1 危险因子 0, OR j 1 保护因子
1 若X j 0
暴露 , c1 c0 1, 非暴露
2
大于3.84,有统计学意义
比较适合单个自变量的检验
28
例18-1 在研究医院抢救急性心肌梗塞(AMI)
患者能否成功的危险因素调查中,某医院收集
了5年中该医院所有的AMI患者,共200例,
研究危险因素为X1(抢救前是否休克); X2(抢救前是否心衰); X1(抢救前是否超过 12小时)等。 研究目的:分析影响抢救成功的主要因素。
L Pi Yi (1 Pi )1Yi
i 1 n
ln L [Yi ln Pi (1 Yi ) ln(1 Pi )]
i 1
n
采用 Newton-Roaphson 迭带法得到βi 的估计 值
b0 , b1 , b2 , , bm
25
2. 优势比估计 可反映某一因素两个不 同水平(c1,c0)的优势比。
P 1 /(1 P 1) 当 P 1, 则有OR RR P0 /(1 P0 )
由于 OR j 值与模型中的常数项 0 无关, 24 0 在危险因素分析中通常视其为无效参数。
二、logistic回归模型的参数估计
1. 参数估计
原理:最大似然(maximum likelihood )估计
1
P
0.5 0.5
Z : , 0, P : 0, 0.5, 1
Z
0 1 2 3 4
18
0 -4 -3 -2 -1
logistic函数的图形
Logistic 回归模型是一种概率模 型, 它是以疾病,死亡等结果发生的概 率为因变量, 影响疾病发生的因素为 自变量建立回归模型。 它特别适用 于应变量为二项, 多项分类的资料。 在临床医学中多用于鉴别诊断 , 评价治疗措施的好坏及分析与疾病预 后有关的因素等。
ˆ exp[ b (c c )] OR j j 1 0
对于二分类
ˆ exp b OR j j 若自变量 X j 只有暴露和非暴露两个水
平, 则优势比OR j 的1 可信区间估计公式为
exp( b j u / 2 S b )
j
26
三、logistic回归模型的假设检验 1.似然比检验
2
P=0(抢救成功)
X1 0 X2 0 X3 0 N 35 X1 0
P=1(抢救不成功)
X2 0 X3 0 N 4
0
0 0 1 1 1 1
0
1 1 0 0 1 1
1
0 1 0 1 0 1
34
17 19 17 6 6 6
0
0 0 1 1 1 1
0
1 1 0 0 1 1
1
0 1 0 1 0 1
10
4 15 6 9 6 6
8
P=0(抢救成功)
X1 0 X2 0 X3 0 N 35 X1 0
P=1(抢救不成功)
X2 0 X3 0 N 4
0
0 0 1 1 1 1
0
1 1 0 0 1 1
1
0 1 0 1 0 1
34
17 19 17 6 6 6
0
0 0 1 1 1 1
0
1 1 0 0 1 1
1
0 1 0 1 0 1
10
4 15 6 9 6 6
9
用途:研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。 ——卡方检验 单因素 用 检验的局限性:
2
只能研究1个危险因素; 只能够定性。
10
outline
Logistic回归模型的基本结构与建立 条件logistic回归 Logistic回归的应用与注意事项
11
29
P=0(抢救成功)
X1 0 X2 0 X3 0 N 35 X1 0
P=1(抢救不成功)
X2 0 X3 0 N 4
0
0 0 1 1 1 1
0
1 1 0 0 1 1
1
0 1 0 1 0 1
34
17 19 17 6 6 6
0
0 0 1 1 1 1
0
1 1 0 0 1 1
1
0 1 0 1 0 1
10
4 15 6 9 6 6
14
等式左边
变化范围
P 1-P p/1-p ln(p/1-p)
发病概率 不发病概率 比数 (ratio)
0≤ P≤1 0≤ P≤1 0 ≤ p/1-p<+∞
对数比 (ratio) -∞< ln(p/1-p) <+∞
15
Logistic 回归模型为:
•ln[P/(1-P)]=β0+β1X1+…+βpXp.
既适合单个自变量的假设检验又适合多个自变量的 27 假设检验(常用于整个模型)。
三、logistic回归模型的假设检验
2. Wald 检验
将各参数的估计值 b j 与 0 比较,而
j
用它的标准误 S b 作为参照,检验统计量为
u
2
bj Sb j
或
bj Sb j
2
, 1
31
四、自变量筛选
方法:前进法、后退法和逐步法。 检验统计量:不是 F 统计量,而是似然比统计量、
Wald 统计量和计分统计量之一。 例18-2 为了探讨冠心病发生的有关危险因素,对
26例冠心病病人和28例对照者进行病例对照研究, 各因素的说明及资料见表18-1和表18-2。试用 logistic 逐步回归分析方法筛选危险因素。
3
医学研究中常碰到应变量的可能取值 仅有两个(即二分类变量)或多个,如生 存与死亡、发病与未发病、阳性与阴性、 治愈与未治愈、暴露与未暴露等.
而我们在研究中 , 又经常要分析应变 量结果的产生与哪些因素有关。 例如:生 存与死亡, 发病与未发病, 阴性与阳性等结
果的产生可能与病人的年龄、性别、生活习