logistic回归分析精品PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平 X j c1 与 X j c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为:
ln ORj
ln
P1 P0
/(1 /(1
P1 ) P0 )
logitP1
logitP0
m
m
(0 jc1 t X t ) (0 jc0 t X t )
由于OR j 值与模型中的常数项0 无关, 0 在危险因素分析中通常视其为无效参数。
• 例1 为了探讨糖尿病与血压、血脂等因素的关系, 某研究者对56例糖尿病病人和65例对照者进行病 例-对照研究,收集了性别、年龄、学历、体重指
数、家族史、吸烟、血压、总胆固醇、甘油三酯、 高密度脂蛋白、低密度脂蛋白11个因素的资料。
a23 … a2p
a31
a32
a33 … a3p
…… ………
n
yn
an1
an2
an3 …
anp
其中:y取值是二值或多项分类
Logistic回归分类
• 按照反应变量类型 –二分类反应变量的logistic回归 –多分类有序反应变量的logistic回归 –多分类无序反应变量的logistic回归
• 按照研究设计类型 –非条件logistic回归(研究对象未经匹配) –条件logistic回归(研究对象经过匹配)
对照=0,病例=1
多因素的logistic回归
Or值>1危险
Variables in the Equation
95.0% C.I.for EXP(B)
Satep 性 别
1
年龄
学历
体重指数
家族史
吸烟
血压
总胆固醇
甘油三脂
B .263 .085 -.699 1.621 1.634 3.126 1.647 .606 2.312
性别
年龄
学历 体重指数 家族史
吸烟 血压
总胆固醇
甘油三 脂
hdl
ldl
糖尿 病
1 60
2
2
1
11
4.30
1.50
1.2 4
2.30
0
1 48
3
1.1
2
1 1 1 4.60 1.32
2.30
0பைடு நூலகம்
5
2 63
2
1.1
1
1 1 2 4.60 1.15
2.30
0
5
1 68
3
2
2
11
4.15
1.43
1.0 7
3.21
0
1 45
2
1
2 1 1 3.42 1.22 .63 2.30
0
1 45
3
1 59
2
1 68
3
2 63
2
3
2 1 1 4.16 .96 .98 2.65
0
1.0
1
1 1 1 4.32 1.02
3.49
0
5
3
1
11
3.80 1.42 2.8 .85
0
6
2
1
11
3.87
1.55
2.4 4
.81
0
• 表8 糖尿病影响因素赋值说明
因素
变量名
性别
X1
年龄
X2
学历
X3
体重指数
X4
家族史
X5
吸烟
X6
血压
X7
总胆固醇
X8
甘油三酯
X9
高密度脂蛋白 X10
低密度脂蛋白 X11
糖尿病
Y
赋值说明
男=1,女=2
小学以下=1,小学=2,初中=3, 高中=4,大专及以上=5 <24=1, 24~<26=2, 26~=3 无=1,有=2 不吸=1,吸=2 正常=1,高=2
S.E. .636 .036 .298 .552 .682 .714 .670 .472
1.042
Wal d .171
5.521 5.513 8.621 5.744 19.174 6.040 1.647 4.929
df 1 1 1 1 1 1 1 1 1
Si g. .679 .019 .019 .003 .017 .000 .014 .199 .026
Exp(B) 1.301 1.089 .497 5.056 5.124 22.787 5.190 1.832 10.098
Lower .374
1.014 .277
1.714 1.347 5.623 1.396
.727 1.311
Upper 4.527 1.168 .891 14.915 19.497 92.341 19.298 4.621 77.767
Logistic回归模型的数据结构
设资料中有一个因变量y、p 个自变量x1, x2,…,xp,对每个实 验对象共有n次观测结果,可将原 始资料列成表1形式。
• 表1 Logistic回归模型的数据结构
实验对象 y
1
y1
2
y2
3
y3
……
X1
X2
X3 …. XP
a11
a12
a13 … a1p
a21
a22
t j
t j
j (c1 c0 )
即 ORj exp[ j (c1 c0 )]
若X
j
1 0
暴露 非暴露 , c1 c0 1,
0,
OR j
1
无作用
则有 ORj exp j , j >0, ORj 1 危险因子
0, ORj 1 保护因子
当 P 1, 则有OR P1 /(1 P1) RR P0 /(1 P0 )
Logistic回归模型
应变量Y
1 0
发生 未发生
,
自变量X1, X 2 ,
, Xm
在m个自变量的作用下阳性结果发生的概率记作:
P P(Y 1| X1, X 2 ,, X m ) 0 P 1
它与自变量x1, x2,…,xp之间的Logistic回
归模型为:
p exp(0 1X1 2 X 2 ... m X m ) 1 exp(0 1X1 2 X 2 ... m X m )
1 p
1
1 exp( 0 1 X 1 p X p )
模 型
ln
P 1 P
=0
1
X1
2
X
2
m X m log itP
参 数
常数项 0
表示暴露剂量为0时个体
的
发病与不发病概率之比的自然对数。
意 义
回归系数 j ( j 1,2,, m)
表示自变量 X j 改变一个单位时
logitP 的改变量。
Logistic回归分析
一、基本概念和原理
• Logistic回归模型是一种概率模型,适合于病 例—对照研究、随访研究和横断面研究,且结果发 生的变量取值必须是二分类的或多项分类。可用影 响结果变量发生的因素为自变量与因变量,建立回 归方程。
• Logistic 回归是研究观察结果(y)为分类变量 与多个影响因素(X)之间回归关系的多变量统计方 法。
优势比OR(odds ratio)
流行病学衡量危险因素作用大小的比数比例指标。 计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, OR j 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。