Logistic回归分析及应用(行业一类)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
bi ' bi * Si / S y , 其中Si为X i的标准差,
S y为y的标准差。
讲课材料
15
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i 0, i 0,1,2,, p H1:某个 i 0
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
• (2)回归系数的假设检验 • H0: i 0 H1:i 0
讲课材料
11
3、 Logistic回归模型
令: y=1 发病(阳性、死亡、治愈等)
y=0 未发病(阴性、生存、未治愈等)
将发病的概率记为P,它与自变量x1, x2,…,xp之间的Logistic回归模型为:
p exp( 0 1 X 1 p X p ) 1 exp( 0 1 X 1 p X p )
bi为i的估计值,此值越大, 其因素对Y影响越大。
• 故对于样本资料OR=exp(bi )
• 95%置信区间为:exp(bi 1.96SE(bi )) • 可见 i 是影响因素Xi增加一个单位所引起的对数
优势的增量,反映了其对Y作用大小。 • 如果要比较不同因素对Y作用大小,需要消
除变量量纲的影响,为此计算标准化回归系数
其中b0为截距, b1 ,b2 …bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi 改变1个单位时Y将改变bi个单位.
讲课材料
4
logistic regression analysis
讲课材料
5
(一)基本概念和原理
1.应用背景
Logistic回归模型是一种概
率模型,适合于病例—对照研究、
7
• 表2 Logistic回归模型的数据结构
实验对象 y
X1
X2
1
y1 a11 a12
2
y2 a21 a22
X3 …. XP
a13 … a1p a23 … a2p
3
y3 a31 a32
a33 … a3p
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
第十六章 Logistic回归分析
Logistic regression
讲课材料
1
复习 多元线性回归
(multiple linear regression)
• 在医学实践中,常会遇到一个应变量与
多个自变量数量关系的问题。如医院住院
人数不仅与门诊人数有关, 而且可能与病
床周转次数, 床位数等有关;儿童的身高
13
4、回归系数βi的意义
流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露 人群发病优势与非暴露人群发病优势 之比。
即Xi的优势比为:OR P1 /(1 P1 ) P0 /(1 P0 )
Ln(OR) log it[P(1)] log it[P(0)]
( 0 i 1) ( 0 讲课材料 i 0) i 14
不仅与遗传有关还与生活质量,性别,地
区,国别等有关;人的体表面积与体重、
身高等有关。
讲课材料
2
• 表1 多元线性回归分析的数据结构
实验对象 y
1
y1
2
y2
3
y3
X1
X2
a11 a12
a21 a22
a31 a32
X3 …. XP
a13 … a1p a23 … a2p a33 … a3p
… ……… ………
可知,不发病的概率为:
1
1 p
1
exp(讲课材0 料
1
X
1
Hale Waihona Puke Baidu
p
X
p
)
12
经数学变换得:
ln[p /(1 p)] 0 1 X1 p X p
定义:
log it( p) ln[ p /(1 p)]
为Logistic变换,即:
Logit( p) 0 1 X1 p X p
讲课材料
其中:y取值是二值或多项分类
讲课材料
8
•
表3 肺癌与危险因素的调查分析
• 例号 是否患病 性别 吸烟 年龄
•1
1
1
0 30
•2
1
0
1 46
•3
0
0
0 35
•…
…
… ……
• 30
0
0
0 26
地区 0 1 1 … 1
• 注:是否患病中,‘0’代表否,‘1’代表是。 性别中‘1’代表男,‘0’代表女,吸烟中‘1’ 代表吸烟,‘0’代表不吸烟。地区中,‘1’代 表农村,‘0’代表城市。
随访研究和横断面研究,且结果发
生的变量取值必须是二分的或多项
分类。可用影响结果变量发生的因
素为自变量与因变量,建立回归方
程。
讲课材料
6
2、Logistic回归模型的数据结构
设资料中有一个因变量y、p 个自变量x1, x2,…,xp,对每个实 验对象共有n次观测结果,可将原 始资料列成表2形式。
讲课材料
•
讲课材料
10
Logistic回归
-- Logistic回归与多重线性回归联系与区别
联系:
用于分析多个自变量与一个因变量的关 系,目的是矫正混杂因素、筛选自变量和更 精确地对因变量作预测等。
区别:
线性模型中因变量为连续性随机变量, 且要求呈正态分布. Logistic回归因变量的 取值仅有两个,不满足正态分布。
计算统计量为:Wald 2 ,自由度等于1。
讲课材料
16
(二) Logistic回归类型及其实例分析
• 1、非条件Logistic回归 • 当研究设计为队列研究、横
断面研究或成组病例对照研究时, 可以用非条件Logistic回归。
讲课材料
17
实例1
• 某研讨究者调查了30名成年人,记录 了同肺癌发病的有关因素情况, 数据见表 4。其中是否患病中, ‘0’代表否, ‘1’代表 是;性别中 ‘1’代表男, ‘0’代表女;吸 烟中 ‘1’代表吸烟, ‘0’代表不吸烟;地 区中, ‘1’代表农村, ‘0’代表城市。试分 析各因素与肺癌间的关系。
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是服从正态分布
讲课材料
3
多元线性回归模型
通过实验测得含有p个自变量x1,x2,x3,…,xp 及一个因变量y的n个观察对象值, 利用最小二乘法 原理, 建立多元线性回归模型:
yˆ b0 b1x1 b2 x2 bp xp
讲课材料
9
•
表4 配对资料(1:1)
• 对子号
病例
对照
•
x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3
•
X2不良饮食习惯,取值:0,1,2,3
•
X3精神状况 ,取值:0,1,2