医学统计学logistic回归分析
Logistic回归分析报告结果解读分析-logit回归解读
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。
比较常用得情形就是分析危险因素与就是否发生某疾病相关联。
例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。
自变量既可以就是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌得危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。
多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。
2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。
Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。
如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。
这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。
如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。
医学统计学logistic回归分析
3
0000001
0000001
… …………………
…………………
348 0 0 0 0 1 1 1
0001
0000011
350 0 0 1 1 1 1 1
1000011
24
假定同一层的2个人中,只有1人患病。 在 只有1人患病的条件下,恰好第1个人“患 病”而第2个人“未患病”的条件概率为
22
条件Logistic回归模型
例 为探讨女性乳腺癌危险因素,研究者在某市 1996 ~1997年间确诊的女性乳腺癌患者中随机抽 取350名病例,对每一病例配以一名性别相同、 年龄差别不超过2.5岁的对照。收集的信息包括: 文化程度(大专以下:0,大专及以上:1)、体质 指数(小于等于27:0,大于27:1)、近年精神压 抑(无:0,有:1)、乳腺良性疾病史(无:0, 有:1)、恶性肿瘤家族史(无:0,有:1)、初潮年 龄(大于等于14岁:0,小于14岁:1)、哺乳史 (有:0,无:1)
15
假设检验
检验整个模型:检验因变量与自变量之间 的关系能否用所建立的回归方程来表示 ;
单个回归系数是否为0:检验单个自变量对 因变量的影响是否存在。 最常用的检验方法有 似然比检验 WALD检验
16
假设检验----似然比检验
似然比检验常用于对整个模型的检验,检 验的假设为
H0:所有自变量的总体回归系数均为0 H1:自变量的总体回归系数不全为0
在H0成立的条件下,如果样本量较大,G近似地 服从自由度为Q-P的χ2分布
18
假设检验----WALD检验
• WALD检验常用于对单个回归系数的检验, 检验的假设为:
H0:βj=0 H1:βj≠0 WALD检验统计量为
医学医学统计学第十六章 Logistic回归分析
及其注意事项
2020/4/11
医学统计学
3
目的:作出以多个自变量(危险因素)估计
应变量(结果因素)的logistic回归方程。
属于概率型非线性回归。
资料:1. 应变量为反映某现象发生与不发生的
二值变量;2. 自变量宜全部或大部分为分类 变量,可有少数数值变量。分类变量要数量
2020/4/11
医学统计学
15
2. 优势比估计 可反映某一因素两个不 同水平(c1,c0)的优势比。
OR? ? exp[ j
bj (c1 ? c0 )]
若自变量 X j 只有暴露和非暴露两个水 平,则优势比ORj 的1 ? ? 可信区间估计公式为
exp(b j ? u? S / 2 bj )
2020/4/11
0
暴露 非暴露 ,
c1 ? c0 ? 1,
?? ?
0,
ORj
?1
无作用
则有 ORj ? exp ? j , ? j ??>0, ORj ? 1 危险因子
?
??? 0, ORj ? 1 保护因子
当 P ?? 1, 则有OR ? P1 /(1? P1) ? RR P0 /(1? P0 )
由于 OR j 值与模型中的常数项 ? 0 无关, ? 0 在危险因素分析中通常视其为无效参数。
医学统计学
16
例16-1 表16-1是一个研究吸烟、饮酒与食道癌关 系的病例-对照资料,试作 logistic回归分析。
确
X1
?
??1 ?
吸烟
定
?0 不吸烟
各 变 量
Logistic回归分析报告结果解读分析-logit回归解读
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。
比较常用得情形就是分析危险因素与就是否发生某疾病相关联。
例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。
自变量既可以就是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌得危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。
多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。
2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。
Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。
如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。
这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。
如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。
医学统计学13.Logistic回归分析(15)课件
H0 : 1 2 m 0
H1 : 各(j j 1,2,,m)不全为0
ln
1
P P
=
0
1X1
2 X 2
mXm
模型中某β是否为0进行检验
说明某自变量对Y的作用是否有统计意义
H0 :j 0 H1 : j 0
6、回归模型或回归系数的假设检验
检验方法:
1)似然比检验 (likelihood ratio test) 2)Wald检验 3)计分检验(score test)
统计学中,把ln(P/Q)称为 P 的Logit 转换或对 数转换,记为Logit P。由此得到的回归方程,称 为Logistic回归方程。
或: P
1
1 EXP[(0 1X1 2 X 2 m X m )]
P
1
P概率 1
1 exp[(0 x)]
Z 0 1x
0.5
β为正值,x 越
.793
12.726
Cons tant
1.697
.659
6.635
a. V ariable(s ) entered on step 1: x 1, x 2, x3.
df 1 1 1 1
Sig. .682 .104 .000 .010
Ex p(B) .998
2.208 .059
5.455
2 ( bj )2
当某影响因素Xi仅为两个水平 (1暴露,0非暴露),则:
OR exp b
i
i
当bi=0时,ORi=1,说明因素Xi对疾病发生不起作用; 当bi>0时,ORi>1,说明因素Xi对疾病发生是危险因素; 当bi<0时,ORi<1,说明因素Xi对疾病发生是保护因素。
精品课程医学统计学教学课件-logistic回归分析
详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。
(卫生统计学)第十九章 Logistic回归分析
结果解释
3个βi的估计值都是正数,表明这三个因素都是危险因素且都有统计学意 义。从优势比OR上可以看出,在因素x2和x3固定不变时,因素x1每增加一个 等级所引起的优势比为增加前的3.034倍;在因素X1和X3固定不变时,因素x2 每增加一个等级所引起的优势比为增加前的2.019倍 。在因素x1和x2固定不变 时,因素x3每增加一个等级所引起的优势比为增加前的2.651倍。同时在考察 因素相对贡献大小时,从标准系数看, β'1> β' 3 > β'2 ,故x1的相对贡献比x2和 x3大。
OR
P1 P0
/1 /1
P1 P0
e i
亦称比数比
反映某一个危险因素 xi在不同暴露水平下发病 与不发病的比。
当阳性率 P 1时, OR RR
二、参数估计
由于Logistic回归是一种概率模型,通常采用最大似然估计法(maximum likelihood estimate)求解模型中的参数βj的估计值 bj (j=0,1,2,….k)。
1. 相对危险度 RR( Re lative Risk ) RR P1 P0
反映某一个危险因素 xi两个不同暴露水平 1与 0的发病率的比
2. 优势 Odds
Odds P1 P1 1 P1 q1
亦称比数
反映某一个危险因素 xi在暴露水平 1下发病率与不发病率的 比
3. 优势比 OR ( Odds Ratio )
个例预测
设某AMI患者在症状5小时内送到医院(x3=0),未发生休克(x1=0), 已有心衰(x2=1),求抢救成功的概率。
医学统计学16-logistic回归
B:回归系数。当其他变量保持不变时,Xj每增加
a. Variable(s) entered on step 1: X2. b. Variable(s) entered on step 2: X4.
或减少1个单位时,OR值自然对数的平均变化量。 Exp (B):OR值(经校正的,或调整的OR值, B 2.096 e Exp ( B ) e 8.13 adjusted odds ratio) lnExp( B) B SE:回归系数的标准误 Wald值:对回归系数进行假设检验的统计量
2. SPSS的操作步骤
Logistic regression 对话框
将Y选入Dependent栏,X1 ~X5选入 Covariate栏,选择Forward:LR法。 单击Options按钮。
Options对话框
单击Continue按钮
单击OK按钮
3. SPSS的结果与分析 (1)数据基本情况
当缺失值没有或很少时逐步多因素logistic回归0步时的分析结果结果没有缺失值score统计量的结果与卡方检验一致无缺失值的情况下三多因素分析筛选独立的自变量进入模型例如动物脂肪摄入和体重指数在单因素分析都有统计学意义但多因素分析时只有动物脂肪摄入这个因素被引入模型
第十六章 logistic回归分析
11.17
8.14
0.044
0.054
1.07~116.44
0.97~ 68.62
表1 肾细胞癌转移的多因素logistic回归分析
影响因素 肾细胞血管内皮生长因子 OR值(95%CI) P值
11.17 (1.07~116.44)
0.044
肾癌细胞核组织学分级
8.14 ( 0.97~ 68.62 )
医学统计学logistic回归.
data ex15_1; input y x1-x3 @@; cards; 1 0 20 0 1 0 23 0 1 0 32 0 1 0 38 0 1 1 25 0 1 0 20 1 1 0 24 1 1 0 28 1 1 0 30 1 1 0 32 1 1 0 38 1 1 1 26 1 1 1 29 1 1 1 34 1 1 1 33 1 1 1 38 1 1 1 40 1 0 0 22 0 0 0 26 0 0 0 29 0 0 0 34 0 0 0 30 0 0 0 38 0 0 0 37 0 0 1 24 0 0 1 25 0 0 1 29 0 0 1 32 0 0 1 34 0 0 1 37 0 0 1 40 0 0 1 40 0 0 0 33 1 0 0 36 1 0 1 24 1 0 1 34 1 0 1 32 1 0 1 36 1 0 1 38 1 0 0 39 1 ; proc logistic descending simple; model y=x1-x3 /stb scale=none aggregate lackfit ; units x2=10; run;
式中,L是最大似然函数,g为应变量分 类变量的分类数,k为模型中包含的自 变量个数,n是样本例数。和AIC一样, SC值越小,模型拟合越好。用于比较 同一组数据下的不同模型间的比较。
(3)似然比检验法
G 2log L
G p Gk 服从自由度为k-p的χ2分布,p和k
是两个模型中包含的自变量个数。P<α, 则有统计学意义。
选项“LACKFIT”对模型进行拟合优度检 验(Goodness of fit statistics),P越大则 说明模型拟合的越好。
例15-1. 为研究病情x1(0表示不严重,1表 示严重)、年龄x2(岁)及不同治疗方法x3 (0表示传统疗法,1表示新疗法)对某病疗 效的影响,某研究者随机抽取40名某病的患 者,其中有20名患者采用传统疗法,另20名 患者采用新疗法,经过一段治疗后记录下康 复的情况y(0表示未康复,1表示康复), 作logistic回归分析。
21chapter171知识点1logistic模型医学统计学
logistic回归分析分类
(1)二分类资料logistic回归:因变量为两分 类变量的资料,可用非条件logistic回归和条 件logistic回归进行分析。
3、对偏回归系数的标准化
例 为了探讨冠心病发生的有关危险因素,对 26例冠心病病人和28例对照者进行病例对照 研究,各因素的说明及资料见表1和表2。试用 logistic 逐步回归分析方法筛选危险因素。
( 入 0 .1 0, 出 0 .1 5)
表1 冠心病8个可能的危险因素与赋值
因素
变量名
赋值说明
X8 否=0, 是=1
冠心病
Y 对照=0,病例=1
表2 冠心病危险因素的病例对照调查资料
序号 X1
X2
X3
X4
X5
X6
X7
X8
Y
1
3
1
0
1
0
0
1
1
0
2
2
0
1
1
0
0
1
0
0
3
2
1
0
1
0
0
1
0
0
4
2
0
0
1
0
0
1
0
0
5
3
0
0
1
0
1
1
1
0
6
3
0
1
1
0
0
2
1
0
7
201000100
8
301110100
医学统计学logistic回归
Dure’s 分期
X5
2 4 3 2 2 ...
3 3 3 1 2
淋巴管 浸润
X6
0 1 1 0 0 ...
0 0 0 0 0
血管 5 年生 浸润 存状态
X7
0 0 1 0 0 ...
1 0 1 0 0
Y
1 0 1 1 0 ...
1 0 1 1 1
因 X 5 (Dure’s 分期)为无序多分类变量资料, 以最高值为参照水平,产生 3 个哑变量
患者 编号
1 2 3 4 5 ...
154 155 156 157 158
性别
年龄 (岁)
X1
1 0 1 1 1 ...
1 0 1 1 0
X2
64 47 41 77 59 ...
49 43 70 72 32
组织学 分类
X3
1 1 1 1 0 ...
1 1 1 1 1
肿瘤 大小
X4
0 1 1 1 1 ...
表 18-1 158 例经手术治疗大肠癌患者临床病理因素及 5 年生存状态资料
患者 编号
1 2 3 4 5 ...
154 155 156 157 158
性别
X1
1 0 1 1 1 ... 1 0 1 1 0
年龄 (岁)
X2
64 47 41 77 59 ...
49 43 70 72 32
组织学 分类
自由度=9 P <0.0001,拒绝 H 0 可以认为所建立的 logistic 回归方程具有统计学意义
(2)Wald 检验(Wald test )
某个自变量对因变量是否有影响?
H0 : j 0 , H1 : j 0
卫生统计学logistic1
5 12 30.0±6.4
5.013 1.360
0.0252 4.50(1.17-17.37) 0.1828
单因素分析的缺陷
由于受到混杂因素的影响,有时单因素估计暴 露与结局之间的关系不能真实地反映两者之间 的联系,可能是一种虚假的联系;
所以在统计分析策略上,如果混杂因子较少, 可以用Mantel-Haenszel 分层分析的方法(其 缺点是最多调整2层)
Logistic 回归模型的相关假设检验
整个模型的检验: AIC检验法(Akaike Information Criterion) 、SC检验法、 (Schwarte Criterion)似然比检验法(最可 靠)、计分检验法(Score) 和Wald检验法
各个回归系数的检验: Wald-χ2检验法 拟合优度检验( Goodness of fit statistics)
proc freq; tables x1*x3*y/chisq cmh;run; (调整x1)OR=5.29(95%CI:1.26~22.25)
引入多因素Logistic回归分析方法
可克服Mantel-Haenszel 分层分析方法的缺点 也就是说,如果调整了其它混杂因素后,主研
究因素仍有统计学意义,说明某因素与结局之 间关联是独立的。
回归系数与优势比(比数比)有直接的联系;
OR j exp[ j (c1 c0)]
表示在两个暴露水平Xj=C1相对于Xj=C0的风险比 值情况
二、Logistic 回归模型的配合
非条件Logistic 回归模型:主要设计类型 (完全随机设计case-control study, crosssectional study)
2007-12-11
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归系数的区间估计
总体回归系数β的置信区间为
bZ/2Sb
OR的置信区间为
e(bZ/2Sb)
条件Logistic回归模型
医学研究中,常采用匹配设计,即为病例 组的每一个研究对象匹配一个或几个有同 样特征的未患病者,作为该病例的对照, 这样,除了研究因素外,病例与对照的其 他特征相同,从而消除“其他特征”的混 杂作用。常用的匹配形式为1:1,即一个病 例匹配1个对照。
P(第 1个人同 患一 病层中两 )者 ( 11 之 ( 1 0)1 一 0 0()1患 1)
e(0 X 1)
1
e(0 X 1)e(0 X 0) 1e (X 1X 0)
• 若自变量扩展到个 P个
P(第 1个人同 患一 病层中两)者 之p 1一患 j(X1jX0j)
Logistic回归的应用
校正混杂因素 筛选危险因素 预测与判别
但由于条件回归模型不能估计常数项, 其结 果只能帮助分析变量的效应, 不能用于预测。
需注意的问题
个体间的独立性 足够的样本量 变量的赋值 模型评价 标准化回归系数
O Rej(C2C1)
当XJ的二个水平相差1个单位时,
ORj ej
模型参数
当变量Xj的回归系数Βj >0时, Xj增加1个 单位后与增加前相比,事件的优势比ORj >1,表明Xj为危险因素;
Βj <0时, Xj增加1个单位后与增加前相比, 事件的优势比ORj <1 ,表明Xj 为保护因素;
配对号
1 2 ... n
1 :1 配 对 设 计 数 据 的 一 般 格 式
病例
对照
x X 11 X 21 ...
X n1
y 1 1 ...
1
x X 10 X 20 ...
X n0
y 0 0 ...
0
每个对子含两个人,第 1个已经患病,第 2个没有患病; 自 变 量 为 x , 第 i 层 第 1 个 人 的 自 变 量 记 为 X i1 , 第 2 个 人 的 自 变 量 记 为 X i0
Logistic回归模型
求解
ln 1 ()01X 1...m X m
(01X1...mXm)
1ee(01X1...mXm)
右端在数学上属于Logistic函数,所以称其为 Logistic回归模型 。
模型参数
β0 :常数项(截距),表示模型中所有自变 量均为0时,logit() 的值;
例: 大肠癌患者临床病理因素对其预后可能产生 影响。收集了158例经手术治疗大肠癌患者 的性别、年龄、组织学分类、肿瘤大小、 Dure’s分期、淋巴管浸润、血管浸润、5年 生存状态等资料
• 目的:预测经手术治疗大肠癌患者5年生存 概率。
变量
➢ 性别:女=0 ,男=1 ➢ 年龄:实测值 ➢ 组织学分类:乳头状腺癌=0,管状腺癌=1 ➢ 肿瘤大小:6cm及以上=0,6cm以下=1 ➢ Dure’s分期:A=1,B=2,C=3,D=4) ➢ 淋巴管浸润:无=0,有=1 ➢ 血管浸润:无=0,有=1 ➢ 5年生存状态:存活=0,死亡=1
条件Logistic回归模型
例 为探讨女性乳腺癌危险因素,研究者在某市 1996 ~1997年间确诊的女性乳腺癌患者中随机抽 取350名病例,对每一病例配以一名性别相同、 年龄差别不超过2.5岁的对照。收集的信息包括: 文化程度(大专以下:0,大专及以上:1)、体质 指数(小于等于27:0,大于27:1)、近年精神压 抑(无:0,有:1)、乳腺良性疾病史(无:0, 有:1)、恶性肿瘤家族史(无:0,有:1)、初潮年 龄(大于等于14岁:0,小于14岁:1)、哺乳史 (有:0,无:1)
问题提出
Logistic 回归分析可解决应变量为:
– 二分类; – 无序多分类; – 有序多分类;
本次教学主要介绍应变量为二分类的 Logistic 回归分析
分类
按设计, Logistic 回归分析分为: 成组:非条件Logistic 回归分析 配对:条件Logistic 回归分析
Logistic回归模型
假设检验----似然比检验
似然比检验常用于对整个模型的检验,检 验的假设为
H0:所有自变量的总体回归系数均为0 H1:自变量的总体回归系数不全为0
假设检验----似然比检验
假设模型A含有P个自变量,相应的达到极大的对 数似然函数值LnL0;
模型B是在模型A的P个自变量基础上新加入一个 或几个自变量,自变量个数变为Q,相应的达到极 大的对数似然函数值LnL1 ;
Βj =0 , Xj增加1个单位后与增加前相比, 事件的优势比, ORj =1,表明Xj对结果变量 不起作用。
Logistic回归的参数估计
Logistic回归模型中的参数β1 , β2 、… βP 需要通过样本资料,按照一定方法进行估 计,估计量记为b1 , b2 、… bP。
参数估计方法有多种,极大似然估计 ( MLE)最为常用
比较模型A与模型B的极大似然函数值,构建似然 比检验统计量
G2(lL n 1ln L0)
在H0成立的条件下,如果样本量较大,G近似地 服从自由度为Q-P的χ2分布
假设检验----WALD检验
• WALD检验常用于对单个回归系数的检验, 检验的假设为: H0:βj=0 H1:βj≠0
WALD检验统计量为
Logistic回归的参数估计
极大似然估计基本思想 选择能有最大概率获得当前样本的参数值 作为参数的估计值。
假设检验
检验整个模型:检验因变量与自变量之间 的关系能否用所建立的回归方程来表示 ;
单个回归系数是否为0:检验单个自变量对 因变量的影响是否存在。 最常用的检验方法有 似然比检验 WALD检验
女 性 乳 腺 癌 危 险 因 素 1 :1 配 对 病 例 -对 照 研 究 资料整理表
配
病例
对照
对
X 11 X 12 X 13 X 14 X 15 X 16 X 17
X 01 X 02 X 03 X 04 X 05 X 06 X 07
号
1
0000010
0000001
2
0100101
0000001
3
0000001
0000001
… …………………
…………………
348 0 0 0 0 1 1 1
0000011
349 1 0 1 0 0 0 1
0000011
350 0 0 1 1 1 1 1
1000011
假定同一层的2个人中,只有1人患病。 在 只有1人患病的条件下,恰好第1个人“患 病”而第2个人“未患病”的条件概率为
Logistic 回归分析 (Logistic Regression Analysis)
问题提出
多重线性回归分析的前提条件 线性;独立;正态;等方差( Y:正态随机变量)
Y为分类变量,多重线性回归不适用 研究二分类因变量(如患病与未患病、阳性与阴性 等)或多分类因变量与一组自变量(X1, X2,...Xm,)的关系,线性回归分析方法 就无能为力。
β1 , β2 、... βP:回归系数 ,表示在控 制其他自变量时,自变量变化一个单位所引 起的 logit() 改变量。
模型参数
loig(t)ln1 ()lnO ( d)ds
O d e (0 d 1 X 1 .s . .m X m )
模型参数
一般地,根据多个自变量的回归模型,在 其他变量取值不变的情形下,与变量Xj的二 个水平C1与C2(C2>C1)相对应的事件的 优势比为 :
1ej1
条件Logistic回归模型
公式左端为条件概率 ,相应的Logistic回 归称为条件回归,前述非匹配资料的 Logistic回归则称为非条件回归 ;
条件Logistic模型中,不含常数项 β0 。
应用
Logistic回归分析广泛用于流行病学 中前瞻性的队列研究、回顾性的病例对照研究以及现况研究。
Logistic回归模型
因变量为二分类变量,不满足线性回归分 析条件,首先进行数据变换:
loig (t)ln1( )lnO ( d)ds
这个变换将取值在0-1间的值转换为值域在
( , )的值。
建立logi t()与X的线性模型:
lo i(tg )0 1 X 1 . ..m X m