精品课程-logistic回归分析
医学统计学课件:第十六章 logistic回归分析
0
1 X1
2
X
2 ...
m
X
m
• 对比某一危险因素两个不同暴露水平的
发病情况(假定其它因素的水平相同)
其比数比(优势比)的自然对数为:
ln ORj
ln
P1 P0
/ /
1 1
P1 P0
回归系数βj 的流行病学意义
假定其它因素水平相同时,自变量Xj的暴露 剂量每改变一个单位(如取值为c1和c0),所引起 的比值比的自然对数改变量。
H0 : j 0 H1 : j 0
2
2 bj
Sbj
1
八、模型的建立与变量筛选
• 将有统计学意义自变量选入模型,无统
计学意义的自变量则排除在模型外,使 建立的模型比较稳定和便于解释。
《实习指导》例题
• 例 某研究人员在探讨肾细胞癌转移的有
关临床病理因素研究中,收集了一批行 根治性肾切除患者的肾癌标本资料,现 从中抽取26例资料作为示例进行logistic 回归分析。
n
ln L Yi ln Pi 1 Yi ln1 Pi i 1
OR值估计
ORˆ j exp bj c1 c0
• ORj的可信区间估计利用bj的抽样分布来估
计,在样本含量较大的情况下,它近似服 从正态分布。若自变量只有暴露和非暴露 两个水平,则ORj的95%可信区间为:
exp bj 1.96Sbj
0
.0
Total
26
100.0
a. If weight is in effect, see classification table for the total number of cases.
• 数据基本情况为26例纳入分析,没有缺失值
Logistic回归分析重点难点ppt课件
病例对照研究
病 例
调查方向
暴露 未暴露
病例 对照
a c
b d
暴 露
对 照
未暴露
研究起点
危险度
危险度( risk) :通常指某个不幸事件发生的概 率。危险度大表示发生的可能性大。 某病发病危险度:观察对象在观察期间内发生某 病的概率,即某病发病率。
ห้องสมุดไป่ตู้
险因子的发病率 p e 与不暴露于该种危
相对危险度(relative risk, RR) :暴露于某种 危险因子的发病率 pe 与不暴露于该种危险因子的 p o 之比。 发病率 p0 之比。
a c
b d
a /(a b) c /(c d ) OR / b /(a b) d /(c d ) ad / bc
病例对照研究一般用OR替代RR。
队列研究
患病 未患病
暴露组 非暴露组
a c
b d
OR ad / bc a /(a b) RR c /(c d )
(对发病率 较低的疾病)
比数(odds):发生率与未发生率之比,即 p/(1-p) , 比数:发生率与未发生率之比,及 p (1 p ) 即阳性率/阴性率。
比数比( OR , odds ) :两个比数之比,即 比数比( odds ratio , ORratio ) :两个比数之比,
比数比
p1 即 1 p 1
OR (ad) /(bc) 1.727 。 则吸烟的 RR
实例
例16-2 为了探讨冠心病发生的有关危险因素,对 26例冠心病病人和28例对照者进行病例对照研究, 调查记录了8个可能的危险因素,试用Logistic逐步 回归分析方法筛选危险因素,并分析各自变量的作 用大小。
精品课程医学统计学教学课件-logistic回归分析
(三)巢式病例对照研究
也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的 方法。
第一节 logistic回归
logistic 回归模型:
设因变量Y 是一个二分类变量,其取值为Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m
PYi i
(1
Pi
)1Yi
(i 1, 2, , n ) (15.6)
其中, Pi 表示第 i 例观察对象处于暴露条件下时阳
性结果发生的概率。阳性结果时,Yi 1 ;阴性结
果时,Yi 0 。
根据最大似然原理,似然函数 L 应取最大值。
对似然函数取对数形式:
n
ln L i1[Yi ln Pi (1Yi ) ln(1 Pi )]
当各种暴露因素为 0 时
X
2
mXm
0 1 0 m 0 0
可看出:常数项 0 是当各种暴露因素为 0 时,个体发病
与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2,, m )表示在其它自变量固定的
条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变
则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
设 X j 为两分类变量: c1 =1 为暴露, c0 =0 为非暴露,
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
19Logistic回归分析
19Logistic回归分析第十九章 Logistic 回归分析[教学要求]了解:logistic 回归模型的基本结构;参数估计的基本思想;如何用logistic 回归模型做预测。
熟悉:logistic 回归系数的假设检验和区间估计方法;条件logistic 回归与非条件logistic 回归的适用条件;如何用logistic 回归校正混杂因素和筛选因素。
掌握:logistic 回归分析的用途;logistic 回归系数的流行病学意义及其与优势比或相对危险度的关系。
[重点难点]第一节 Logistic 回归模型的基本概念基本概念线性logistic 回归模型为X PP Y ββ+=?=0)1ln(。
Logistic 回归模型又可表示为XX e e P ββββ+++=001。
第二节 Logistic 回归的参数估计及假设检验一、基本概念最大似然法的基本思想:先建立似然函数和对数似然函数;求似然函数或对数似然函数达到极大时参数的取值,称为参数的最大似然估计值。
Logistic 回归模型常数项:表示在其它自变量均为零时死亡(或发病)优势(odds) 的对数值,当死亡(或发病)概率很低时,不死亡(或不发病)的概率接近1,该值近似等于自然死亡率(或发病率)。
βLogistic 回归系数的意义:设是变量X 的logistic 回归系数,exp()是其它变量取值固定时,该变量与疾病关联的优势比(),反映了危险因素X 与疾病关联的程度。
ββ?∧OR二、计算似然比检验的统计量是G =-2ln L -(-2ln L ’)Wald 检验统计量是22))?(?(ββχSE =回归系数的区间估计: )?(?2/ββαSE Z ±第三节条件l ogistic 回归模型一、基本概念条件logistic 回归模型的结构:设只有一个自变量X ,假定个体得病的概率正比于)exp(0X ββ+,即)exp()1(0A A X Y P ββ+∝=,)exp()1(0B B X Y P ββ+∝=。
第十二章Logistic回归分析
第十二章Logistic 回归分析一、Logistic 回归概述:Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施; 通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的 因素为自变量建立模型。
、Logistic 回归的分类及资料类型:第一节非条件Logistic 回归分析、Logistic 回归模型:Logistic 回归模型:exp ( • :i X i ——亠」p X p )p 二1 +exp ( B o + B i X i i + Pp X p ) 1二、回归系数的估计(参数估计):回归模型的参数估计:Logistic 计法。
二、假设检验: 1. Logistic 回归方程的检验:•检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性 关系,也即方程是否成立。
检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。
上述三种方法中,似然比检验最可靠。
•似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为 G=-2l n(L)(又称Devia nee )。
无效假设H O : B =0。
当H 0成立时,检验统计量 G 近似服从自由度为N-P-1的X 2分布。
当G 大于临界值时,接受H,拒绝无效假设, 认为从整体上看适合作Logistic 回归分析,回归方程成立。
2. Logistic 回归系数的检验:•为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假 设检验,判断其对模型是否有贡献。
•检验方法常用 WaldX 检验,无效假设H0 B =0。
当X 2大于临界值时,拒 绝无效假设,自变量能进入方程。
1亠elogit (P )= ln (±)=B o +B * 1 x 1 + , + B n x n回归模型的参数估计通常利用最大似然估3.Logistic 回归模型的拟合优度检验:•Logistic 回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。
第三讲 logistic回归分析
ln L
2 p
0
0(
s
)
,
1
1(
s
)
,
,
p
(s p
)
(s1) A
(s) A
[I (s) ]1
D(s)
,
Cov
(s A
1)
[I
(s)
]1
实例 例16-1 下表是一个研究吸烟(X1)、饮酒(X2)与食道癌(Y)关系的病例-对照
资料,各变量赋值情况如下,试作logistic回归分析。
分布。本例吸烟和饮酒Wald χ2 值分别为34.862和11.207,与似然比检验的结果一致。
(四)变量筛选
当对多个自变量建立logistic回归模型时,并不是每一个自变量对模型都有贡献。通常 希望所建立的模型将具有统计学意义的自变量都包含在内,而将没有统计学意义的自 变量排除在外,即进行变量筛选。
ln
ORj
=
ln
P1 P0
/ /
(1 (1
P1) P0 )
=logit(P1)-logit(P0
)
m
m
=(0 jc1 t X t ) (0 jc0 t Xt )
t j
t j
= j (c1 c0 )
ORj exp[ j (c1 c0 )]
多分类有序变量: 疾病程度(轻度、中度、重度)、治愈效果(治愈、显效、好转、无效)
一、logistic回归
(一) logistic回归模型
设有一个二值因变量
Y
,取值为
logistic回归分析PPT精品课程课件讲义
问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进
精品课程医学统计学教学课件-logistic回归分析
详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。
Logistic回归分析(共53张PPT)
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
11Logistic回归分析精讲
11 Logistic回归分析在中医药科研中,经常遇到因变量是分类变量(包括二分类和多分类)的资料,如治 愈与未治愈,生存与死亡,发病与未发病,疗效评价分显效、好转、无效等级等。
这类资 料,由于因变量是分类变量不具有连续性和正态性,直接用一般多元线性回归分析是不妥 的,需用Logistic 回归分析。
Logistic 回归分析是一种适用于因变量为分类变量的回归分析, 近年来在许多研究领域得到了广泛的应用。
Logistic 回归属于概率型非线性回归, 它分为非条件Logistic 回归和条件Logistic 回归(又 称配比Logistic 回归),二者根本的差别在于构造 Logistic 模型时是前者未使用条件概率, 后 者使用了条件概率。
11.1二分类资料的Logistic 回归分析如果因变量Y 是二分类变量,其取值只有两种,如阳性(编码为1)和阴性(编码为0), 这时要说明的问题是阳性率p 二P (Y =1)与自变量X 间的关系,可进行因变量为二分类资料的Logistic 回归。
二分类Logistic 回归对自变量没有特殊要求,自变量可以是分类变量和 连续变量。
11.1.1一个两分类自变量的二分类 Logistic 回归1操作步骤(1)指定频数变量:选择菜单Data T Weight cases,在弹出的Weight cases 对话框中,将频数变量 f 送入Frequency 框中;单击 OK 。
(2)进行二分类 Logistic 回归分析。
选择菜单 AnalyzeT Regression T Binary Logistic (二分类 Logistic ),弹出 Logistic Regression 对话框,如图 11-2;将因变量 lx 送入 Dependent (因变量)框内,将自变量 fz 送入Covariates (协变量)框内;单击 Options (选项)按钮,一个自变量的二分类 Logistic 回归要拟合的 Logistic 回归方程为:log it ( p )二 ln (~^) = b o bX1 -P例11-1 《实用中医药杂志》2006年1月 第22卷1期,复方血栓通胶囊配合肌苷片治疗 青少年近视,数据见表11-1。
logistic回归分析
表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
论文经典方法Logistic回归分析及其应用课堂PPT课件PPT40页
1967年Truelt J,Connifield J和Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究,较早将Logistic回归用于医学研究。一般概念一元直线回归多元直线回归
.
第2页,共40页。
一元直线回归模型 y = a + b x + e多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
.
第39页,共40页。
其他问题
logistic回归的局限性理论上的不足:自变量对疾病的影响是独立的,但实际情况及推导结果不同。模型有不合理性:“乘法模型”与一般希望的“相加模型”相矛盾。最大似然法估计参数的局限样本含量不宜太少:例数大于200例时才可不考虑参数估计的偏性。
.
第40页,共40页。
.
第30页,共40页。
非条件logistic回归
研究对象之间是否发生某事件是独立的。适用于:成组的病例-对照研究无分层的队列研究或横断面调查诊断性试验
.
第31页,共40页。
条件logistic回归
研究中有N个配比组,每组中n个病例配m个对照者。这时,各个研究对象发生某事件的概率即为条件概率。适用于配比设计的病例-对照研究精细分层设计的队列研究
value labelssex 1 '男' 2 '女'/hisc 1 '是' 0 '否' 9 '无法判断'/nsex 1 '正常' 0 '异常' 9 '未检'/demdx 1 '有' 0 '无'/addx 0 '无' 1 '危险性' 2 '可能' 3 '很可能'/edu 0 ‘文盲’ 1 ‘小学程度’ 2 ‘初中及以上'
logistic回归分析
hdl
-.914
.432
4.484
1
.034
.401
.172
.934
ldl
.017
.416
.002
1
.967
1.017
.450
2.300
Constant -20.207
4.652 18.866
1
.000
.000
a. Vari able(s) ente red o n step 1: 性 别 , 年 龄 , 学 历 , 体 重 指 数 , 家 族 史 , 吸 烟 , 血 压 , 总 胆 固 醇 , 甘 油 三 脂 , hd l, ldl.
1 p
1
1 exp( 0 1 X 1 p X p )
模 型
ln
1
P P
=0
1
X1
2
X
2
m X m log itP
参 数
常数项 0
表示暴露剂量为0时个体
的
发病与不发病概率之比的自然对数。
意 义
回归系数 j ( j 1,2,, m) 表示自变量 X j 改变一个单位时
t j
t j
j (c1 c0 )
即 ORj exp[ j (c1 c0 )]
若X
j
1 0
暴露 非暴露 , c1 c0 1,
0,
OR j
1
无作用
则有 ORj exp j , j >0, ORj 1 危险因子
0, ORj 1 保护因子
开始变量都在方程中,然后 按自变量因变量的贡献(P值的大 小)由大到小依次剔除,变量剔 除的条件是其P值大于规定的剔除 标准Remove, 缺省值 p(0.10)。
Logistic回归分析及应用
df Sig. Exp(B) 1 .166 12.431 1 .043 54.568
X3
.189 79 5.708
1 .017 1.208
X4 -1.306 1.583 .681
1 .409 .271
Consta-n9t.781 4.099 5.694
1 .017 .000
a.Variable(s) entered on step 1: X1, X2, X3, X4.
2
• 表1 多元线性回归分析的数据结构
实验对象 y X1 X2
1
y1 a11 a12
2
y2 a21 a22
3
y3 a31 a32
… ………
X3 …. XP
a13 … a1p a23 … a2p a33 … a3p ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是服从正态分布
•
Logistic回归
-- Logistic回归与多重线性回归联系与区别
联系: 用于分析多个自变量与一个因变量的关
系,目的是矫正混杂因素、筛选自变量和更精 确地对因变量作预测等. 区别:
线性模型中因变量为连续性随机变量,且 要求呈正态分布. Logistic回归因变量的取 值仅有两个,不满足正态分布.
11
3、 Logistic回归模型
令: y=1 发病(阳性、死亡、治愈等)
y=0 未发病(阴性、生存、未治愈等)
将发病的概率记为P,它与自变量x1, x2,…,xp
之间的Logistic回归模型为:
p1 eexx p 0p0 ( (1 X 1X 11 pX pX p)p)
统计学-logistic回归分析ppt课件
最新版整理ppt
38
九、logistic回归的应用举例
• 输精管切除术与动脉粥样硬化疾病的研究
• 1.问题的描述
(1)输精管切除术是否与动脉粥样硬化疾病 有关?
(2)如果存在联系,与其他已知的危险因素 相比,输精管切除术的相对重要性有多大?
(3)哪些男性亚群在输精管切除术以后发生 动脉粥样硬化疾病的可能性特别大?
• 条件Logistic回归的回归系数检验与分 析,和非条件Logistic回归完全相同。
最新版整理ppt
36
八、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(βi)和OR说明 危险因素与疾病的关系。
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
或
p (y 1 /x 1 ,x 2 x k) 1 e (0 1 1 x k ....kx k)
最新版整理ppt
10
2.模型中参数的意义
ln1PP=01X1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln1PP (y(y 1/0x/x 0)0)=0
最新版整理ppt
调查员审阅每日住院病人情况如果诊断适合研究的范围将病例转给心脏病主任医师作评估由他做出病例诊断是否合格的决定调查人员核对病人背景资料是否合格如果病人满足诊断标椎和背景资料合格调查人员开始询问并填写调查表每完成5个病例和10个配对对照以后请研究中心的工作人员对调查表进行评估重复以上步骤
第十六章 logistic回归分析
最新版整理ppt
28
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或
logistic回归(2)分析
非条件Logistic回归的SAS程序
• CL:指定输出参数估计值的可信区间。 • RL:指定输出相对危险度(或比数比)的可信区间。 • SELECTION、SLE和SLS:和REG过程步的对应选项一样,用于逐步回归分析。 • FREQ:是否使用,取决于数据的输入方法。当x和y变量的观察值被直接输入到SAS数
条件Logistic回归的SAS程序
• SLE:指定协变量进入模型的显著水平,缺省值是0.05。 • SLS:指定协变量停留在模型中的显著水平,缺省值是0.05。 • DETAILS:指令输出逐步回归过程中每一步的详细分析结果。 • STRATA:指定用于分组计算的分组变量。如果分组变量的数值不符
非条件Logistic回归模型的建立
非条件Logistic回归模型的建立
•(1)AIC检验法:用于比较同一数据下的不同模型。AIC值越小,模型越 合适。AIC值的计算公式如下:
AIC=-2log(L)+2(g+k) •(2)SC检验法:用于比较同一数据下的不同模型。SC值越小,模型越合 适。SC值的计算公式如下:
据集时,不需要使用FREQ语句。但是,当x是分类型变量,且x和y变量的观察值不是 直接输入到SAS数据集时,而是将x和y变量的频数输入到SAS数据集中时,需要使用 FREQ语句。 • OUTPUT语句:用来保存指定的分析结果。Out选择项用来给出输出数据集的名字。 Pred选择项用来给出一个预测概率的变量名。
• Logistic回归模型有条件与非条件之分,前者适用于配对病例对照资料的分析,后者 适用于队列研究或非配对的病例-对照研究成组资料的分析。
统计学-logistic回归分析
Xi=1与Xi=0相比,发生某结果(如发病)优势比 的对数值。
i
的含义:某危险因素,暴露水平变化时,即
P 1 /(1 P 1) ln OR ln P0 /(1 P0 ) log itP 1 log itP 0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
便得比分检验的统计量S 。样本量较大时,
S近似服从自由度为待检验因素个数的 2分布。
• Wald检验( wald test)
即广义的t检验,统计量为u
bi u= s bi
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
bi u Sbi
上述三种方法中,似然比检验 最可靠,比分检验一般与它相一致, 但两者均要求较大的计算量;而 Wald检验未考虑各因素间的综合 作用,在因素间有共线性时结果不 如其它两者可靠。
模型描述了应变量p与x的关系
0 x
P概率 1 p( y 1) 1 1 exp[ ( 0 x)]
z 0 1 x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3
-2
-1
0
1
2
3
Z值
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
• 多个变量的logistic回归模型方程的线性表达:
P logit(p) ln = 0 1 X 1 2 X 2 m X m 1 P
或
p( y 1/ x1 , x2
xk )
1 1 e
( 0 1 xk .... k xk )
Logistic回归分析(重点、难点)
卫生统计学教研室 张彦琦
实例
例16-2 为了探讨冠心病发生的有关危险因素,对 26例冠心病病人和28例对照者进行病例对照研究, 调查记录了8个可能的危险因素,试用Logistic逐步 回归分析方法筛选危险因素,并分析各自变量的作 用大小。
Department ofHealth Statistics
应变量Y
1 0
发生 未发生
自变量X1, X2,
, Xm
在m个自变量的作用下阳性结果发生的概率记作:
P P(Y 1| X1, X 2 ,, X m ) 0 P 1
Logit变换
Logit(P) ln( P ) 1 P
Department ofHealth Statistics
Logit(P)
Department ofHealth Statistics
卫生统计学教研室 张彦琦
模型参数的意义
OR与 Logit(P )的关系
对比某一危险因素两个不同暴露水平X j c1 与 X j c0 的发病
情况(假定其它因素的水平相同),其优势比的自然对数为:
ln ORj
ln
P1 P0
/(1 /(1
卫生统计学教研室 张彦琦
什么情况下采用Logistic回归
医学研究中常碰到应变量的可能取值仅有两 个(即二分类变量),如发病与未发病、阳性与 阴性、死亡与生存、治愈与未治愈、暴露与未暴 露等,显然这类资料不满足多重回归的条件。
Department ofHealth Statistics
卫生统计学教研室 张彦琦
暴露 未暴露
暴露 未暴露
调查方向
暴露 未暴露
病
例 病例 a
b
对照 c
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
d /(c d )
该暴露因素的优势比: OR = a /(a b) c /(c d ) ad
b /(a b) d /(c d )
bc
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。 OR>1,说明 该因素是疾病的危险性增加,为危险因素; OR<1,说明 该因素是疾病的危险性减小,为保护因素;
多个因变量 (y1,y2,…yk)
路径分析
结构方程模型分析
• logistic回归(logistic regression)是研究因变量为二分类或 多分类观察结果与影响因素(自变量)之间关系的一种多 变量分析方法,属概率型非线性回归。 • 在流行病学研究中,常需要分析疾病与各种危险因素间的 定量关系,同时为了能真实反映暴露因素与观察结果间的 关系,需要控制混杂因素的影响。 (1)Mantel-Haenszel分层分析:适用于样本量大、分析因 素较少的情况。当分层较多时,由于要求各格子中例数不 能太少,所需样本较大,往往难以做到;当混杂因素较多 时,分层数也呈几何倍数增长,这将导致部分层中某个格 子的频数为零,无法利用其信息。
设 Z 0 1 X 1 2 X 2 m X m ,则 Z 与 P 之间关系的 logistic 曲线如下图所示 。
可看出:当 Z 趋于 时, P 值渐进于 1;当 Z 趋于 时, P 值渐进于 0; P 值的变化在 0~1 之间,并且随 Z 值的变 化以点(0,0.5)为中心成对称 S 形变化。
由于 OR j 值与模型中的常数项 0 无关,因此 0 在危 险因素分析中常常被视为无效参数。对于发病率很低 的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作 为相对危险度(relative risk ,RR)的近似估计。
P (1 P ) P 1 1 RR 即 OR 1 P0 (1 P0 ) P0
(二)病例与对照匹配---条件logistic回归 1、成组匹配(category matching):匹配的因素所占的比例,在对照组 和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组 也是如此。 2、个体匹配(individual matching):以病例和对照的个体为单位进行 匹配叫个体匹配。1:1匹配又叫配对(pair matching), 1:2,┅ ,1:m 匹配时称为匹配。 匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混 杂因子,否则不应匹配。 (三)巢式病例对照研究 也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的 方法。
i 1
n
(15.7)
式中为对数似然函数,对其取一阶导数求解参数。对 于参数 j ( j 1, 2,, m ) ,令 ln L 的一阶导数为 0, 即
ln L 0 ,用 Newton-Raphson 迭代方法解方程组, j
得出参数 j 的估计值 b j 和 b j 的渐进标准误 Sb j 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
ln[exp( 0 1 X1 2 X 2 m X m )]
0 1 X1 2 X 2 m X m
(15.2)
模型参数的流行病学含义
当各种暴露因素为 0 时: P ln( ) 0 1 X 1 2 X 2 m X m 1 P 0 1 0 m 0 0 可看出:常数项 0 是当各种暴露因素为 0 时,个体发病 与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2, , m )表示在其它自变量固定的 条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变 量。它与比数比(优势比) OR (odds ratio)有对应关系。
P logit 变换:logit P = ln 为 P 的 logit 变换, 1 P 通过 logit 变换之后,就可将 0 P 1 的资料转换为
log it ( P) 的资料。
作 logit 变换后,logistic 回归模型可以表示成如下 的线性形式:
exp( 0 1 X 1 2 X 2 m X m ) 1 exp( 0 1 X 1 2 X 2 m X m ) P ln( ) ln[ ] exp( 0 1 X 1 2 X 2 m X m ) 1 P 1 1 exp( 0 1 X 1 2 X 2 m X m )
(15.6)
其中, Pi 表示第 i 例观察对象处于暴露条件下时阳 性结果发生的概率。阳性结果时, Yi 1 ;阴性结 果时, Yi 0 。
根据最大似然原理,似然函数 L 应取最大值。 对似然函数取对数形式:
ln L [Yi ln Pi (1 Yi ) ln(1 Pi )]
优势比估计
自变量 X j 不同水平 c1 和 c0 优势比的估计值:
ˆ OR j exp[b j (c1 c0 )]
当样本含量 n 较大时, b j 的抽样分布近似服从 正态分布,若 X j 只有暴露和非暴露 2 个水平, 则优势比 OR j 的 100(1 )%可信区间为:
exp(b j u 2 Sb j )
在其它影响因素相同的情况下,某危险因素 X j 两个 不同暴露水平 c1 和 c 0 发病优势比的自然对数为:
P1 (1 P1 ) P0 P1 ln OR j ln ) ln( ) = ln( 1 P1 1 P0 P0 (1 P0 )
= j (c1 c0 ) 则该因素的优势比: OR j exp[ j (c1 c 0 )] 式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c 0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
L PiYi (1 Pi )1Yi
i 1
n
( i 1, 2,, n )
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影ቤተ መጻሕፍቲ ባይዱ并非线性。
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研
究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类:
(1)二分类资料logistic回归: 因变量为两分类变量的资料,可用非 条件logistic回归和条件logistic回归进行分析。非条件logistic回归 多用于非配比病例-对照研究或队列研究资料,条件logistic回归多 用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多项 分类logistic回归模型或有序分类logistic回归模型进行分析。
病例对照原理示意图
是否暴露 暴 露 组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR) :病例对照研究中表示疾病与暴露间 联系强度的指标,也称比值比。 比值(odds) :某事物发生的可能性与不发生的可能性之比。 病例组暴露的比值 a /(a b) 、对照组暴露的比值 c /(c d )
设 X j 为两分类变量: c1 =1 为暴露, c 0 =0 为非暴露, 则暴露组和非暴露组发病的优势比为: OR j exp j 当 j =0 时, OR j =1,表示因素 X j 对疾病的发生不起 作用; j >0 时, OR j >1,表示 X j 是一个危险因素;
j <0 时, OR j <1,表示 X j 是一个保护因素。
例15-1
表 15-1 为吸烟、饮酒与食管癌关系的病例-对照研究调查 资料,试进行 logistic 回归分析。
第十五章 logistic回归分析
Logistic Regression Analysis
山东大学公共卫生学院
回归分析的分类
连续型因变量 (y) --- 线性回归分析
一个 因变 量y
分类型因变量 (y) ---Logistic 回归分析
生存时间因变量 (t) ---生存风险回归分析
时间序列因变量 (t) ---时间序列分析
第一节
logistic 回归模型:
logistic回归
设因变量Y 是一个二分类变量,其取值为 Y =1 和 Y =0。 影响 Y 取值的 m 个自变量分别为 X 1 , X 2 , , X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件 概率为 P P(Y 1 X 1 , X 2 , , X m ) ,则 logistic 回归模 型可表示为: exp( 0 1 X 1 2 X 2 m X m ) P (15.1) 1 exp( 0 1 X 1 2 X 2 m X m ) 其中, 0 为常数项, 1 , 2 , , m 为偏回归系数。