统计学-logistic回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e

P odds1 1 /(1 P 1) OR P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
i
事件发生率很小,OR≈RR。
二、 Logistic回归模型
• Logistic回归的分类
二分类 多分类
条件Logistic回归 非条件Logistic回归
• Logit变换
也称对数单位转换
P logit P= ln 1 P
流行病学概念:
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之 比为优势(odds), logit P就是odds 的对数值。
• 多个变量的logistic回归模型方程的线性表达:
P logit(p) ln = 0 1 X 1 2 X 2 m X m 1 P

p( y 1/ x1 , x2 xk )
1 1 e
( 0 1 xk .... k xk )
三、参数估计
• 最大似然估计法 (Maximum likehood estimate) 似然函数:L=∏Pi 对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法—— Newton-Raphson法
四、参数检验
• 似然比检验(likehooHale Waihona Puke Baidu ratio test)
0
0 x
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变 换,
p log it ( p) ln( ) 1 p
方程如下:
线性 关系
y log it ( p) 0 1 x1
Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或 最大等级作参考组,并按等级顺序依次取为 0,1,2,…。此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则 应按多分类资料处理。 • 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
九、logistic回归的应用举例
• 输精管切除术与动脉粥样硬化疾病的研究 • 1.问题的描述 (1)输精管切除术是否与动脉粥样硬化疾病 有关? (2)如果存在联系,与其他已知的危险因素 相比,输精管切除术的相对重要性有多大? (3)哪些男性亚群在输精管切除术以后发生 动脉粥样硬化疾病的可能性特别大?
八、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(β i)和OR说明 危险因素与疾病的关系。
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
三类研究计算的logistic 回归模型的β意义是一致。仅常 数项不同。(证明略)
2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构成 不一致干扰疗效分析,通过该法可控制非处 理因素,正确评价疗效。 3.预测与判别 预测个体在某因素存在条件下,发生某事件 (发病)的概率,为进一步治疗提供依据。
2.模型中参数的意义
P ln = 0 1 X 1 1 P
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
P( y 1 / x 0) ln 1 P( y 0 / x 0) = 0
Xi=1与Xi=0相比,发生某结果(如发病)优势比 的对数值。
i
的含义:某危险因素,暴露水平变化时,即
P 1 /(1 P 1) ln OR ln P0 /(1 P0 ) log itP 1 log itP 0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与 某暴露因素(x)的关系。
p( y 1/ x) f ( x),即p f ( x)
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
通过比较包含与不包含某一个或 几个待检验观察因素的两个模型的对 数似然函数变化来进行,其统计量为G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由 度为待检验因素个数的2分布。
• 比分检验(score test)
以未包含某个或几个变量的模型为基础, 保留模型中参数的估计值,并假设新增加 的参数为零,计算似然函数的一价偏导数 (又称有效比分)及信息距阵,两者相乘
2.两值因变量的logistic回归模型方程
• 一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x 有=1无=0, 记为p(y=1/x)表示某暴露因素状态下,结 果y=1的概率(P)模型。

e P( y 1 / x) 0 x 1 e
1 p( y 1 / x) 1 exp[ ( 0 x)]
• Logistic回归模型 Logistic回归的logit模型
logit P=b0 b1 x1 b2 x2 bk xk
Logistic回归模型
( b0 b1 x1 b2 x2 bk xk )
e P ( b0 b1 x1 b2 x2 bk xk ) 1 e
为计算方便,通常向前选取 变量用似然比或比分检验,而向 后剔除变量常用Wald检验。
七、条件Logistic回归
• 对配对/比调查资料,应该用条件 Logistic回归分析。 对于配比资料,第i个配比组 可以建立一个Logistic回归:
logit P=bi b1 x1 b2 x2 bk xk
Logistic回归系数的意义
• 分析因素xi为二分类变量时,存在(暴 露)xi =1,不存在(未暴露)xi =0, 则Logistic回归中xi的系数bi就是暴露与 非暴露优势比的对数值.即 OR=exp(bi)=e (bi)
• 分析因素xi为多分类变量时,为方便起 见,常用1,2,…,k分别表示k个不 同的类别。进行Logistic回归分析前需 将该变量转换成k-1个指示变量或哑变 量(design/dummy variable),这样指 示变量都是一个二分变量,每一个指 示变量均有一个估计系数,即回归系 数,其解释同前。
e p1 P( y 1/ x 1) 0 x 1 e
0 x
e P( y 0 / x 1) 1 1 p 1 0 x 1 e e p0 P( y 1/ x 0) 0 1 e 0 e P( y 0 / x 0) 1 1 p0 0 1 e
Y 发病=1 不发病=0
a p1 ac
有暴露因素人群中发病的比例
多元回归模型的的 i 概念
P logit(p) ln = 0 1 X 1 m X m 1 P
i 反映了在其他变量固定后,X=1与x=0相比
发生Y事件的对数优势比。 回归系数β与OR X与Y的关联 • β=0,OR=1, 无关 β>0,OR>1 , 有关,危险因素 β<0,OR<1, 有关,保护因子
便得比分检验的统计量S 。样本量较大时,
S近似服从自由度为待检验因素个数的 2分布。
• Wald检验( wald test)
即广义的t检验,统计量为u
bi u= s bi
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
bi u Sbi
上述三种方法中,似然比检验 最可靠,比分检验一般与它相一致, 但两者均要求较大的计算量;而 Wald检验未考虑各因素间的综合 作用,在因素间有共线性时结果不 如其它两者可靠。
第十六章 logistic回归分析
logistic回归为概率型非线性回归 模型,是研究分类观察结果(y)与 一些影响因素(x)之间关系的一种 多变量分析方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3…XK 发生 Y=1 不发生 Y=0 例:暴露因素 冠心病结果 高血压史(x1):有 或无 有 或 无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
在患病率较小情况下,OR≈RR
• Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。 • Logistic回归中的回归系数( bi )表示, 某一因素改变一个单位时,效应指标 发生与不发生事件的概率之比的对数 变化值,即OR的对数值。
e
( bi u Sbi )
六、 Logistic回归分析方法
基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、 后退法和逐步法。在这些方法中,筛选变量 的过程与线性回归过程的完全一样。但其中 所用的统计量不再是线性回归分析中的F统计 量,而是以上介绍的参数检验方法中的三种 统计量之一。
多因素Logistic回归分析时, 对回归系数的解释都是指在其它 所有自变量固定的情况下的优势 比。存在因素间交互作用时, Logistic回归系数的解释变得更 为复杂,应特别小心。
根据Wald检验,可知Logistic回归 系数bi服从u分布。因此其可信区间为
bi u Sbi
进而,优势比e(bi)的可信区间为
五、回归系数的意义
单纯从数学上讲,与多元线性 回归分析中回归系数的解释并无不 同,亦即bi表示xi改变一个单位时, logit P的平均变化量。
流行病学中的一些基本概念:
相对危险度(relative risk): RR=P1/P2
比数 比数比
Odds=P/(1-P) OR=[P1/(1-P1)]/[P2/(1-P2)]
一、基本概念
1.变量的取值 logistic回归要求应变量(Y)取值为分类变量 (两分类或多个分类)
1 Y 0 出现阳性结果 (发病、有效、死亡等) 出现阴性结果 (未发病、无效、存活等)
自变量(Xi)称为危险因素或暴露因素,可为连续 变量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
• 假设自变量在各配比组中对结果变量 的作用是相同的,即自变量的回归系 数与配比组无关。
• 配比设计的Logistic回归模型
logit P=b1x1 b2 x2 bk xk
其中不含常数项。
• 可以看出此回归模型与非条件Logistic 回归模型十分相似,只不过这里的参 数估计是根据条件概率得到的,因此 称为条件Logistic回归模型。 • 条件Logistic回归的回归系数检验与分 析,和非条件Logistic回归完全相同。
研究问题可否用多元线性回归方法?
ˆ y a b x b x b x 1 1 2 2 m m 1.多元线性回归方法要求 Y 的取值为计量
的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线 性关系。 ˆ 不能回答“发生与 3.多元线性回归结果 Y 否” logistic回归方法补充多元线性回归的不足
模型描述了应变量p与x的关系
0 x
P概率 1 p( y 1) 1 1 exp[ ( 0 x)]
z 0 1 x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3
-2
-1
0
1
2
3
Z值
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
相关文档
最新文档