logistic回归分析39080教学教材
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0x p1P(y1/x1)1e0x
P (y0/x1)11 ee 0 0 xx1p1 e0
p0P(y1/x0)1e0 e0
1.变量的取值 logistic回归要求应变量(Y)取值为分类变量
(两分类或多个分类)
1 Y
0
出现阳性(结 发果 病、有效、死亡 出现阴性(结 未果 发病、无效) 、存
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
2.两值因变量的logistic回归模型方 程
该法研究是
当 y 取某值(如y=1)发生的概率(p)与 某暴露因素(x)的关系。
p (y 1 /x ) f(x ),即 p f(x )
No P(概率I)m的a取g值e波动0~1范围。
基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
第一节 logistic回归 一、基本概念
(0 1x1) (0 x0 ) 1x1
ORe
ORP1/(1P1) od1d P0/(1P0) od0d
Y 发病=1 不发病=0
Y 发病=1 不发病=0
危险因素
x= 1 x= 0
30(a) 10( b)
70(c) 90(d)
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
为2.4倍
ex0.p 5(2) 6O 1 R 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
ex p (b 1u /2Sb 1)ex p (0 .8 8 5 6 1 .9 60 .1 5 ) (1 .8 1 ,3 .2 5 )
饮酒与不饮酒OR的95%可信区间:
ex p (b 2u /2Sb2)ex p (0 .5 2 6 1 1 .9 60 .1 5 7 2 ) (1 .2 4 ,2 .3 0 )
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计
, ln 1 P P =01X 12X 2 m X m
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。(讲义259页)
P(y0/x0)11e0 1p0
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变
换, logit(p) ln( p ) 1 p
方程如下:
线形 关系
ylo i(tg p )01x 1 Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
多个变量的logistic回归模型方程的线性表达:
三、Logistic 回归模型的假设检验
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
p1
a
a
c
有暴露因素人群中发病的比例
多元回归模型的的 i概念
logit(p)ln 1 P P = 01X 1m X m
i 反映了在其他变量固定后,X=1与x=0相
比发生Y事件的对数优势比。
回归系数β与O iR
X与Y的关联
β=0,OR=1,
无关
β>1,OR>1 , 有关,危险因素
β<1,OR<1, 有关,保护因子
1
X1
0
吸烟
1
不吸烟 X2 0
饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2
方程=表0.5达2:61,
ln ( p) 0 .9 0 9 90 .8 8 5 6x10 .5 2 6 1 x2 1p
exp()OR
控制饮酒因素后,
吸烟与不吸烟相比
ex0.p 8(8) 5O 6 R 2.424患4食管癌的优势比
一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1,
无=0, 记为p(y=1/x)表示某暴露因素状态下,
或 结果y=P1(的y概1率/(x)P)1模e型e0 。0xx
1
p(y1/x)1exp (0 [x)]
模型描述了应变量p与x的关系
p(y1)1exp1 ([0x)]P概1率 z01x
ln1PP (y(y1/0x/x 0)0)=0
i 源自文库含义:某危险因素,暴露水平变化时,即
Xi=1与Xi=0相比,发生某结果(如发病)优势 比的对数值。
ln
OR
ln
P1 P0
/(1 /(1
P1) P0 )
log itP1 log itP0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
logistic回归分析39080
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
OR e
如X=1,0两分类,则OR的1-α可信区间 估计公式
e(bj u / 2Sbj )
S 为回归系数 b j 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对 照资料(886例),试作logistic回归分析。
变量的赋值
1 Y0
食管癌患者 对照:非食管癌
公式16-2
log li n 1 t P P ( p =0 )1 X 12 X 2 m X m
或
1 p (y 1 /x 1 ,x 2 x k) 1 e (0 1 x k ....kx k)
2.模型中参数的意义
ln1PP=0 1X1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
研究问题可否用多元线性回归方法?
y ˆab 1x1b 2x2 b m xm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。
2.多元线性回归方程要求Y与X间关系为线 性关系。
3.多元线性回归结果 Yˆ 不能回答“发生
与否” logistic回归方法补充多元线性回归的不足
Logistic回归方法
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0x p1P(y1/x1)1e0x
P (y0/x1)11 ee 0 0 xx1p1 e0
p0P(y1/x0)1e0 e0
1.变量的取值 logistic回归要求应变量(Y)取值为分类变量
(两分类或多个分类)
1 Y
0
出现阳性(结 发果 病、有效、死亡 出现阴性(结 未果 发病、无效) 、存
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
2.两值因变量的logistic回归模型方 程
该法研究是
当 y 取某值(如y=1)发生的概率(p)与 某暴露因素(x)的关系。
p (y 1 /x ) f(x ),即 p f(x )
No P(概率I)m的a取g值e波动0~1范围。
基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
第一节 logistic回归 一、基本概念
(0 1x1) (0 x0 ) 1x1
ORe
ORP1/(1P1) od1d P0/(1P0) od0d
Y 发病=1 不发病=0
Y 发病=1 不发病=0
危险因素
x= 1 x= 0
30(a) 10( b)
70(c) 90(d)
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
为2.4倍
ex0.p 5(2) 6O 1 R 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
ex p (b 1u /2Sb 1)ex p (0 .8 8 5 6 1 .9 60 .1 5 ) (1 .8 1 ,3 .2 5 )
饮酒与不饮酒OR的95%可信区间:
ex p (b 2u /2Sb2)ex p (0 .5 2 6 1 1 .9 60 .1 5 7 2 ) (1 .2 4 ,2 .3 0 )
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计
, ln 1 P P =01X 12X 2 m X m
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。(讲义259页)
P(y0/x0)11e0 1p0
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变
换, logit(p) ln( p ) 1 p
方程如下:
线形 关系
ylo i(tg p )01x 1 Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
多个变量的logistic回归模型方程的线性表达:
三、Logistic 回归模型的假设检验
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
p1
a
a
c
有暴露因素人群中发病的比例
多元回归模型的的 i概念
logit(p)ln 1 P P = 01X 1m X m
i 反映了在其他变量固定后,X=1与x=0相
比发生Y事件的对数优势比。
回归系数β与O iR
X与Y的关联
β=0,OR=1,
无关
β>1,OR>1 , 有关,危险因素
β<1,OR<1, 有关,保护因子
1
X1
0
吸烟
1
不吸烟 X2 0
饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2
方程=表0.5达2:61,
ln ( p) 0 .9 0 9 90 .8 8 5 6x10 .5 2 6 1 x2 1p
exp()OR
控制饮酒因素后,
吸烟与不吸烟相比
ex0.p 8(8) 5O 6 R 2.424患4食管癌的优势比
一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1,
无=0, 记为p(y=1/x)表示某暴露因素状态下,
或 结果y=P1(的y概1率/(x)P)1模e型e0 。0xx
1
p(y1/x)1exp (0 [x)]
模型描述了应变量p与x的关系
p(y1)1exp1 ([0x)]P概1率 z01x
ln1PP (y(y1/0x/x 0)0)=0
i 源自文库含义:某危险因素,暴露水平变化时,即
Xi=1与Xi=0相比,发生某结果(如发病)优势 比的对数值。
ln
OR
ln
P1 P0
/(1 /(1
P1) P0 )
log itP1 log itP0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
logistic回归分析39080
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
OR e
如X=1,0两分类,则OR的1-α可信区间 估计公式
e(bj u / 2Sbj )
S 为回归系数 b j 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对 照资料(886例),试作logistic回归分析。
变量的赋值
1 Y0
食管癌患者 对照:非食管癌
公式16-2
log li n 1 t P P ( p =0 )1 X 12 X 2 m X m
或
1 p (y 1 /x 1 ,x 2 x k) 1 e (0 1 x k ....kx k)
2.模型中参数的意义
ln1PP=0 1X1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
研究问题可否用多元线性回归方法?
y ˆab 1x1b 2x2 b m xm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。
2.多元线性回归方程要求Y与X间关系为线 性关系。
3.多元线性回归结果 Yˆ 不能回答“发生
与否” logistic回归方法补充多元线性回归的不足
Logistic回归方法