LOGISTIC回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Data aa; Do group=1 to 2; Do exposure=1 to 2; Input freq @@; Output; End; End; Cards; 55 128 19 164 ; Run; Proc freq; Tables group*exposure/nopercent nocol chisq cmh;
logit(P)可以从–∞到+ ∞之间取任何值
准确地说, logistic回归不是分析y与x的关系,而是建立一个概率 函数P=P(x),分析y取某个数值时的概率p与x的关系。
三、非条件Logistic回归分析与列联表分析之间的关系
队列研究:
D+ D-
E+
a
b
a+b
用ln [p/(1-p)]代替 p进行 模型拟合称为p的logit变 换,对应的模型称为logit 模型。
40-
病例组 对照组
45-
病例组 对照组
Data aa; Do age =1 to 5; Do r =1 to 2; Do c =1 to 2; Input freq @@; Output; End; End; End; Cards; 4 2 62 224 9 12 33 390 4 33 26 330 6 65 9 362 6 93 5 301 ; Run;
Weight freq;
Run;
分层分析Mantel-Haenszel检验
按年龄分层的心肌梗塞与口服避孕药的关系
年龄分层 25组别 病例组 对照组 30病例组 对照组 服过避孕药 4 62 9 33 未服过 2 224 12 390
35-
病例组
对照组
4
26 6 9 6 5
33
330 65 362 93 301
CHD危险因素定群研究(12年追踪观察结果) 变量 截距 参数i
i估计值 i标准误
-13.2573
标化i
年龄(岁)
胆固醇(mg/dl) BP(mmHg) 相对体重(W/H) 血红蛋白(mg%) 吸烟(0,1,2,3)
ECG(0,1)
0 1 2 3 4 5 6 7
0.1216
0.0070 0.0068 0.0257 -0.0010 0.4223
0.0437
0.0025 0.0060 0.0091 0.0098 0.1031
0.3370
0.3034 0.1320 0.3458 -0.0012 0.4952
0.7206
0.4009
0.1750
LOGISTIC 回归模型公式:
3、Logit P 与Odds Ratio (OR)
Odds Ratio (OR):
即两个Odds 的比值,是描述因素与疾病之间联系强度的指标, 可以用来确定定群研究和病例对照研究中暴露研究因素与疾病 发生之间关联的性质和强弱。 OR = 1 表明疾病D与因素 x 无关,发病不由因素 x 决定;
OR > 1 表明疾病D与因素 x 有关,变量x是疾病发生的危险因素;
P P
e 1 e
1 e
1 x1 2 x 2 i x i 1 x1 2 x 2 i x i
1
(9)
(
1 x1 2 x 2 i x i )
多因素LOGISTIC模型参数的解释
ln[ p /(1 p)]
E-
c
d
c+d
a+c
b+d
a+b+c+d
ln [p/(1-p)] 可简记为logit P
1.如果以logitP为因变量,暴露因素X为自变量, 建立直线回归方程: Logit P = + x 由 Logit P = ln [p/(1-p)] 可导出: ln [p/(1-p)] = + x (1)
ln[ p /(1 p)]
1 1
x x x
2 2 i
i
(8) 或:
l p / 1 p )] i xi n[ (
曲线LOGISTIC 回归模型公式:
P e 1 e P 1 e
i xi i xi i xi)
1
(
子宫内膜癌与口服雌激素的关系
暴 组 别 露 合计 183(a+b)
使用过雌激素 未用过雌激素 55(a) 128(b)
病例组 (子宫内膜癌患者) 对照组 (非子宫内膜癌患者) 合计
19(c)
164(d)
183(c+d)
74(a+c)
292(b+d)
366(a+b+c+d)
Mantel-Haenszel检验
二、概念Βιβλιοθήκη Baidu引入
按线性回归思想可建立模型: P=α +β X 期望P的意义是发生出生低体重的概率
在线性回归模型中,X的取值是任意的,
P值可能大于1或小于0,无法从医学意义 进行解释, 显然不适宜用线性回归分析 建立预测模型。
为避免P值大于1或小于0, 我们对P进行logit(即 logistic)变换, 把logit(P)作为因变量,即 : Logit(P)= + x
OR < 1 表明疾病D与因素 x 有关,变量 x 是疾病发生的保护因素。
对于队列研究,假设研究一个二值暴露变量X与某一疾病之 间的关联:
设暴露组(E+)发病的概率为P1,则其发病与不发病的概率比
为: Odds= P1 /(1- P1) (3)
设非暴露组(E-)发病的概率为P0,其发病与不发病的概率比为: Odds= P0 /(1- P0) (4)
两个自变量的logistic回归分析
吸烟和饮酒与食管癌关系的病例对照研究
吸烟 否 否 是 是 饮酒 否 是 否 是 观察例数 199 170 101 416 病例数 63 63 44 265 对照数 136 107 57 151
T1
data aa; Input y x1 x2 f@@; Cards; 1 0 0 63 1 0 1 63 1 1 0 44 1 1 1 265 0 0 0 136 0 0 1 107 0 1 0 57 0 1 1 151 ;
1 x1 2 x 2 i x i 1 x1 2 x 2 i x i
1
(
1 x1 2 x 2 i x i )
建立的CHD影响因素的Logistic回归模型,公式如下: p=1/{1+exp[-(-13.2573 + 0.1216x1 + 0.0070x2 + + 0.7206 x1)]} 该多因素LOGISTIC回归分析模型的用途:
:与变量 xi 无关的因素的影响;
1
x x x
1 2 2 i
i
i : 自变量 xi 的回归系数,大小由因素 xi 决定,是控
制了其他因素的混杂效应后的 i值。 i = 0: 表明 P与 xi 无关,
发病不由因素 xi 决定;
i > 0: 表明 P与 xi 有关, 变量 xi是疾病发生的危险因素; i < 0: 表明 P 与 xi 有关, 变量 xi 是疾病发生 的保护因素。
SMOKE 吸烟史: 1 吸烟 0 否
PTL
HT UI
早产史: 1 有
0无
妊娠高血压: 1 有 0 无 频繁宫缩: 1 有 0 无
FTV
BWT
产前访视次数
出生体重(克)
问题的提出(续)
在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等; 分析“母亲怀孕期间体重”对“新生儿出生低 体重”的影响
Proc freq; Tables r*c/nopercent nocol chisq cmh; Tables age*r*c/nopercent nocol chisq cmh; Weight freq; Run;
出生体重危险因素研究
一、问题的提出
分析 “新生儿出生体重”的影响
新生儿出生时的体重为因变量
冠心病 血中儿茶酚胺水平 高 低 合计 发病 27(a) 44(c) 71(a+c) 未发病 95(b) 443(d) 538(b+d) 合计 122(a+b) 487(c+d) 609(a+b+c+d)
Mantel-Haenszel检验
Data aa; Do r=1 to 2; Do c=1 to 2; Input freq @@; Output; End; End; Cards; 27 95 44 443 ; Run; Proc freq; Tables r*c/nopercent nocol chisq cmh; Weight freq; Run;
危险度分析和 logistic 回归分析
How to lie with statistics
需要掌握的内容
危险度分析
Logistics回归的概念
Logistics回归参数解释(OR、RR的计算) Logistics回归分析的用途 Logistics回归的适用条件
危险度分析
研究血液中儿茶酚胺水平与冠心病发病之间的关系, 对609名男子按血液中儿茶酚胺水平分为高、低两组, 经过10年追踪观察,结果见下表,试作危险度分析。
logistic回归分析
条件logistic回归分析 适用于配对或配伍组 设计资料 非条件logistic回归分析 适用于成组设计资料 根据因变量类型分为: 二项分类 无序多项分类 有序多项分类
四、非条件logistics回归的应用
筛选危险因素
计算联系强度指标(OR)
比较各变量对方程贡献的大小 校正混杂因子 预测发病概率 评估发病风险(RR)
proc logistic descending; freq f; model y=x1 x2;
run;
例1:定群研究资料分析-弗明汉心脏研究
742名居住在弗明汉年龄为40-49岁的男
性,暴露不同水平的影响因素(详见下表中的
7种因素),经12年追踪观察CHD发病情况。 根据受试者暴露各项因素的水平和CHD发 病与否的资料,采用多因素LOGISTIC回归模 型进行分析。
即单因素线性LOGISTIC 回归模型公式;
“p=在暴露变量E下有病D的概率 ” 解(1)式中以p为反应变量的方程,得:
e 1 e x
x
(2)
即单因素曲线LOGISTIC 回归模型公式。
单因素非条件LOGISTIC模型参数的解释
ln [p/(1-p)] = + x
ln[ p /(1 p)]
1 1
x x x
2 2 i
i
或:
l p / 1 p )] i xi n[ (
曲线LOGISTIC 回归模型公式:
P e 1 e P 1 e
i xi i xi i xi)
1
(
P e 1 e P 1 e
线性回归分析
因变量Y是连续性随机变量
呈正态分布 理论上因变量必须能够在–∞到+ ∞之间自由取值
出生体重危险因素研究数据库字段注释
ID LOW AGE LWT RACE
编号 出生低体重(bwt<2500=1,>=2500=0) 母亲年龄(岁) 母亲末次月经时的体重 种族: 1 白种人 2 黄种人 3 黑人
:变量 X 之外其他因素的影响 :自变量 X 的回归系数,大小由因素 X 决定。 = 0 表明 P与 X 无关, 发病不由因素 X 决定; > 0 表明 P与 X 有关, 变量 X 是疾病发生的危险因素; < 0 表明 P与 X 有关, 变量 X 是疾病发生的保护因素。
2. 多因素LOGISTIC 回归模型与混杂因素的控制 线性LOGISTIC 回归模型公式:
根据OR定义,得: OR=[ P1 / (1-P1 )] / [P0 / (1-P0)] (5) 两边取自然对数,得: ln OR=ln[ P1 / (1-P1 )] - ln[P0 / (1-P0)] (6) 用Logit P的值带入,得: ln OR=Logit P1-Logit P0=(1+1x1)-(0+0x0) 队列研究中假定暴露人群和非暴露人群影响疾病发生的 其他因素均相同,则可认为: 1 = 0 ; 在非暴露人群中不暴露研究因素,可知:x0 = 0, 带入,得: lnOR = (1 + 1x1) - (0 + 0x0 ) = 1x1 则: OR=Exp[(1 + 1x1) - (0 + 0x0 )]=Exp(1x1) (7) 即: OR=e1
logit(P)可以从–∞到+ ∞之间取任何值
准确地说, logistic回归不是分析y与x的关系,而是建立一个概率 函数P=P(x),分析y取某个数值时的概率p与x的关系。
三、非条件Logistic回归分析与列联表分析之间的关系
队列研究:
D+ D-
E+
a
b
a+b
用ln [p/(1-p)]代替 p进行 模型拟合称为p的logit变 换,对应的模型称为logit 模型。
40-
病例组 对照组
45-
病例组 对照组
Data aa; Do age =1 to 5; Do r =1 to 2; Do c =1 to 2; Input freq @@; Output; End; End; End; Cards; 4 2 62 224 9 12 33 390 4 33 26 330 6 65 9 362 6 93 5 301 ; Run;
Weight freq;
Run;
分层分析Mantel-Haenszel检验
按年龄分层的心肌梗塞与口服避孕药的关系
年龄分层 25组别 病例组 对照组 30病例组 对照组 服过避孕药 4 62 9 33 未服过 2 224 12 390
35-
病例组
对照组
4
26 6 9 6 5
33
330 65 362 93 301
CHD危险因素定群研究(12年追踪观察结果) 变量 截距 参数i
i估计值 i标准误
-13.2573
标化i
年龄(岁)
胆固醇(mg/dl) BP(mmHg) 相对体重(W/H) 血红蛋白(mg%) 吸烟(0,1,2,3)
ECG(0,1)
0 1 2 3 4 5 6 7
0.1216
0.0070 0.0068 0.0257 -0.0010 0.4223
0.0437
0.0025 0.0060 0.0091 0.0098 0.1031
0.3370
0.3034 0.1320 0.3458 -0.0012 0.4952
0.7206
0.4009
0.1750
LOGISTIC 回归模型公式:
3、Logit P 与Odds Ratio (OR)
Odds Ratio (OR):
即两个Odds 的比值,是描述因素与疾病之间联系强度的指标, 可以用来确定定群研究和病例对照研究中暴露研究因素与疾病 发生之间关联的性质和强弱。 OR = 1 表明疾病D与因素 x 无关,发病不由因素 x 决定;
OR > 1 表明疾病D与因素 x 有关,变量x是疾病发生的危险因素;
P P
e 1 e
1 e
1 x1 2 x 2 i x i 1 x1 2 x 2 i x i
1
(9)
(
1 x1 2 x 2 i x i )
多因素LOGISTIC模型参数的解释
ln[ p /(1 p)]
E-
c
d
c+d
a+c
b+d
a+b+c+d
ln [p/(1-p)] 可简记为logit P
1.如果以logitP为因变量,暴露因素X为自变量, 建立直线回归方程: Logit P = + x 由 Logit P = ln [p/(1-p)] 可导出: ln [p/(1-p)] = + x (1)
ln[ p /(1 p)]
1 1
x x x
2 2 i
i
(8) 或:
l p / 1 p )] i xi n[ (
曲线LOGISTIC 回归模型公式:
P e 1 e P 1 e
i xi i xi i xi)
1
(
子宫内膜癌与口服雌激素的关系
暴 组 别 露 合计 183(a+b)
使用过雌激素 未用过雌激素 55(a) 128(b)
病例组 (子宫内膜癌患者) 对照组 (非子宫内膜癌患者) 合计
19(c)
164(d)
183(c+d)
74(a+c)
292(b+d)
366(a+b+c+d)
Mantel-Haenszel检验
二、概念Βιβλιοθήκη Baidu引入
按线性回归思想可建立模型: P=α +β X 期望P的意义是发生出生低体重的概率
在线性回归模型中,X的取值是任意的,
P值可能大于1或小于0,无法从医学意义 进行解释, 显然不适宜用线性回归分析 建立预测模型。
为避免P值大于1或小于0, 我们对P进行logit(即 logistic)变换, 把logit(P)作为因变量,即 : Logit(P)= + x
OR < 1 表明疾病D与因素 x 有关,变量 x 是疾病发生的保护因素。
对于队列研究,假设研究一个二值暴露变量X与某一疾病之 间的关联:
设暴露组(E+)发病的概率为P1,则其发病与不发病的概率比
为: Odds= P1 /(1- P1) (3)
设非暴露组(E-)发病的概率为P0,其发病与不发病的概率比为: Odds= P0 /(1- P0) (4)
两个自变量的logistic回归分析
吸烟和饮酒与食管癌关系的病例对照研究
吸烟 否 否 是 是 饮酒 否 是 否 是 观察例数 199 170 101 416 病例数 63 63 44 265 对照数 136 107 57 151
T1
data aa; Input y x1 x2 f@@; Cards; 1 0 0 63 1 0 1 63 1 1 0 44 1 1 1 265 0 0 0 136 0 0 1 107 0 1 0 57 0 1 1 151 ;
1 x1 2 x 2 i x i 1 x1 2 x 2 i x i
1
(
1 x1 2 x 2 i x i )
建立的CHD影响因素的Logistic回归模型,公式如下: p=1/{1+exp[-(-13.2573 + 0.1216x1 + 0.0070x2 + + 0.7206 x1)]} 该多因素LOGISTIC回归分析模型的用途:
:与变量 xi 无关的因素的影响;
1
x x x
1 2 2 i
i
i : 自变量 xi 的回归系数,大小由因素 xi 决定,是控
制了其他因素的混杂效应后的 i值。 i = 0: 表明 P与 xi 无关,
发病不由因素 xi 决定;
i > 0: 表明 P与 xi 有关, 变量 xi是疾病发生的危险因素; i < 0: 表明 P 与 xi 有关, 变量 xi 是疾病发生 的保护因素。
SMOKE 吸烟史: 1 吸烟 0 否
PTL
HT UI
早产史: 1 有
0无
妊娠高血压: 1 有 0 无 频繁宫缩: 1 有 0 无
FTV
BWT
产前访视次数
出生体重(克)
问题的提出(续)
在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等; 分析“母亲怀孕期间体重”对“新生儿出生低 体重”的影响
Proc freq; Tables r*c/nopercent nocol chisq cmh; Tables age*r*c/nopercent nocol chisq cmh; Weight freq; Run;
出生体重危险因素研究
一、问题的提出
分析 “新生儿出生体重”的影响
新生儿出生时的体重为因变量
冠心病 血中儿茶酚胺水平 高 低 合计 发病 27(a) 44(c) 71(a+c) 未发病 95(b) 443(d) 538(b+d) 合计 122(a+b) 487(c+d) 609(a+b+c+d)
Mantel-Haenszel检验
Data aa; Do r=1 to 2; Do c=1 to 2; Input freq @@; Output; End; End; Cards; 27 95 44 443 ; Run; Proc freq; Tables r*c/nopercent nocol chisq cmh; Weight freq; Run;
危险度分析和 logistic 回归分析
How to lie with statistics
需要掌握的内容
危险度分析
Logistics回归的概念
Logistics回归参数解释(OR、RR的计算) Logistics回归分析的用途 Logistics回归的适用条件
危险度分析
研究血液中儿茶酚胺水平与冠心病发病之间的关系, 对609名男子按血液中儿茶酚胺水平分为高、低两组, 经过10年追踪观察,结果见下表,试作危险度分析。
logistic回归分析
条件logistic回归分析 适用于配对或配伍组 设计资料 非条件logistic回归分析 适用于成组设计资料 根据因变量类型分为: 二项分类 无序多项分类 有序多项分类
四、非条件logistics回归的应用
筛选危险因素
计算联系强度指标(OR)
比较各变量对方程贡献的大小 校正混杂因子 预测发病概率 评估发病风险(RR)
proc logistic descending; freq f; model y=x1 x2;
run;
例1:定群研究资料分析-弗明汉心脏研究
742名居住在弗明汉年龄为40-49岁的男
性,暴露不同水平的影响因素(详见下表中的
7种因素),经12年追踪观察CHD发病情况。 根据受试者暴露各项因素的水平和CHD发 病与否的资料,采用多因素LOGISTIC回归模 型进行分析。
即单因素线性LOGISTIC 回归模型公式;
“p=在暴露变量E下有病D的概率 ” 解(1)式中以p为反应变量的方程,得:
e 1 e x
x
(2)
即单因素曲线LOGISTIC 回归模型公式。
单因素非条件LOGISTIC模型参数的解释
ln [p/(1-p)] = + x
ln[ p /(1 p)]
1 1
x x x
2 2 i
i
或:
l p / 1 p )] i xi n[ (
曲线LOGISTIC 回归模型公式:
P e 1 e P 1 e
i xi i xi i xi)
1
(
P e 1 e P 1 e
线性回归分析
因变量Y是连续性随机变量
呈正态分布 理论上因变量必须能够在–∞到+ ∞之间自由取值
出生体重危险因素研究数据库字段注释
ID LOW AGE LWT RACE
编号 出生低体重(bwt<2500=1,>=2500=0) 母亲年龄(岁) 母亲末次月经时的体重 种族: 1 白种人 2 黄种人 3 黑人
:变量 X 之外其他因素的影响 :自变量 X 的回归系数,大小由因素 X 决定。 = 0 表明 P与 X 无关, 发病不由因素 X 决定; > 0 表明 P与 X 有关, 变量 X 是疾病发生的危险因素; < 0 表明 P与 X 有关, 变量 X 是疾病发生的保护因素。
2. 多因素LOGISTIC 回归模型与混杂因素的控制 线性LOGISTIC 回归模型公式:
根据OR定义,得: OR=[ P1 / (1-P1 )] / [P0 / (1-P0)] (5) 两边取自然对数,得: ln OR=ln[ P1 / (1-P1 )] - ln[P0 / (1-P0)] (6) 用Logit P的值带入,得: ln OR=Logit P1-Logit P0=(1+1x1)-(0+0x0) 队列研究中假定暴露人群和非暴露人群影响疾病发生的 其他因素均相同,则可认为: 1 = 0 ; 在非暴露人群中不暴露研究因素,可知:x0 = 0, 带入,得: lnOR = (1 + 1x1) - (0 + 0x0 ) = 1x1 则: OR=Exp[(1 + 1x1) - (0 + 0x0 )]=Exp(1x1) (7) 即: OR=e1