计量经济学:logistic方法介绍

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Wald χ2 值 131.677 28.330 48.297 57.093 78.798
P
0.0001 0.0001 0.0001 0.0001 0.0001
OR
7.184 12.027 15.051 5.367
表中显示,各年龄组的OR=7.184、 12.027、 15.051,是不同年龄 组(水平)与25~44岁组的优势比。
同时有许多自变量(外部环境或条件)可能对结果(应变量)产生影 响。在医学中(尤其在流行病学方面)解决这一问题是不能使用线性回归 分析方法。这是因为: ① 线性回归中要求分析的应变量指标的取值是服从正态分布的随机变量, 而对于观察结果为分类资料,尤其是只有两个对立结果的分布通常是二项 分布;
② 如果勉强使用线性回归的方法进行分析,即以此结果为应变量Y,其它 的观察结果为自变量X,那么回归方程没有多大实际意义。
反映某一个危险因素xi在暴露水平1下发病率与不发病率的比
3. 优势比OR(Odds Ratio)
OR

P1 P0
/ 1 / 1
P1 P0

ei
亦称比数比
反映某一个危险因素xi在不同暴露水平下发病与不发病的比。
当阳性率P 1时,OR RR
二、参数估计
由于Logistic回归是一种概率模型,通常采用最大似然估计法(maximum likelihood estimate)求解模型中的参数βj的估计值 bj (j=0,1,2,….k)。
应变量yi=1的可能性Pi为:
e 0 1xi1 2 xi 2 p xip
P 1 e i
0 1xi1 2 xi 2 p xip
应变量yi=0的可能性Qi为:
1
Q 1 e i
0 1xi1 2 xi 2 p xip
3.8321.972 A1 2.487 A2 2.741A3 1.680 B
第二节 Logistic 回归模型的参数估计和假设检验
一、参数意义(释义同于病例-对照设计研究)
1. 相对危险度RR(Re lative Risk) RR P1 P0
反映某一个危险因素xi两个不同暴露水平1与0的发病率的比
2. 优势Odds
Odds P1 P1 1 P1 q1
亦称比数
方法是:
n
n
(1)建立似然函数 L
li
P Q yi 1 yi ii
i 1
i 1
(2)取对数
n
ln(L) [ yi ln Pi (1 yi)ln Qi ] i 1
(3)用Newton Raphson迭代法逼近求解,使 ln(L) max
求出最优解 B* (b0 , b1, ....., bk )
例19-2
研究食管癌与饮酒的关系,年龄可能是混杂因素。将饮酒按年龄分解成4 个四格表,用Logistic回归校正混杂因素。
B
饮酒 不饮酒
25~44 病例 对照
5
35
5
270
年龄组
45~54 病例 对照
55~64 病例 对照
25
29
42
27
21
138
34
139
65+ 病例 对照
24
18
44
119
合计
个例预测
设某AMI患者在症状5小时内送到医院(x3=0),未发生休克(x1=0), 已有心衰(x2=1),求抢救成功的概率。
抢救失败(y 1)的概率
2.08581.109800.702810.97510
P 1 e e2.08581.109800.702810.97510
0 1 0 0 17 1 1 0 0 6
01016
11019
01106
11106
01116 11116
;
PROC logistic descending;
FREQ count;
MODEL y=x1 x2 x3; RUN;
例19-1资料的参数估计
变量名
常数项 X1 X2 X3
参数估计βk
-2.0858
0.2508 1.2508
20.053%
抢救成功(y 0)的概率
Q 1 0.20053 79.95%
三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验
H0:β=0 (模型中不含变量) H1: β≠ 0 (模型中含变量)
统计量:G = - 2lnL- (-2lnL') ~ χ2(k) 在例19-1中的SAS结果中:
Logistic回归模型的分类
按反应变量的类型分: 1.两分类的 Logistic 回归模型 2.多分类有序反应变量的 Logistic 回归模型 3.多分类无序反应变量的 Logistic 回归模型式 按设计类型分: 1.非条件 Logistic 回归模型,研究对象未经过配对的成组资料 2.条件 Logistic 回归模型,研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死(AMI)患者能否成功的危险因素调查中,某 医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前:X1=1表 示已发生休克,X1=0表示未发生休克;X2=1表示发生心衰, X2=0表示未发生 心衰;X3=1表示12小时内将患者送往医院, X3=0表示12小时内未将患者送往 医院;详细资料如下:
OR
3.034 2.019 2.651
e1.1098 3.034 , e0.7028 2.019 , e0.9751 2.651
P e2.08581.1098x1 0.7028x2 0.9751x3 1 e2.08581.1098x1 0.7028x2 0.9751x3
病例 96 104
对照 109 666
用0 1值表示三个哑变量A1、A2、A3,
如果研究对象年龄小于45岁,设 A1,A2,A3 0 , 0 ,0,
如果研究对象年龄在45 ~ 54岁,设 A1,A2,A3 1,0,0,
如果研究对象年龄在55 ~ 64岁,设 A1,A2,A3 0,1,0,
由于各变量指标单位不同,不能用βj的大小比较各xi的作用大小,而须用标准化 偏回归系数β’j 来比较 。
结果解释
3个βi的估计值都是正数,表明这三个因素都是危险因素且都有统计学意 义。从优势比OR上可以看出,在因素x2和x3固定不变时,因素x1每增加一个 等级所引起的优势比为增加前的3.034倍;在因素X1和X3固定不变时,因素x2 每增加一个等级所引起的优势比为增加前的2.019倍 。在因素x1和x2固定不变 时,因素x3每增加一个等级所引起的优势比为增加前的2.651倍。同时在考察 因素相对贡献大小时,从标准系数看, β'1> β' 3 > β'2 ,故x1的相对贡献比x2和 x3大。
y=0 表示抢救成功
X1
X2
X3
n
0
0
0
35
0
0
1
34
0
1
0
17
0
1
1
19
1
0
0
17
1
0
1
6
1
1
0
6
1
1
1
6
y=1 表示未抢救成功
X1
X2
X3
n
0
0
0
4
0
0
1
10
0
1
0
4
0
1
1
15
1
0
0
6
1
0
1
9
1
1
0
6
1
1
1
6
二、资料一般形式和模型结构
1.资料形式
分析变量
例号
X1
X2

Xk
1




2




3

的95%置信区间:



1.96
SE





在例19-1中的SAS结果中:
变量名
X1 X2 X3
参数估计 βk
1.1098
0.7028 0.9751
标准误 SE( βk )
0.3485
0.3292 0.3440
ORk
3.034 2.019 2.651
OR 的95%CI
1.532 1.059 1.351
*** 例19-1 的Logistic回归SAS程序 ***
DATA a;
INPUT y x1 x2 x3 freq@@; CARDS;
0 0 0 0 35 1 0 0 0 4
0 0 0 1 34 1 0 0 1 10
0 0 1 0 17 1 0 1 0 4
0 0 1 1 19 1 0 1 1 15
标准误 SE( βk )
0.3513
1.1098 0.3485
0.7028 0.3292
0.9751 0.3440
Wald χ2 值
35.264 10.1419 4.5586 8.0362
P
0.0001 0.0014 0.0328 0.0046
标准化参数 估计值β'k
0.2837 0.1899 0.2691









n




观察结果y 阳性1 阴性0
0 0 1 0 1
2.模型结构
研究中设效应指标y=1为发生,y=0 为不发生(对某一疾病而言,相当于 发病与不发病),现观察k个指标(这些指标一般称为危险因素),记为X= (X1,X2,…Xk),当效应值y=1时和y=0的概率(模型)分别为: ( P+Q=1 )
e 0 1x1 2 x2 k xk P 1 e 0 1x1 2 x2 k xk
Q 1 e 1 0 1x1 2 x2 p x p

ln
P Q

0

1x1

2 x2

p xp
记作
log itP
称对数线性回归模型
模ຫໍສະໝຸດ Baidu参数解释
0 常数项
0表示暴露剂量为0 时个体发病与不发病概率之比的自然对数

j
关于x j的偏回归系数
j j

0, 0,
x
为危险因素
j
x
为保护因素
j
,
j表示自变量x j改变一个单位时,log itP的改变量。
在n例观察对象中,第i名观察对象在Xi1,Xi2,…Xip作用下,
二项分布与Logistic回归
对于二项分布来讲,很明显这时结果变量的取值0或1应该是 这个观察发生的可能与否,即它表示在一定条件下观察事件发生 的可能性,是一个概率性的结果,所以相应的概率值范围应限制 在0~1之间。
从上世纪70年代开始,Logistic回归逐渐发展起来,从理论和 方法上较好地解决了这一问题,尤其在病因学研究方面有其独到 见解。
拒绝H0 说明模型变量有统计学意义。
2. 回归系数的假设检验(Wald法)
H0:βj=0 ;
H1: βj≠ 0
统计量

2 j


j SE
j
2
~
2 1
在例19-1中的SAS结果中:
变量名
常数项 X1 X2 X3
参数估计βk
-2.0858 1.1098 0.7028 0.9751
Model Fit Statistics
Criterion Pr > ChiSq
Intercept Only
Intercept and Covariates
AIC
246.346
230.616
SC
249.644
243.809
-2 Log L
244.346
222.616
G =<-0.020ln0L1- (- 2lnL')=244.346-222.616 = 21.73 , k=3 , P=0.00007
如果研究对象年龄大于65岁,设 A1,A2,A3 0,0,1
饮酒变量
B

1 0
饮酒 不饮酒
1 病例 Y 0 对照
Logistic回归模型
变量名
常数项 A1 A2 A3 B
参数估计βk
-3.832 1.972 2.487 2.741 1.680
标准误 SE( βk )
0.334 0.371 0.358 0.363 0.189
6.006 3.850 5.203
β 的95%CI
0.427 0.057 0.304
1.793 1.348 1.649
如x3的OR的95%置信区间: e0.97511.960.3440 1.351 , 5.203 x3的3的95%置信区间: 0.9751 1.96 0.3440 0.304 , 1.649
标准误 SE( βk )
0.3513
0.3485
0.3292 0.3440
Wald χ2 值
35.264 10.1419 4.5586 8.0362
P
0.0001 0.0014 0.0328 0.0046
3. 优势比OR 和 β 的区间估计
OR的95%置信区间:
e
1.96
SE




Logistic回归模型
要求: 1.掌握Logistic回归模型主要指标的统计意义 2.理解 偏相关系数的统计意义 3.理解Logistic回归模型建模的SAS程序和SPSS操作过程
第一节 Logistic回归模型的基本概念
在医学研究中经常遇到应变量为互斥的二项分类资料,如: 治愈与未 愈、生存与死亡、发病与未发病等。
相关文档
最新文档