SAS 中Logistic回归方法的正确应用及结果的正确解释
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Logistic回归方法的正确应用及结果的正确解释
金水高
(中国疾病预防控制中心,北京,100050)
Logistic回归是研究当因变量为二分变量时,因变量与自变量关系的常用方法,自80年代初引入国内后,随着计算机技术的发展,统计软件的日益成熟而得到了十分广泛的应用。但是并不是所有的研究者对于Logistic回归的方法都能正确使用,对结果都能正确解释。近年来文献中经常出现对方法错用、误用及对结果的错误解释的现象。本文仅就在使用Logistic方法时经常出现的错误进行探讨。
1.Logistic回归中分类变量的数量化方法
在Logistic回归中,自变量可以有多种形式。以连续变量形式的如年龄;以等级变量进入方程的如不同的污染等级。而更多的却是以分类变量(定性变量)形式出现的,如性别,地区,职业等。对于多水平分类变量(如职业)的各个水平的赋值方式,尽管在正规的教科书上有详细的介绍,但经常有有些作者将多水平的分类变量按等级来进行赋值(1)。下面摘引的是文献1的作者对其中一些分类变量取值的赋值(表1)。
表1 某个吸烟调查中一些自变量的意义及赋值
作者将第一个变量不同水平赋为具有等级关系的四个值,虽然比较勉强,还可以接受,因为变量的四个取值确实存在程度的差异(但为什麽相邻之间都相差1,这就没有太多的道理了)。而对后面的两个变量(M2及J4)的不同水平也赋予具有等级关系的值,而且相邻之间都相差1,那就没有任何道理了。因为变量M2是询问调查对象是否在电视中看到过有关吸烟的内容,人们对这个问题给出的答案显然并不存在任何量上的程度差别。
对这类自变量的赋值应该采取数量化的方法。通常建议的数量化方法为设臵哑变量。例如对于上面的M2,有4种可能回答,则要设臵3个哑变量,假设为M21,M22,M23。将每一种可能回答(水平)用一组哑变量的取值来表述(表2)。
从表2可以看到,用M21,M22及M23同时等于0表示没有在电视里看到过有关吸烟方面的任何内容;而用M21=1,M22及M23均为0表示在电视里看到过关于吸
烟的内容,等等。由于用一组变量的取值来表示一个水平,每个水平本身也就不再代表一个数,各个水平之间也就不再存在任何数量上的联系。
对于只有两个取值的定性变量,如性别,则可以分别赋值为1和0。可以设男性时为1,而女性时为0。
2.Logistic回归方程中比数比(OR)的估计
1)自变量为连续变量时
为了简化起见,我们假设在研究吸烟与一些因素的关系时,拟合了下列形式的Logistic回归方程:
Logit (P|y=1) = b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE)
y=1为吸烟,y=0 为不吸烟。
AGE为年龄(年)。
SEX为性别,SEX =1为男性,SEX =0为女性。
M21, M22, M23的定义同前。
由于Logit (P) = ln (P/(1-P)),则在不同年龄(AGE)时的比数可以表达如下:
当年龄=AGE1时,
P1/(1-P1) = exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE1))
当年龄=AGE2时,
P2/(1-P2) = exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE2))
则年龄2相对于年龄1的比数比为:
OR = [P2/(1-P2)] ÷[P1/(1-P1)]
= exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE2)) ÷
exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE1))
= exp[b5(AGE2 - AGE1)]
当年龄相差一岁(即AGE2-AGE1=1)时,OR = exp (b5)。
也即,b5表示年龄增加一岁的比数比的对数。
2)自变量为二分变量时
仍以上述方程为例。我们研究自变量为二水平(如性别)时,其中一个水平相对于另外一个水平的比数比。
由于Logit (P) = ln (P/(1-P)), 此时男性与女性的比数可以分别表达如下:ln (P1/(1-P1)) = b4 *1 +(b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE))
= b4 +(b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE))
ln (P0/(1-P0)) = b4 *0 +(b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE))
= b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE)
因此,男性相对于女性的OR可以用下式来估计:
OR(男:女)= exp { b4+(b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE)}/
exp {b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE)}
= exp (b4 )
当自变量为二分变量时,(如性别,是否暴露在某个危险因素下等),一般使自变量的两个水平赋值的差值为1 (如暴露=1,非暴露=0;男性=1,女性=0等,这是最简单的一种赋值方法。), 赋值较小的水平被认为是对照。此时所拟合的Logistic 回归模型中该变量的系数就是这两个水平比数比的对数。
值得指出的是,根据公式可知,用拟合Logistic回归方程的方法估计的是以OR 为指标的应变量与自变量之间联系的强度,而不是相对危险度(RR)。尽管OR与RR 一样都是表示应变量与自变量联系强度的指标,但二者之间是有区别的。对于这一点,