SAS 中Logistic回归方法的正确应用及结果的正确解释

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Logistic回归方法的正确应用及结果的正确解释
金水高
(中国疾病预防控制中心,北京,100050)
Logistic回归是研究当因变量为二分变量时,因变量与自变量关系的常用方法,自80年代初引入国内后,随着计算机技术的发展,统计软件的日益成熟而得到了十分广泛的应用。

但是并不是所有的研究者对于Logistic回归的方法都能正确使用,对结果都能正确解释。

近年来文献中经常出现对方法错用、误用及对结果的错误解释的现象。

本文仅就在使用Logistic方法时经常出现的错误进行探讨。

1.Logistic回归中分类变量的数量化方法
在Logistic回归中,自变量可以有多种形式。

以连续变量形式的如年龄;以等级变量进入方程的如不同的污染等级。

而更多的却是以分类变量(定性变量)形式出现的,如性别,地区,职业等。

对于多水平分类变量(如职业)的各个水平的赋值方式,尽管在正规的教科书上有详细的介绍,但经常有有些作者将多水平的分类变量按等级来进行赋值(1)。

下面摘引的是文献1的作者对其中一些分类变量取值的赋值(表1)。

表1 某个吸烟调查中一些自变量的意义及赋值
作者将第一个变量不同水平赋为具有等级关系的四个值,虽然比较勉强,还可以接受,因为变量的四个取值确实存在程度的差异(但为什麽相邻之间都相差1,这就没有太多的道理了)。

而对后面的两个变量(M2及J4)的不同水平也赋予具有等级关系的值,而且相邻之间都相差1,那就没有任何道理了。

因为变量M2是询问调查对象是否在电视中看到过有关吸烟的内容,人们对这个问题给出的答案显然并不存在任何量上的程度差别。

对这类自变量的赋值应该采取数量化的方法。

通常建议的数量化方法为设臵哑变量。

例如对于上面的M2,有4种可能回答,则要设臵3个哑变量,假设为M21,M22,M23。

将每一种可能回答(水平)用一组哑变量的取值来表述(表2)。

从表2可以看到,用M21,M22及M23同时等于0表示没有在电视里看到过有关吸烟方面的任何内容;而用M21=1,M22及M23均为0表示在电视里看到过关于吸
烟的内容,等等。

由于用一组变量的取值来表示一个水平,每个水平本身也就不再代表一个数,各个水平之间也就不再存在任何数量上的联系。

对于只有两个取值的定性变量,如性别,则可以分别赋值为1和0。

可以设男性时为1,而女性时为0。

2.Logistic回归方程中比数比(OR)的估计
1)自变量为连续变量时
为了简化起见,我们假设在研究吸烟与一些因素的关系时,拟合了下列形式的Logistic回归方程:
Logit (P|y=1) = b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE)
y=1为吸烟,y=0 为不吸烟。

AGE为年龄(年)。

SEX为性别,SEX =1为男性,SEX =0为女性。

M21, M22, M23的定义同前。

由于Logit (P) = ln (P/(1-P)),则在不同年龄(AGE)时的比数可以表达如下:
当年龄=AGE1时,
P1/(1-P1) = exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE1))
当年龄=AGE2时,
P2/(1-P2) = exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE2))
则年龄2相对于年龄1的比数比为:
OR = [P2/(1-P2)] ÷[P1/(1-P1)]
= exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE2)) ÷
exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE1))
= exp[b5(AGE2 - AGE1)]
当年龄相差一岁(即AGE2-AGE1=1)时,OR = exp (b5)。

也即,b5表示年龄增加一岁的比数比的对数。

2)自变量为二分变量时
仍以上述方程为例。

我们研究自变量为二水平(如性别)时,其中一个水平相对于另外一个水平的比数比。

由于Logit (P) = ln (P/(1-P)), 此时男性与女性的比数可以分别表达如下:ln (P1/(1-P1)) = b4 *1 +(b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE))
= b4 +(b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE))
ln (P0/(1-P0)) = b4 *0 +(b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE))
= b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE)
因此,男性相对于女性的OR可以用下式来估计:
OR(男:女)= exp { b4+(b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE)}/
exp {b0 + b1 M21+ b2 M22+ b3 M23 + b5(AGE)}
= exp (b4 )
当自变量为二分变量时,(如性别,是否暴露在某个危险因素下等),一般使自变量的两个水平赋值的差值为1 (如暴露=1,非暴露=0;男性=1,女性=0等,这是最简单的一种赋值方法。

), 赋值较小的水平被认为是对照。

此时所拟合的Logistic 回归模型中该变量的系数就是这两个水平比数比的对数。

值得指出的是,根据公式可知,用拟合Logistic回归方程的方法估计的是以OR 为指标的应变量与自变量之间联系的强度,而不是相对危险度(RR)。

尽管OR与RR 一样都是表示应变量与自变量联系强度的指标,但二者之间是有区别的。

对于这一点,
并不是所有的作者都很明白。

经常有一些文章,错将拟合Logistic回归模型后得到的OR当RR看待(2)。

OR与RR之间的联系与区别可以用下面简单的四格表来说明。

表3。

队列研究中暴露与患病的关系
根据定义,可以得到暴露相对于非暴露的RR与OR如下:
RR = {a÷(a+b)} /{c÷(c+d)}
= a (c+d) / {c (a+b)}
OR = {[a÷(a+b)] / [b÷(a+b)]} / {[c÷(c+d)] / [d÷(c+d)]}
= (ad) /(bc)
可见,OR与RR是不相等的。

但当某病/事件发生的概率相当小时,即当,
a << (a+b), c<<(c+d)时,可以有
a÷(a+b)≈a÷b 及c÷(c+d)≈c÷d
此时,才可以有:RR≈OR
按照这个近似,我们可以对照一下文献2中列举的事件,看其是否属于发生概率很小的事件。

文献2为研究性罪错人员得了性病后是否在公立医院(正规医院)求过医的影响因素。

影响因素(自变量)包括是否经常看广告,求医知识等。

根据作者在文章中提供的数据,可以看出在求过医的491名调查对象中,到公立医院求医的高达41.5%。

而常看广告的患者选择到公立医院就诊的达到63.2%,即使不常看广告的患者,其到公立医院就诊的也达到42%。

可以看到,不论是自变量的那个水平,应变量发生的概率都相当大,相对危险度不能用比数比来近似,而作者却将相对危险度用比数比来表示,显然是不合适的。

3)用哑变量表示的自变量各水平之间的比数比的估计
许多文章在拟合方程得到各回归系数后,不知道如何解释用哑变量表示的自变量各水平之间的OR。

仍以上面的方程为例进行讨论。

在上面的方程中,三个哑变量的偏回归系数分别为b2,b3及b4。

如果再仔细看一下前面对哑变量的设臵,写出在该自变量的四个水平下的比数,可以得到:自变量第一个水平可以认为是对照组。

M21=0,M22=0,M23=0,其比数为:P0/(1-P0) = exp(b0 + b4 (SEX) + b5(AGE))
第二水平:M21=1, M22=0, M23 =0,
P2/(1-P2) =exp(b0 + b1 +b4 (SEX)+ b5(AGE))
第三水平:M21=0, M22=1, M23 =0,
P3/(1-P3) =exp(b0 + b2 +b4 (SEX)+ b5(AGE))
第四水平:M21=0, M22=0, M23 =1,
P4/(1-P4) =exp(b0 + b3 +b4 (SEX)+ b5(AGE))
二水平与对照组(没有看到过任何吸烟广告组)的OR为:
OR(二水平:一水平)
= exp(b0 + b1 +b4 (SEX)+ b5(AGE)) / exp(b0 + b4 (SEX) + b5(AGE))
= exp(b1)
其它各组与对照组的OR可以仿照计算。

即,
OR(三水平:一水平) = exp(b2),
OR(四水平:一水平) = exp(b3)。

许多作者报告的研究结果都到此为止,他们也许以为报告了与所谓的对照组的OR就是最终的研究结果。

其实这是一种误解。

首先,作为一个研究人员不能仅关心各组与‘对照组’的OR,还应该估计各水平之间的OR,这才应该说完成了一次分析。

更何况,在许多情况下,所谓的‘对照组’往往都是研究者随意设臵的,并非都具有基线的性质。

比如在上面的例子中,我们将‘没有看到过任何烟草广告’设臵为对照组,完全是随意的,没有任何特殊的含义。

对于各水平之间的OR的估计,可以采用计算OR的基本公式。

例如,在上面有关吸烟的例子里,第三水平相对于第二水平的OR可以用下式来估计:OR(三水平:二水平)
= exp(b0 + b2 +b4 (SEX)+ b5(AGE)) / exp(b0 + b1 +b4 (SEX)+ b5(AGE))
= exp(b2-b1)
同样可以估计四水平相对于三水平或二水平的OR。

各水平之间的OR可以列表如下(表5):
差的显著性检验来进行。

在一般的高级统计软件如SAS等中都有有关的命令。

3.因素作用大小的比较
一些作者经常通过比较OR的大小来间接比较不同因素对应变量影响的大小(1,3)。

文献3在研究影响妇女产前检查的可能因素时,拟合了一个Logistic回归模型。

在进行分析后,认为‘由于量纲相同’,可以由回归系数的绝对值‘直接判定’它们与产前检查关联强弱。

其结论为:孕产期卫生知识〉妇女文化程度〉妇女年龄〉丈夫文化程度〉丈夫职业〉家庭距卫生院距离。

这是不合适的。

一般情况下,Logistic回归模型各个自变量的OR不可直接进行比较。

这里所说的一般情况是指对变量未进行标准化时,此时各自变量的单位不一致。

而OR表示的正是在其它自变量保持不变的情况下,某个自变量的取值增加一个单位对应变量的影响。

比如年龄增加一岁与文化程度增加一个等级(比如从文盲到小学程度),怎么能可比呢?因此为了使各个自变量的OR之间能够具有可比型,几乎在所有的统计学教科书中,都会提到应在拟合模型之前对变量进行标准化,然后对标准化的偏回归系数进行比较(4)。

但标准化的目的不仅仅是消除量纲,而是使各个变量都转换成用同一个尺度—与样本均数标准差的倍数来度量。

这时,不同变量的OR就都代表了变量增加一个标准差的比数比。

文献3的作者认为,他设臵的自变量之间的‘量纲相同’。

为了便于读者了解,表6列出了文献3对自变量设臵中的三个,看看各个自变量之间的‘量纲’是否相同。

首先,我们可以看出表中的每个变量都属于无量纲的变量。

其次,尽管是无量纲的,但由于没有标准化,不同变量两个水平之间的变化是不可比的。

比如你怎么能认为受教育程度从初中以下到初中以上的变化与职业在农业与非农业之间的变化是相同的呢?
因此,要对不同变量对应变量影响的重要性进行比较,必须先行对每个变量进行标准化。

4.Logistic回归的条件
另外一个容易被研究者忽略的问题就是Logistic回归的条件,即个体之间的独立性。

例如在一篇论文中,某研究者介绍了为研究影响初中学生开始吸烟的因素,在城市及郊区的学校,采用了整群抽样的方法,各选择初一年级的一个班的全部学生进行调查(1)。

作者在这里犯的一个错误就是,学生之间的吸烟行为是互相影响的。

也即研究个体之间是不独立的。

总之,随着国内外交流的日益广泛,国际上先进的统计方法及相应的统计软件不断引进国内,有力地推动了我国的统计及医学科研。

但同时也存在着对方法的一知半解、对结果错误解释的现象。

必须对这些情况予以足够的重视。

参考文献
1.张庆武等。

影响初一学生吸烟的外在因素分析。

中国公共卫生, 1999,15(8):711 2.彭中等。

性罪错人员性病求医行为影响因素的Logistic分析。

中国公共卫生,2002,18(3):324
3.段平等。

105个项目县妇女产前保健现况分析。

中国公共卫生,2002,18(2):185-186
4.陈峰。

医用多元统计分析方法。

中国统计出版社,2000,北京,P30
测试题
1.进行Logistic回归时,为什么要注意个体之间的独立性?
2.进行变量的标准化的意义何在?
3.对于多分类的变量,在进行Logistic 回归时,为什么要设臵哑变量?
4.在什么情况下,相对危险度可以用比数比来近似?
/html/zipai/index.html
/html/oumei/index.html
/article/sort02/info-18155.html。

相关文档
最新文档