混杂偏倚的三种常见校正方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
混杂偏倚的三种常见校正方法
这次[随机化专题],前两期分别谈了随机化的流行病学意义和区组随机化的实现方法。
但并不是所有的场景都可以使用随机化,所有的问题都可用随机化来解决。
当随机化过程“缺失”或“失败”时,我们就需要采取特定的方法来控制混杂。
本文简单介绍一下处理混杂的三种常用方法。
分别是分层分析、回归建模和倾向值分析。
1,Subclassification on One Confounder,通常叫做:亚组分析,分层分析。
亚组分析、分层分析,顾名思义,就是根据混杂变量,对整个研究样本进行亚组划分或者分层,在每个亚组内或者层内分别进行分析,并进一步合并不同层间的结果,以规避掉混杂变量的影响。
举个例子,Cochran曾对加拿大人群的吸烟情况做过一项研究。
发现,总的死亡率呢,吸雪茄的,要显著大于吸香烟的。
但是,吸雪茄的人群明显高龄化,平均年龄66,而吸香烟人群平均年龄55,差异显著!
既然在基线上,年龄不可比,那我们总死亡率的差异,会不会是受到年龄的混杂影响呢?
于是,Cochran做了如下的亚组(分层)分析:
如图,左图很明显,雪茄吸食者,死亡率高;中图也很明显,各
亚组内,雪茄吸食者,死亡率低(哇~各位读者可不要吸雪茄哈,都戒,都戒……);右图做了加权分析,加权平均之后,依然继承了中图的结论,雪茄吸食者,死亡率低。
很明显,在这里,年龄的混杂通过亚组(分层)分析得以校正。
By the way,加权平均的公式,供参考:
亚组(分层)分析优缺点:
方便进行可视化;适用范围广。
有多个混杂时,亚组太多而难以实现。
2,Regression Modeling,回归建模。
通过回归建模的方式校正混杂,已经成了我们日常工作研究中最常用的方法,没有之一。
在本号之前关于logistic回归的系列(关注本号“biostat”,回复“logistic”)中,曾对多重回归对混杂的控制进行过简单介绍。
首先,对混杂变量的识别及建模控制,需要结合统计模型与专业知识。
下图中,小数的高度与孩子的高度明显相关,但并不是孩子身高的决定因素,实际上,在这里,时间成为了两者的混杂因素。
本来无关联的变量,因为都受到时间的影响,反而有了关联。
正确的建模,应排除掉无关的影响,即小树的高度,才能得到一个正确的建模估计。
另一方面,是多重回归中混杂的校正机制。
盲人摸象的例子,有人摸到了绳子一样的尾巴,有人摸到了像胡
萝卜一样的牙齿。
最后我们模型会输出那一个种组合呢?
基于“统计最优的模型是最符合事实的模型”这一假设,我们排除掉了“绳子一样的尾巴”这一变量,而留下了“像胡萝卜一样的牙齿”。
类似的,我们默认混杂变量与真实影响变量之间有一定的主次、强弱关系,而这一关系,将被我们的统计模型所捕获,该用来校正的,用来校正;该剔除的,就剔除掉。
回归建模的优缺点:
多个变量可以同时进入模型。
至少需要十倍于变量数的样本量,如果达不到,可以考虑用“倾向值分析”,↓。
3,Propensity Scores,倾向值分析。
倾向值分析的方法,从1983年才被提出,如今应用之广泛,大概也说明了这一方法受欢迎的程度。
倾向值分析,实际上是一个“充分降维”的过程。
它的公式很漂亮,但考虑到读者医学背景较多,可能兴趣并不大,在这里就不列出来了。
公式的核心就是,将众多的混杂变量“充分降维”,综合成一个变量,即倾向值得分。
倾向值分析,常用的主要用两种,一种是将倾向值得分作为一个协变量(covariate)纳入回归模型;另一种是通过倾向值得分进行匹配(如果读者有看文献的话,经常会出现:Propensity scores
matching,PSM),是一个匹配的过程,有几分模拟病例对照研究的意思(case-control study)。
但总得来说,倾向值分析需要做两步回归:
第一步,计算倾向值得分:无论是使用logistic回归,还是probit 回归,计算一个概率得分,作为倾向值得分。
回归的自变量,即我们所说的混杂变量。
第二部,直接将倾向值得分纳入回归;或者(这分别是两种方法)通过倾向值实施前面提到的分层分析(一般层数会在5-10层左右)。
本号之前发布过一篇使用stata进行倾向值分析的文章,感兴趣者可以查阅。
但这篇文章较粗浅、用语也稍晦涩,所以如果读者们不急于马上使用,本号后期会进一步对其进行介绍,欢迎关注。
倾向值分析优缺点:
当有多个变量时,比回归建模更可靠更有效。
无关变量,或者特别大/小的OR值可能会降低研究的可靠性和有效性。
三种常见的校正方法,就介绍到这里,感兴趣的朋友,记得分享给小伙伴们哦~
关注具有流行病思维的统计学,关注小号!。