一文解析临床研究中的偏倚及控制方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一文解析临床研究中的偏倚及控制方法
在临床科研过程中,我们都致力于一点,就是让分析所得的关联性(association)尽量接近病因性(causation)。除了应用统计学方法以外,非常重要的就是从根本上分析造成偏倚(bias)的原因并控制误差和偏倚。正如LinkLab前文所提及的,我们需要重点分析和排除的误差包括:随机误差和系统误差(bias),以及发现和解释效应修正(effect modification)。其中随机误差是随机分布且不可预测的,因此除了增加样本量或重复测量取均值外别无他法。但对于系统误差和效应修正却可以得到控制或解释,帮助理解所得结论。
系统误差包括:混淆偏倚(confounding)、选择偏倚(selection bias)和信息偏倚(information bias)。其中,信息偏倚(information bias)是指在研究的实施阶段中从研究对象获取研究所需的信息时产生的系统误差,其原因是由于诊断疾病、测量暴露或结局的方法有问题,导致被比较各组间收集的信息有差异而引入的误差。本文将不对其进行描述。
阅读此文前强烈建议您阅读LinkLab 2015年11月6日《流行病学也好玩(四):一种方法教会你理清科研思路》,之后就能轻松理解清楚误差和偏倚,以及有效的解决方法。
混淆偏倚(confounding)
E:暴露变量(exposure);
Y:结果变量(outcome);
C:混淆因素
在研究暴露与疾病的联系时,C作为混淆因素(confounder)必须满足:
1)与exposure相关联;
2)与outcome相关联且不是因为exposure;
3)不在E和Y的因果链上。
但并不是满足这三个条件就是混淆因素。由于混杂变量的存在,造成了观察到的联系强度偏离了实际情况,则称为混杂偏倚。
小测试:
假设A=exposure,Y=outcome,哪些图的L不是混淆因素呢?
答案就是最后一个图。
混淆因素严重干扰我们对于risk的估计,所以必须想办法控制这些variable。但是有时候因为我们需要考虑的混淆因素不可测量,为了能够分析出真实的结果,可以使用surrogate confounder来控制混淆因素。
如下图:
U为不可测量的混淆因素,为了控制U,我们可以替代使用能够代表U的其他变量L 来分析。比如,我们需要考虑社会地位这个因素,因为无法测量社会地位,所以我们可以使用教育、收入、住址、学历等因素代表社会地位进行分析。
切忌:当进行统计分析的时候,务必仅考虑混淆因素而不对非混淆因素进行处理,所以并不是考虑的因素越多越好。因为分析时控制的混淆因素越多,则分析的power越低,甚至因为控制某一非混淆因素而引入新的混淆因素。如下图:
本身该DAG不存在混淆因素,但是如果误把L当成了混淆因素对其进行控制时,U1,U2则变成了混淆因素对A与Y的相关性产生干扰。
如何去除混淆因素对分析结果的影响呢?
在试验设计阶段,我们可以采取:
1)随机化(randomization):可以有效控制已知和未知的confounders;
2)匹配(matching)和限制(restriction):可以控制已知的confounders;
•限制:如果认为某个或某些因素是可能的或已知的混杂因素,在设计过程中,可对研究对象的选择条件进行规定,但限制条件不宜太多。如研究冠心病与吸烟的关系,年龄与性别可能是混杂因素,就规定本次调查仅限于40-50岁的男性居民。
•匹配(matching):个体配比将每个指示病例选择一个或多个对照,该对照与病例具有某些相同的特征,如年龄、性别等,在各比较组有相同的分布,以达到清除混杂作用的目的。频数配比将使对照组在某个潜在的混杂变量的分布与指示病例组的分布相同,如暴露组30-39岁为30%,40-49岁为30%,50-59岁为40%,那么非暴露组应与暴露组有相同的年龄分布。
3)选择不存在混淆因素与暴露相关的研究人群
在数据分析阶段,仅可以对已知的混淆因素进行控制。我们可以进行:
•IP weighting/standardization:通过标准化人群,让混淆因素在暴露和非暴露人群中的分布是相同的,从而去除混淆因素对分析结果的影响;
•stratification-based methods(包括stratified analysis, restriction, regression…):通过研究各个混淆因素水平下(假设各个水平下混淆因素不影响exposure和
outcome的相关性),exposure和outcome的相关性以去除混淆因素对结果的
影响。
选择偏倚(selection bias)
A:暴露变量(exposure)
Y:结果变量(outcome)
C:混淆因素(confounder)
选择偏倚(selection bias)是由于选择研究对象的方法有问题,使入选者与未入选者在某些特征上存在着系统差异,从而导致研究结果偏离真实情况。
选择偏倚是一个普适的概念,可以出现在随机对照试验、队列研究和病例对照试验。选择偏倚包括:失访(loss to follow-up)、无应答偏倚(non response bias)、数据缺失(missing data bias)、志愿者偏倚(volunteer bias)、self-selection、健康工人偏倚(healthy worker effect)。在病例对照研究中,包括不合适选择对照组(inappropriate selection of controls)、入院率偏倚(Berkson’s bias)、现患病例偏倚(prevalence-incidence bias) 等。
入院率偏倚(Berkson’s bias)
在病例对照试验中需要考虑。指的是:利用医院或住院病人作为研究对象时,由于各种疾病的入院率不同而致的偏倚。
A:吸烟