混杂偏倚-效应修正讲解

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

♦ 当吸烟的致癌效应RRS≠1时
下述情况下吸烟可导致该研究产生混杂偏倚： ◘ 研究设计阶段：未保证吸烟者在两人群中的均衡性 ◘ 分析阶段：未先将两人群按吸烟和未吸烟分层，然后再按每一层去确定氡气暴露和肺癌之间的关联
该研究中混杂偏倚产生的机理：
是因为导致肺癌产生的另一因素吸烟在两组人群中分布不均衡。
♦ 个体匹配
指按一个至数个混杂因子分层，为病例选择同层
的对照，一个病例配的对照数多为1-4个。
♦ 匹配的好处
√ 可以有效地控制混杂因子的作用，提高研究结果的真实性； √ 在减少总样本数的情况下得到结论，提高研究的效率。
♦ 匹配的缺点:
(A) 难以对匹配掉的混杂因子及交互作用做深
入分析；
(B) 在病例对照调查中，用匹配的方法控制混杂经常低估暴露对疾病的作用，严重时会引起过度匹配（overmatching）的问题，掩盖暴露的真实作用。
二、混杂偏倚产生的机理
例:氡气与肺癌的定群研究 ♠ 以 RR 值描述暴露于氡气人群与不暴露于氡气人群在肺癌发生频率之间的关联强度。
以四格表的数据计算关联强度指标RR值肺癌患者 (D+) 暴露于氡气的人群(E) 未暴露于氡气的人群(Ē ) 未患肺癌者 (D–)
a
b
a+b
c
d
c+d
a / (a+b) RR = ---------------------c / (c+d)
♦ RR值的真实性评价
此RR值是否真实地反映了氡气与肺癌之间的
关联强度，完全取决于下述条件：
(1)氡气暴露人群（E）和未暴露人群（Ē）之间在产生肺癌的易感性方面是否可比
(2)导致肺癌的其它危险因素在两组人群之间
的分布频率是否可比。
“a”例肺癌的归因可能性(来自暴露人群)：
（A）由氡气所致（B）由吸烟所致（研究者已知道的致肺癌因素）（C）由其它未知因素所致
混杂偏倚的识别与控制
一、混杂偏倚的概念在病因研究中，当对所关心的某种暴露因素 (E) 与某种疾病 (D) 之间的关联进行定量估计时，由于其他因子 (F) 的影响，致使 E 和 D 之间关联的真实性被歪曲，关联强度被放大或缩小，这种歪曲关联真实性的作用被称作混杂作用 (confounding effect) ，起到混杂作用的因子被称为混杂因子 (confounder 或 confounding factor,F)。
♦ 混杂偏倚本质
√ √ √ 一种人为造成的偏倚是在研究的设计阶段未对混杂因子加以控制或资料分析时未能进行正确校正所致是完全可以避免和控制的一种系统误差
♦ 混杂因子成立的条件
(1)必须是所研究疾病的危险因素或保护性因素 (2)必须和暴露因素之间存在统计学关联
(3)一定不是暴露因素与疾病因果链上的中间变量
上述分析也可适用于病例对照的OR值分析。
四、混杂偏倚的方向
根据偏倚的产生机理，当混杂因子对暴露与疾
病之间的关联产生歪曲时，混杂偏倚具有一定
的方向性和大小。其方向可正可负，其作用可
大可小，取决于E、F和D之间的关系。
♦ 正混杂：cRR 或 cOR 被放大，高于真实值
♦ 负混杂：cRR 或 cOR 被缩小，低于真实值
五、混杂偏倚的控制
(一) 在设计阶段进行控制
1. 限制。
2. 随机分配：随机分配又可细分为简单随机分配和分层随机分配（stratified randomization ）两种方式。 3. 匹配（matching）：匹配是最经常用于控制混杂因子的方法。
♦ 群体频数匹配
指混杂因子发生的频度在不同组应大致平横；
(C) 过分苛刻的匹配，会使得部分病例找不到
对照，致使信息浪费，使研究的效率反而
降低。
(二) 在分析阶段控制混杂
1. 分层分析：
分层分析是按混杂因素分层后，分别就暴露
对疾病的关联做分析，可以使用MantelHaenszel方法在分析阶段控制混杂因子。
－可以评价在各层中暴露与疾病的关联；
－可整体估价用分层技术排除混杂后的暴露与疾病总的关联强度。
“c”例肺癌的归因可能性 ( 来自非暴露人群 ) ：
（B）由吸烟所致（C）由其它未知因素所致
♦ 对RR值的解读
此相对危险度RR在本项研究中包含有三种效应：（A）氡气的致癌效应（B）吸烟的致癌效应（C）其它未知因素的致癌效应
♦ RR值产生混杂偏倚的条件
（B）吸烟的致癌效应RRS≠1 （C）其它未知因素的致癌效应RRU≠1
♦ 利用分层分析进行定量判别
－以定群研究为例
－分层分析：将研究人群按是否暴露于可疑
混杂因子F分类（最简单可分为暴露与不暴露两组），然后再做单因素分析。
未分层资料的分析
患者(D+) 暴露人群(E) 未暴露人群(Ē ) a c cRR 非患者(D-) b d a+b c+d
分层资料的分析
暴露第三因子F 患者非患者 (D+) (D-) 暴露人群(E) 未暴露人群(Ē) a1 c1 b1 d1 aRR1 未暴露第三因子F 患者非患者 (D+) (D-) a2 c2 aRR2 b2 d2
三、混杂偏倚和混杂因子的判别
♦ 根据专业知识确定研究中可能存在的混杂因子
在流行病学研究中，混杂因子可分为两类：
1. 人口统计学因子:
年龄、性别、种族、职业、经济收入、文
化水平等人口统计学指标，是经常遇到的
混杂因子。
2. 暴露因素以外的其它危险因子：
研究中混杂因子广泛存在，表现形式多样，
常常在隐匿中起到混杂作用。
D+ E+ E－
D－
a c
cRR
b d
F－
F+
D+ E+ E－ D－ D+ E+ E－
D－
a1 c1
b1 d1
aRR1
a2 c2
b2 d2
aRR2
♦ 用简单公式描述：
1. cRR = aRR2 或 aRR1：
F不是混杂因子，cRR值不存在F的混杂偏倚。
R值存在F的混杂偏倚。
例：食管癌病因研究—病例对照研究设计
食管癌病例组和对照组暴露因素分布
因素年龄（岁） 253545556575+ 均值标准差酒精（克/天） 04080120+ 均值标准差病例对照
1 9 46 76 55 13 60.0 9.2
29 75 51 45 84.9 48.4