流行病学之偏倚及其控制
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/6/16
36
第三节 研究的偏倚
直接因果关联的歪曲
如果怀疑病因E与疾病D既存在直接关联,又存在间接
关联(图A)或与其他危险(保护)因素F存在相关(图B),
暴露E与疾病D的直接因果关联程度或方向将可能受到
混杂干扰,即得到歪曲的关联估计值。
E
E
F A?
F B?
D
2020/6/16
D
37
第三节 研究的偏倚
定义 是指暴露因素与疾病发生的相关(关联)程度受到其
他因素的歪曲或干扰。 混杂的本来含义是“混合掺杂”( mixing together ),
这里是指暴露因素对疾病的独立效应与混杂因素的效 应混在一起,造成对暴露因素效应的估计偏倚。
2020/6/16
33
第三节 研究的偏倚
判定原则
比较混杂因素调控前后的暴露因素效应估计值,如果存 在有意义的差异,就产生了混杂偏倚。 调控的统计方法
2020/6/16
3
第一节 研究结果的变异性
概述 个体水平的变异性 群体水平的变异性 样本水平的变异性
2020/6/16
4
一 、概 述
第一节 研究结果的变异性
变异性(variability) 研究结果包括描述性和分析性数据(指标)
的变动或波动。
表 8-1 变异性的水平和来源
变异性水平
变异的来源
个体
2020/6/16
12
第一节 研究结果的变异性
分析性结果的样本变异性
研究 A(研研究究A对(研象究2对0象0 人20, 0人随,机随分机配 分配到到两两组组))
膳膳食食改改良良组组 降降低胆胆固固醇醇药药物组组
0
5
10
15
五年内发生
心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组)
设计阶段:标准化率、分层和多变量分析 设计阶段:配比、随机化分配或限制进入
2020/6/16
34
第三节 研究的偏倚
继发关联(secondary association)
定义
是一种纯粹由混杂偏倚产生的关联
即怀疑的病因(暴露)E与疾病D并不存在因果 关系,而是由于两者(E,D)有共同的原因C, E,D同C存在关联,从而继发产生E与D的关联。
样本本CC 219,164,190,188,233 =0%
图 8-1 源群体与样本高胆固醇率的样本变异性示例
2020/6/16
11
第一节 研究结果的变异性
在图8-1中,群体高胆固醇率为25%,样 本A为40%,样本B为20%,样本C为0%。
增大样本含量,样本的变异性会减少,样 本的高胆固醇率对群体的代表性会增大。
2020/6/16
9
第一节 研究结果的变异性
四、样本水平的变异性
通过不同样本研究所得结果的差异性 为什么高水平的血清总胆固醇是不利的或不
健康的? 这可以在关于血清总胆固醇与心血管死亡风
险呈正相关的研究中找到答案。 如Framingham心脏研究。
2020/6/16
10
第一节 研究结果的变异性
描述性结果的样本变异性
2020/6/16
29
第三节 研究的偏倚
无差异性错误分类和差异性错误分类
研究研真究实真数实据数据
无无差差异异性性错错误误分分类类
错错误误分分类类数数据据
高脂肪 低脂肪
膳食 膳食
心肌梗死 60
40
对 照 40
60
OR= (60╳60)/(40╳40)=2.3
高 脂 肪 膳 低脂肪
食
膳食
心肌梗死 48
2020/6/16
15
第二节 研究的真实性
概述 内部真实性 外部真实性
2020/6/16
16
一、概 述
真实性(效度) 定义 指研究收集的数据、分析结果和所得结
论与客观实际的符合程度。 研究误差 真实性的反面变异可以是真实的 (如生物学个体变异),而反映研究误差 的变异肯定是不真实的。
2020/6/16
2020/6/16
7
个体状态
日间变异 年龄 膳食运动 环境
测量误差
仪器标度差 仪器精密度差 读数或记录错误
2020/6/16
8
第一节 研究结果的变异性
三、群体水平的变异性
个体的累计变异 群体中的个体具有不同的遗传素质并受环境影响
常大于个体变异 根据群体的变异范围确定“正常值”范围,用于判定
个体测得值是否“正常” 群体水平的变异性受测量误差影响
17
研究误差的两种常见类型
系统误差 称为偏倚 来自于对象选取、测量和 统计分析等的方法学缺陷,有固定方向和固定大小 的误差 。
随机误差 用统计学方法来估计,增大样本含量 可减少,没有固定方向和固定大小,一般呈正态分 布。
2020/6/16
18
第二节 研究的真实性
二、内部真实性
内部真实性(internal validity) 定义 研究结果与实际研究对象真实情况
2020/6/16
31
第三节 研究的偏倚
为了减少错误分类以及改善测量的准确 性,研究者们正在越来越多地使用生物学 标记物(biological markers)。它们可以用 来测量易感性、内暴露(实际进入体内) 剂量或生物学效应(剂量)等。
2020/6/16
32
第三节 研究的偏倚
三、混杂偏倚(confounding bias)
2020/6/16
38
第三节 研究的偏倚
E
C
?
E
F
?
D
D
(1)继发关联
图8(-23)直接因果关联的歪曲 图 8-4 混杂偏倚引起假关联
E
F
?
D
(3)直接因果关联的歪曲
2020/6/16
39
第三节 研究的偏倚
四、混杂偏倚的分层分析
M-H(Mantel-Haenszel)分层分析方法的步骤 对可能的混杂因素进行分层 判定层间RR或OR是否相等或相近 得到控制混杂后的调整RR或OR 再 将 调 整 RR 或 OR 与 分 层 前 的 粗 RR 或 粗 OR (cRR或cOR)进行比较
研究B样本较大(2000人),两组效应指标(心肌梗死风险) 的95%CI较小,未发生重叠,有显著性差异。
2020/6/16
14
样本越大,效应估计值的抽样误差越小 (95%可信限越小),统计检验能发现的两 组间效应差值越小。
样本非常大,两组间差异很小的效应值也会 有统计学显著差异,但这很少有生物学或临床 意义。
二、信息偏倚(information bias)
定义
又称测量偏倚或观察偏倚,是来自于测量或资料收集方法的问 题,使得获取的资料存在系统误差。由于流行病学的暴露或疾病 多为分类测量,所以信息偏倚又可称为错误分类偏倚 (misclassification bias)。
信息偏倚同样影响描述性研究和分析性研究的结果。
E
?
C
D
2020/6/16
35
第三节 研究的偏倚
例如 高血清胆固醇是冠心病的危险因素,高血清胆 固醇可产生沉积于眼睑的黄色瘤,从而导致黄色瘤 与冠心病的继发关联。另外,E与C也可以由于相关 (因果方向不明)而产生继发关联。
例如 吸烟是胰腺癌的危险因素,吸烟又与喝咖啡存 在相关(没有确定的时间先后),从而造成喝咖啡 与胰腺癌的继发关联。
源群体 180,174,215,305 233,276,146,195 205,188,190,295 170,164,248,162 220,219,228,250
高胆固醇率 = 25% (>240mg/dL)
样样本本AA
高胆固醇率
305,276,195,215,170 = 40%
样本本BB 295,146,220,162,228 =20%
例如 静脉吸毒E与性乱F都是HIV感染D的危险因素, 吸毒者易发生多性伴行为,即吸毒同HIV感染既存 在直接关联(E→D)又存在间接关联(E→F→D) (图8-3,(2)),吸毒与多性伴没有确定的时间先后 而呈双向相关(图8-3,(3)),多性伴F将对吸毒E与 HIV感染D的直接因果关联起混杂或歪曲作用。
改善措施 增加研究对象的异质性,使得研究对象的代表
性范围扩大。
2020/6/16
20
在实际研究时,需要综合平衡考虑 研究对象的同质性和异质性问题
2020/6/16
21
第三节 研究的偏倚
选择偏倚 信息偏倚 混杂偏倚 混杂偏倚的分层分析
2020/6/16
22
1946年,Berkson做最著名的偏倚研究并给予 证实,又称为Berkson偏倚。
25
第三节 研究的偏倚
分析性研究的选择偏倚
主要体现 研究对象进入、排除、不参与或失访等与研究暴露 或处理因素存在关联,由此增大或减少暴露与疾病、处理与 效应的关联,导致效应估计的偏倚。
控制方法 选取具体环节或已选取人群的具体特征 分析研究对象的选取是否同暴露或处理因素有关
2020/6/16
26
常见选择偏倚
2020/6/16
6
第一节 研究结果的变异性
二、个体水平的变异性
某个体特征测得值的变化,是个体真值随时间 的改变,或是由于测量误差引起的变化。
变异来源 个体状态
测量误差
表 8-2 个体水平测得值的变异来源 特点
日间变异,年龄、膳食或运动改变,环境因素(季节、 温度等) 仪器标度差,仪器精密度差,仪器读数或记录错误
52
对 照 32
68
OR= (48╳68)/(52╳32)=2.0
研研究究真真实实数数据据
差差异异性性错错误误分分类类
错错误误分分类类数数据据
高脂肪 低脂肪
膳食 膳食
心肌梗死 60
40
对 照 40
60
OR= (60╳60)/(40╳40)=2.3
高 脂 肪 膳 低脂肪
食
膳食
心肌梗死 60
40
对 照 32
2020/6/16
24
描述性研究的选择偏倚
第三节 研究的偏倚
主要体现在样本对总体的代表性上 如不是采用随机抽样而是使用方便样本,或某些特定群体
(志愿者、因特网利用者等)造成的外部效度(外推)受限问 题。 控制方法 尽量采用随机抽样,避免样本选取的偏向 对特定群体的结果在外推上要谨慎等
2020/6/16
1976年,Miettinen详细讨论了偏倚的定义,并 给出分类框架,分三类
选择偏倚
信息偏倚
混杂偏倚
2020/6/16
23
第三节 研究的偏倚
一、选择偏倚(selection bias)
定义 研究对象的选取过程中,由于选取方式不当,导致入
选对象与未入选对象之间存在系统差异,由此造成的偏 倚称为选择偏倚。例如研究对象采用志愿者,方便样本, 或者研究对象的无应答或失访等。
流行病学 Epidemiology
第九章 偏倚及其控制 Biases and Their Control
研究的解说涉及到研究的真实 性的问题。研究的真实性直接关 系到是否获得正确的结论,而真 实性需要通过变异性估计来确定。
2020/6/16
2
第一节 研究结果的变异性 第二节 研究的真实性 第三节 研究的偏倚
膳膳食食改改良组组
降降低胆胆固固醇醇药物物组组
0
5
10
15
图 8-2 膳食与药物预防心机梗死的样本变异性示例
2020/6/16
五年内发生 心肌梗死风险(%)
13
第一节 研究结果的变异性
如图8-2,研究A和B中膳食改良组五年内发生心机梗死的风险 为9%,而降胆固醇药物组为6%。
研究A样本较小(200人),两组效应指标(心肌梗死风险)的 95%可信限较大,发生重叠,无显著性差异。
68
OR= (60╳68)/(40╳32)=3.2
图 8-3 无差异性错误分类和差异性错误分类的示例
2020/6/16
30
第三节 研究的偏倚
差异性信息偏倚的两种常见类型
回忆偏倚(recall bias)
产生于研究对象记忆过去活动和暴露能力的差异。
调查者偏倚(interviewer bias)
产生于调查者对研究对象有差异性地收集信息。采取盲法, 可以降低调查者偏倚。
个体生物学变异,测量误差
群体
个体间遗传学变异,环境变异,测量误差
样本(研究)
抽样方式,样本大小,测量误差
ቤተ መጻሕፍቲ ባይዱ
2020/6/16
5
第一节 研究结果的变异性
变异的来源分为两个层次
生物学(真实)变异和测量变异 生物学变异 真实的客观变异 测量变异 测量过程的误差
随机变异和系统变异 随机变异 绝对值和方向交错变化,正态分布 系统变异 绝对值和方向保持恒定
入院偏倚 失访偏倚 志愿者偏倚
第三节 研究的偏倚
2020/6/16
27
第三节 研究的偏倚
确定有无选择偏倚的关键 把握选取环节或已入选对象,是否存在人为增
大或减少研究因素与结局的关联程度 控制方法
严密掌握对象选取的各个环节,注意选取对象的 代表性,增加应答和减少失访等
2020/6/16
28
第三节 研究的偏倚
的符合程度,它回答一个研究本身是否真实或 有效。
改善措施 限制研究对象的类型和研究的环境条件。
2020/6/16
19
三、外部真实性
第二节 研究的真实性
外部真实性(external validity) 定义 研究结果与推论对象真实情况的符合
程度,又称为普遍性(generalizability)。它回答 一个研究能否推广应用到研究对象以外的人群。