流行病学 第8章 偏倚及控制
08偏倚及控制
横断面研究中的选择偏倚
例如,吸烟与肺气肿 在某社区,开展当前吸烟与肺气肿关系的横断面研究 吸烟与肺气肿的关联:
吸烟者与不吸烟者的现患比(prevalence ratio) 想一想:
计算出来的“现患比”与真实关联“发病比 (incidence ratio)”一样吗?
横断面研究中的选择偏倚
多个医院的病例
研究样本
OR=1.86 B病与暴露有统计学关联 入院率偏倚歪曲了因素与疾病之间的联系
检出征候偏倚 (detection signal bias) / 暴露偏倚 (unmasking bias)
• 暴露于某因素较不暴露于某因素会因某些症状 而较早较频地就医检查,提高了早期病例的检 出率
我们常说的真实性常指的是内部真实性
其他人群
?外部真实性 (外推性)
+
暴露
-
疾病
+ -
参考/目标/源人群
?内部真实 性
研究样本
影响真实性的因素
• 任何研究的目的都是要发现真相 • 影响真实性的因素(得到错误的结论)
– 偏倚:任何导致错误估计的系统误差 (systematic error)
描述性研究中测量疾病(或暴露)的发生 分析性研究中测量暴露与疾病间的关联
常见的选择偏倚
• 入院率偏倚 (admission rate) / 伯克森偏倚 (Berkson)
• 检出征候偏倚 (detection signal bias) / 暴露偏倚 (unmasking bias)
• 现患病例-新发病例偏倚 (prevalence-incidence bias) /奈曼偏倚(Neyman)
入选的与不入选的暴露率不同 病例组和对照组病人
偏倚及其控制
研究者调查60岁以上老年人MI及非MI病人各 150例,得到如下数据。表1.1 MI NoMI % Coffee 90 60 60 No coffee 60 90 40
相对危险度: OR=90*90/(60*60)=2.25 Pearson chi2(1) = 12.0,Pr = 0.001。
说明喝咖啡人MI发生的危险性是不喝的2.25倍。 两组MI发生率差异有显著意义。 结论:喝咖啡与心肌梗塞MI有关!对否?
查
信息偏倚的控制
• 严格的质量控制 • 诊断、测量方法要统一
• 盲法的应用
• 尽量采用客观指标
• 资料校正方法
三、混杂偏倚(confounding bias)
定义
是指暴露因素与疾病发生的相关 ( 关联 ) 程度受
到其他因素的歪曲或干扰。
混 杂 的 本 来 含 义 是 “ 混 合 掺 杂 ” ( mixing
1.诊断怀疑偏倚
定义:由于研究者事先了解研究对象对研究因素的暴 露情况,怀疑其已患某病或在主观上倾向于应该出现 某种阳性结果,于是在作诊断和分析时,倾向于自己 的判断。
例:对诊断亚临床病例,判断药物的毒副反应
2. 暴露怀疑偏倚
定义:研究者若事先了解研究对象的患病情况或某种结局, 可能会对其与对照组不可比的方法探询认为与某病或某结局 有关的因素,如多次认真地调查和询问病例组某因素的暴露 史,而漫不经心地调查和询问对照组,从而导致错误结论。
6. 无应答偏倚
(non-respondent bias)
指研究对象中那些没有按照研究设计对被调查的
内容予以应答。某个特定样本中的无应答者的
患病状况,以及对某一或某些研究因素的暴露 情况与应答者可能不同,由此而产生的偏倚。
流行病学-第八章-病因与因果关系
27
第二节 因果推断的逻辑方法
一、假设演绎法
假设演绎法的推理过程 因为假设H ,所以推出证据E
<演绎推理> 因为获得证据E ,所以反推假设H
<归纳推理〕
28
第二节 因果推断的逻辑方法
假设演绎法的应用 假设H :乙型肝炎病毒〔HBV〕持续感染导致 原发性肝癌〔PHC〕 根据该假设H,加上相关背景知识为前提,演绎 地推出若干具体经验证据
指有处理组与比较组的临床观察 18世纪 G. Berkeley 提出对照临床试验的观点 18世纪 J. Lind 关于坏血病的治疗试验 19世纪 KanehiroTakaki关于脚气病的治疗试验 20世纪初 Goldberg 关于燥皮病的治疗试验
50
第四节 因果关联的推断标准
随机化对照临床试验<RCT> 严格意义上的对照组〔控制组〕必 须涉及随机分配 Hill <RCT之父> 1946年设计的链 霉素治疗肺结核效果评价方案 1970年代, RCT从框架设计、对象选 择、资料分析以及结论推断形成评 价防治效应的标准 准实验设计〔非随机化分配〕,较多 51
Koch <1843-1910〕
46
第四节 因果关联的推断标准
疾病患者中总是能检出该病原体 其他疾病的患者中不能检出该病原体 疾病患者中分离该病原体,传代培养物能引起实 验动物患相同疾病 能从患该病动物中分离到相同病原体
47
第四节 因果关联的推断标准
美国"吸烟与健康报告"委员会提出〔1964〕 <1>关联的时间顺序 <2>关联的强度 <3>关联的特异性 <4>关联的一致性或可重复性 <5>关联的连贯性或合理性
流行病学中常见的偏倚及其控制
膳膳食食改改良组组
降降低胆胆固固醇醇药品物组组
0
5
10
15
图 8-2 膳食与药物预防心机梗死的样本变异性示例
流行病学中常见的偏倚及其控制
五年内发生 心肌梗死风险(%)
7
第7页
如图8-2, 研究A和B中膳食改良组五年内发生心机梗死风险为 9%, 而降胆固醇药品组为6%。
研究A样本较小(200人), 两组效应指标(心肌梗死风险) 95%可信限较大, 发生重合, 无显著性差异。
若θ<θ’<1,则为趋向无效值偏倚。
(三)不论θ>1或θ<1,若θ和θ’在1两侧,则 为颠倒偏倚。
流行病学中常见的偏倚及其控制
17
第17页
3.举例: (1)RR=1.5 RR’=2.0时,为远离无效值
正偏倚。
(2)RR=0.6 RR’=0.8时,为趋向无效值 负偏倚。
(3)RR=1.2 RR’=0.9时,为颠倒负偏倚。
流行病学中常见的偏倚及其控制
28
第28页
在美国弗明汉地域对心血管系统疾病研究中发觉: 男性居民在队列研究中,含有高胆固醇水平者,患 冠心病OR 值为2.4,而在病例对照研究中,病例 组和对照组却无显著差异(OR =1.16)。
原因: 病例对照研究中现患病例已改变了他们高胆固
醇饮食习惯。
流行病学中常见的偏倚及其控制
Hale Waihona Puke 流行病学中常见的偏倚及其控制
36
第36页
有些人以病例对照研究发觉, 子宫内膜癌患者雌 激素百分比显著高于对照组, 认为子宫内膜癌与服 用雌激素亲密相关。
流行病学中常见的偏倚及其控制
37
第37页
1978年,Horwitz和Feinstein: 口服雌激 素与子宫内膜癌高度关联是虚假,是一个 检出偏倚。
偏倚及其控制课件
引言
➢ 误差的定义
为什么会错过真相?
测量值与真实值之差
真实性的反面
➢ 分类
随机误差
系统误差(偏倚)
随机误差
因机遇不同估计总体参数时所产生的误差 特点
没有固定方向和固定大小 一般呈正态分布
偏倚(bias)
属于系统误差,在研究或推论过程中所获得 的结果系统地偏离其真实值
➢ 特点
具有方向性 可高于真值,也可低于真值
1000 (5000)
慢性胃炎患者 合计 200 (2000) 400 400 (8000) 1200
600 (10000) 1600
➢ 若该社区皮肤病的就诊率为20%,慢性胃炎的就诊率 为50%,则:
皮肤病患者
患高血压
40
未患高血压 160
慢性胃炎患者 合计
100
140
200
360
合计
200
300
特别是用住院病人进行研究时,很容易产生 主要是因为住院病人作为研究对象时可能没有包括:
➢ 抢救不及时而死亡的病例 ➢ 距离医院远的病例 ➢ 无钱住院的病例 ➢ 病情轻的病例 ➢ 此外不同医院的技术专长、专业水平也会造成不同疾病在
不同的医院的就诊断或住院率差别
例:入院率偏倚
某社区内共有50,000名30~50岁男性公民,已知该人群高血压和皮肤 病的现患率都很高,甲想了解高血压是否为患皮肤病的危险因素,在对
500
X2=10.58 P<0.01 OR=(40×200)/(100×160)=0.5
选择性偏倚常见类型
(2)现患病例-新病例偏倚
prevalence incidence bias,Neyman bias
流行病学研究中的偏倚及其控制
(四)样本水平的变异性
样本(研究)水平的变异性是指通过不同样本的 研究所得结果的差异性。为什么高水平的血清总 胆固醇是不利的或不健康的?这可以在关于血清 总胆固醇与心血管死亡风险呈正相关的研究中找 到答案,如Framingham心脏研究。 但是,研究通常不能针对整个总体人群来进行, 而是通过样本人群来进行,这就引入了抽样变异 (误差)。通过不同样本的研究所得的关于总体 结果的估计值会有不同,如果排除测量误差,这 些样本的估计值与总体真实值(用各样本估计值 的均值代表)的差异,就是抽样误差。当样本含 量增大时,抽样误差就会减少。
流行病学研究中的偏 倚及其控制
一、 研究结果的变异性
(一)变异性概述
研究结果包括描述性和分析性数据(指标)的变动或 波动,称为研究结果的变异性(variability)。它可存在 于不同的水平,包括个体水平、群体水平和样本(研 究)水平。
表 8-1 变异性的水平和来源 变异性水平 变异的来源 个体 个体生物学变异,测量误差 群体 个体间遗传学变异,环境变异,测量误差 样本(研究) 抽样方式,样本大小,测量误差
(二)内部真实性
内部真实性(internal validity)是指研究结果 与实际研究对象真实情况的符合程度。它回答 一个研究本身是否真实或有效。如果一个研究 针对实际研究对象提供了真实的描述频率或效 应估计值,即随机误差和系统误差较小,则该 研究是真实或有效的。如果一个研究本身是不 真实或无效的,则很难再应用到其他人群。 改善内部真实性的措施有:限制研究对象的类 型和研究的环境条件。因为这样可以降低群体 水平的变异性,或者使因果机制趋于一致等。 这些措施可能限制研究结果应用到其他人群, 也就是使下述的外部真实性受限。
三、外部真实性
偏倚及其控制
是指与研究的因素和疾病均有关, 若在比较的人群 组中分布不均衡,可以歪曲(缩小或夸大)研究 因素与疾病之间真实联系的因素。
混杂因素的特点
✓ 是所研究疾病的危险因素; ✓ 与所研究的因素有关; ✓ 不是研究因素与研究疾病因果链上的中间变量。
某病早期 尚无症状
存在 某因素
出现 该病相关症状
或体征
该人群 及早 该病检出率 就医 高于
一般人群
得出该因素与该疾病相关联
绝经期服用雌激素与子宫内膜癌的病例对照研究
选自妇科 子宫出血病人
子宫内膜癌 人群中
病例
正常对照
服用雌激素与 子宫内膜癌
高度关联
检出 症候 偏倚
选自妇科 子宫出血病人
病例 对照
服用雌激素与子宫内膜癌
(prevalence-incidence bias)
也称奈曼偏倚(Neyman bias)。
以现患病例为对象进行研究,与以新病例为对象 进行研究时相比,因研究对象的特征差异所致的 偏倚。
表4 美国Framingham地区男性居民 血胆固醇水平与冠心病关联的研究
胆固醇 队列研究(到第6次检查) 病例对照研究(到第6次检查) 百分位 冠心病 非冠心病 合计 冠心病 非冠心病 合计
于所比较各组入院率的不同而导致的偏倚。
举例 :社区人群中——
A病和B病各有1000人 A病和B病患者中各有100人暴露于因素X
表1 社区人群中疾病B与X暴露的关系
X暴露 X非暴露 总人数 X暴露率(%)
病例(B) 100 900 1000
10
对照(A) 100 900 1000
【流行病学】第08章 偏倚及其控制
非病例 A病
100
80 540 900
病例 非病例
选择概率 暴露 非暴露
α=
β=
a/A b/B
γ= δ= c/C d/D
患B病且暴露于因素X的选择概率:α=55/100=0.55 患B病但未暴露于因素X的选择概率:β=90/900=0.10 患A病且暴露于因素X的选择概率:γ=80/100=0.80 患A病但未暴露于因素X的选择概率:δ=540/900=0.60
➢ 严格选择标准:纳入标准与排除标准 ➢ 研究对象的合作:依从性、失访、无应答 ➢ 采用多种对照:内对照、外对照、全人群资料对照
第二节 信息偏倚
一、信息偏倚的相关概念
➢1、又称为观察偏倚(observational bias),指 在研究实施过程中,获取研究所需信息时产生 的系统误差。
➢2、信息偏倚可来自: ➢ 人:研究对象、调查者, ➢ 物:测量的仪器、设备、方法等。
➢4.无应答偏倚(non-response bias) ➢在流行病学研究中,无应答者是指由于种种原因那些没有对调查信
息予以应答的研究对象。 ➢在特定研究样本中,无应答者的患病状况以及对某些研究因素的暴
露情况与应答者可能会不尽相同,从而导致系统误差。
➢5.易感性偏倚(susceptibility bias) ➢研究对象暴露于某可疑致病因素与否,与许多主、客观原因有关,
720
280
720
280
5.0
2.4
1.4
【问题-4】 请问在这两种假定情况下的观察结果(研究结果) 与真实结果之间有什么不同?怎样解释这种现象?
【分析-4】
这两种假定情况下的观察结果(OR值)都远低于真实结果, 表明这两种假定情况下都产生了偏倚。其原因与暴露因素 (膳食脂肪摄入)的系统错误分类有关。这种由于在结局变 量或者暴露变量的测量过程中存在系统分类错误(系统测量 误差)所致暴露与结局之间的关联受到扭曲的现象,称为信 息偏倚,又称测量偏倚或观察偏倚。由于流行病学的暴露和 疾病多为分类资料,所以信息偏倚有时又被称为错分偏倚 (misclassification bias)。
8-偏倚及控制
偏倚及控制北京大学公共卫生学院社会医学与健康教育系刘爱萍吸烟、火柴与肺癌▪烟草公司的研究者坚持认为火柴暴露可以引起肺癌▪他们开展了一项大型的病例对照研究来检验这个假说吸烟、火柴与肺癌▪研究者通过人群登记系统找到了1000名肺癌病例,其中820人曾携带过火柴▪从人群中随机抽取了1000名对照,经X线确认未患肺癌,其中340人曾携带过火柴▪根据这批数据,定量估计火柴与肺癌之间的关联1000 1000吸烟、火柴与肺癌▪想分别了解一下吸烟者与不吸烟者中火柴与肺癌的关系▪结果发现在1000名病例中,900名为吸烟者,其中810名曾携带火柴▪在1000名对照中,300名为吸烟者,其中270名曾携带火柴▪分层绘制2×2表,计算火柴与肺癌的关联效应值•OR粗= 8.8 (7.2, 10.9)•OR吸烟者= 1.0 (0.6, 1.5)•OR不吸烟者= 1.0 (0.5, 2.0)吸烟、火柴与肺癌(error)变异(variation)●个体–个体变异(individual variation)–测量变异(measurement variation)●群体–个体间遗传变异(genetic variability between individuals)–环境变异(environmental variability)–测量变异•抽样–抽样方法(manner of sampling)–样本含量(size of sampling)–测量方法(error)测量变异●随机误差(random error)☐称为机遇(chance)●系统误差(systematic error)☐称为偏倚(bias)●研究的目的获得真相☐真实性☐可靠性(reliability)相同条件下重复进行测量时获得相同结果的稳定程度,即测量结果的精确性及可重复性。
(reliability)相同条件下重复进行测量时获得相同结果的稳定程度,即测量结果的精确性及可重复性。
临床流行病学--偏倚
三、常见偏倚及控制
临床流行病学
1、入院率偏倚(Berkson bias)
在利用医院病例作为研究对象时, 由于具有某研究因素的病人与不具有该 研究因素的病人被选为研究对象的机率 不同,而导致研究因素与研究疾病之间 关系发生被歪曲的现象。
8
临床流行病学
实例:
表1 呼吸道疾病与骨关节疾病的关系
一般人群
过敏及 一般人群
曾住院6个月以上者
代谢性 疲劳综合症
疲劳综合症
疾病 病例 对照 计 病例 对照 计
有 13 136 149
1
21 22
无 127 2508 2635 27 208 235
小计 140 2644 2784 28 229 257
OR=1.89
OR=0.37
10
临床流行病学
原因是:
呼 骨 入院率 (%) 过敏 疲劳 入院率 (%) + + 5/17 29.4 + + 1/13 7.3 + - 15/207 7.2 + - 21/136 15.4 - + 18/184 9.8 - + 27/127 21.2 - - 219/2376 9.2 - - 208/2508 8.3
曾住院6个月以上者
呼吸道 骨关节疾病
骨关节疾病
疾病 病例 对照 计 病例 对照 计
有 17 207 224
5 15 20
无 184 2376 2560 18 219 237
小计 201 2583 2784 23 234 257
OR=1.06
OR=4.06
9
临床流行病学
表2 过敏及代谢性疾病与疲劳综合症的关系
19
临床流行病学
4、志愿者偏倚(volunteer bias) 志愿者与非志愿者在许多因素上都
偏倚及其控制
流行病学中常见的偏倚及其控制误差(error)对事物某一特征的测量值偏离真实值的部分。
包括随机误差、系统误差随机误差:指随机抽样所得的均值与总体参数的差异,也称抽样误差。
只能减少,不能避免。
随机误差的两个特点1、样本的观察值都在平均值上下分布,从许多无偏倚样本中得到的观察值均数,假如数量较大,总是趋向于接近总体值;2、随机误差的范围可以用可信区间估计,当保持随机方法而加大样本时,样本均值逐渐向总体均值接近。
系统误差:当对群体的某一特征做一次测量或对某一个体的某一特征做多次测量时,所得均值与总体间的真实性也会产生误差,如果误差向量的方向一致或基本一致时,这种误差称为系统误差。
随机误差和系统误差的区别1、假设一项研究可以将样本量增至无穷大,如果研究样本无穷大能使误差减小到零,则此误差为随机误差。
系统误差不受样本量增加的影响,因此在研究样本无穷大时仍然存在的误差是系统误差;2、适当的重复试验或增加样本含量可以减少随机误差,但不能减少系统误差。
偏倚(bias):指在流行病学研究中样本人群所测得的某变量系统地偏离了目标人群中该变量的真实值,使得研究结果或推论的结果与真实情况之间出现偏差,这是由系统误差造成的。
选择偏倚(selection bias ):指被选入到研究中的研究对象与没有被选入者特征上的差异所造成的系统误差。
主要产生于研究的设计阶段,在各类流行病学研究中均可能发生,以在病例对照研究与现况研究中为常见。
常见的选择偏倚1、入院率偏倚(admission rate bias)亦称伯克森偏倚(Berkson’s bias),是指利用医院就诊或住院病人作为研究对象时,由于入院率的不同或就诊机会的不同而导致的偏倚。
用住院病例进行研究时可能没有包括:1)抢救不及时死亡的病例2)距离医院远的病例3)无钱住院的病例4)病情轻的病例2、现患-新发病例偏倚(Prevalence-incidence bias)又称奈曼偏倚(Neyman bias),凡因现患病例与新病例的构成不同,只调查典型病例或现患病例的暴露状况,致使调查结果出现的系统误差都属于本类偏倚。
流行病学8.4 偏倚的类型
谢性疾病
有
无 合计
有 无 合计
有
13(a) 136(b) 149
1(b) 21(a) 22
无 127(c)2508(d) 2635 27(c) 208(d) 235
合计
201 2583 2784 OR=1.89
28
229
257
OR=0.37
2.现患—新发病例偏倚
又称奈曼偏倚。通常病例对照研究的病 例组和现况研究中的调查对象多选自现患病 例,该病的死亡病例及轻型病例或不典型病 例不是难以调查就是不易发现。然而在队列 研究中却可以观察到各种临床型的新病例。
与此种偏倚相对的情况叫做志愿者偏倚,
也叫自身选择偏倚。
因此,一般认为这种主动报告是对真实性 的一种威胁,主动报告的原因本身可能与研究 的结果有关联。
此外,常见的选择偏倚还有诊断偏倚、存 活偏倚及检测偏倚等。
二、信息偏倚
信息偏倚也叫观察偏倚或测量偏倚,是 指在收集研究人群的暴露和结局资料时所出 现的系统误差,其结果是歪曲暴露与疾病之 间的联系。
经验表明,发现暴露与回忆之间相差的时 间长度是更重要的回忆真实性和完整性的指标。 从暴露开始至访问的平均时间,在病例组和对 照组如果有差别就可能产生偏倚。
三、混杂偏倚
混杂偏倚当我们研究暴露于某一因素与 疾病之间的关系时,由于某个既与所研究的 疾病有联系,又与所研究的因素有关的因素 的影响,掩盖或夸大了所研究的暴露与疾病 的联系强度,这种现象即混杂偏倚,引起混 杂偏倚的因素叫混杂因素。
研究者事先知道研究对象的患病情况,就 可能采取不可比的方法在病例组和对照组中探 索可疑的致病因素。
3.回忆偏倚
回忆偏倚指各比较组回忆以前发生的事
流行病学研究中的常见偏倚
一般情况下,志愿者与非志愿者在关心 健康、注意饮食习惯、禁烟、禁酒及体 育锻炼等方面可能存在系统的差别,因 而,志愿者被入选为观察对象,而非志 愿者落选,这样的研究结果往往有选择 偏倚。例如,一项以体育锻炼预防冠心 病的研究,干预组都是志愿者,而将非 志愿者作对照,以比较该项措施的效 果,这样就可能会得出不正确的结论。
合计
组)
组)
1200
1200
2400
4800
4800
9600
OR=1,χ2检验差异无显著性,说明A病与X因素无关系。
假设A病住院率为25%,B病住院率为60%,具 有X因素也有一定的入院率为40%。现就上述 不同的入院率计算住院人数:
A病无X因素住院人数=4800×0.25=1200人
A病有X因素住院人数=1200×0.25+(1200 -300)×0.4=660人
7
72
110
117
117
9.8
妇科
暴露
非暴露
59
42
89
108
148
148
1.7
1978年,Horwitz指出,这一结论是由检 出征候偏倚所致,两者之间的高度关联 是虚假的。因为在人群中有一定量的无 症状的子宫内膜癌早期病人,她们若不 服用雌激素,子宫不致出血,因而不去 医院就诊,而不能被发现。
4. 志愿者偏倚(volunteer
2、尽量采用多种对照
理想的是以人群中全体病例和非病例(或其 有代表性的样本)作为研究对象。如以医院 病例为研究对象,宜在多个医院选择对象, 且最好有2个对照组,其中一个对照组来自 社区一般人群,在队列研究中,最好也应设 多种对照,以减少选择偏倚对结果的影响。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机分配
分组机会均等,各组非研究因素均匀 分布,资料可比,提高研究的正确性
随机化是控制偏倚的有效方法之一。
2、匹配(matching)
就是在选择病例与对照时,要求两者的某 些因素或特征即匹配因素相一致,以排除匹配 因素的干扰,提高研究效率。 但要注意所匹配的因素应是已知的混杂因 素,否则不能匹配。匹配使用得当可以有效控 制混杂因素,提高研究真实性。还要避免匹配 过度,即把不必要的项目列入匹配,可能丢失 信息增加工作难度,反而降低了研究效率。
二、系统误差
系统误差(systematic error)是指测量值 与总体值之间出现的差异。 在实际观测过程中,由受试对象、研究者、 仪器设备、研究方法、非实验因素影响等原因 造成的有一定倾向性或规律性的误差。 观察值有系统性、方向性、周期性的偏离真 值,可直接影响原始资料的准确性,必须查明原 因、予以矫正,系统误差必须避免。
在研究某因素与某疾病之间的关系时,由于 一个或多个外部因素的影响,缩小或夸大了研究 因素与疾病之间的真正的联系,称为混杂偏倚。 导致混杂产生的因素就称为混杂因素。混杂 偏倚是在研究的设计阶段未能对混杂因素加以控 制和在资料分析时未能进行正确的校正所造成的 偏倚。
混杂因素具备的特征
(1)混杂因素必须是所研究疾病的独立危险因 素,如果不找出或不避开,所得研究结果可 能不是研究因素造成的。 (2)混杂因素必须与所研究的暴露因素存在统 计学联系。 (3)混杂因素不应是暴露因素与疾病因果链中 的一个环节或中间变量。
2、信息偏倚的控制方法
为使调查对象能提供准确的信息,必须在调查 问卷上下功夫。 对于调查员,关键是进行严格的培训,增强工 作的责任感。统一调查程序、方法。 测量仪器要选用标准一致的,不易产生偏性和 稳定的仪器,使用前还要统一校正,从而保证 测试结果的准确与可靠。 对调查环境加以选择与控制的。这主要是根据 调查目的和对象的特点来加以考虑。
(4)调查人员所引起的偏倚
调查中,调查人员未采用统一的调查方式对待 所有的调查对象,或者为了获得所需要的内容,进行 诱导性询问而产生的偏倚。
(二)、偏倚的控制
1、选择偏倚的控制方法 严格按照抽样设计方案进行研究对象的选取, 坚持随机化原则。 提高抽中对象的受检率。 在横断面研究中,要考虑幸存者偏倚的问题, 尽可能病例选择面广一些,并注意收集有关 病程、疾病类型方面的资料,以便在分析结 果时,得出合理的结论。
各种类型的流行病学研究中都可发生信息偏 倚,可来自研究对象、研究者本身,也可来自测 量仪器、设备、方法等。 信息偏倚的表现是使研究对象的某种特征被 错误分类,如暴露者被认为是非暴露者,病人被 当做非患者等,研究对象不正确地反映某些信息 致使研究者判断错误等。
(三)、混杂偏倚(confounding bias)
一项喷漆作业工人的职业暴露与支气管哮 喘发作关系的研究。
3.29, p 0.05
2
(二)、信息偏倚(information bias)
研究对象选取后,就要进行信息采集。信息 偏倚又称测量偏倚(measurement bias)或观 察偏倚(observation bias)。 是指在收集资料阶段对各比较组所采用的观 察或测量方法不一致,使各组所获得的信息存在 系统误差。
2、标准化(standardization)
当需要比较两个率之间差异时,按照统计学 标准化的方法,使可疑的混杂因素在两组间得到 同等的加权,从而获得有可比性的标准化率,以 避免混杂因素的影响。
3、多因素分析(multivarate analysis)
当样本量不够大,不足以进行分层分析时, 或者是多种因素对疾病存在综合影响时,可采 用多因素分析的方法。 常用的多因素分析的方法有多元回归分析、 聚类分析、Logistc回归分析、Cox回归模型等。
4、资料的整理
原始资料收集上来后,要进行检查、纠正、 验收、归类等程序。 目的:一是保证资料的质量和完整性; 二是熟悉资料,便于下一步工作; 三是使原始资料系统化、条理化。
(三)、科学的资料分析
如果在研究的设计、资料的整理阶段某种或 某些偏倚未被充分控制,可以在数据分析时加以 控制。 1、分层(stratification) 分析时,将可疑的或已知的混杂因素按其不 同水平分层后,再进行统计分析。 注意:有些层样本数少时,可减少分层或采 用多因素分析。
第ห้องสมุดไป่ตู้节 常见的偏倚及其控制
无论是哪种研究方法,在研究的设计、实 施、数据处理和分析的各个环节中均会产生偏 倚,从而夸大或缩小暴露因素与疾病之间的关 联。
一、描述性研究中常见的偏倚及控制
(一)、常见的偏倚 1、选择偏倚 (1)选择性偏倚 (2)无应答偏倚 (3)幸存者偏倚
2、信息偏倚 (1)报告偏倚 (2)社会期望偏倚 (3)测量偏倚 (4)调查人员所引起的偏倚
外部真实性
指研究结果被外推至不同时间、不同地区、不同人群是 所反映的可靠程度。
一、随机误差( random error )
也称为抽样误差(sampling error),又 称机遇(chance)。随机误差是样本值与总体值 之间的差异。 随机误差不可避免,用统计学方法来估计, 增大样本含量可减少,没有固定方向和固定大小, 一般呈正态分布。
1、选择偏倚
(1)选择性偏倚
在调查过程中,没有按随机抽样方案进行,而是 随意或随便选择研究对象。
(2)无应答偏倚
调查对象由于种种原因拒绝合作或不依从降低应 答率而产生的偏倚。 (3)幸存者偏倚 研究中常常选择某疾病的现患人群为研究对象, 而患该病的人可能有一部分已死亡,这种调查结果很 难代表所研究疾病的全貌。
心肌梗死 对 照
高脂肪膳 食 60 32
低脂肪 膳食 40 68
OR= (60╳60)/(40╳40)=2.3
OR= (60╳68)/(40╳32)=3.2
表8-3 无差异性错误分类和差异性错误分类的示例 图 8-3
7、混杂偏倚 队列研究中,年龄、性别、吸烟是3个最 常见的混杂因素。
2、信息偏倚
(1)报告偏倚
调查对象在回答调查人员问题时,由于回答不 够准确所造成的偏倚。
(2)社会期望偏倚
对社会上一些敏感的或是有争论的话题,调查 对象常按社会上大多数的观点回答,掩盖自己真实的 想法,因而造成社会期望偏倚。
(3)测量偏倚
是指测量仪器或量具不准确,或在测量过程中 因操作失误所导致的偏倚。
6、错分偏倚 包括暴露错分和疾病错分以及暴露和疾病 的联合错分。主要原因是使用的仪器不准确, 检验技术不熟练,诊断标准定义不明确或掌握 不当,询问技巧欠佳造成结果不真实。
无差异性错误分类和差异性错误分类
无差异性错误分类 无差异性错误分类
研究真实数据 研究真实数据
错误分类数据 错误分类数据 高脂肪膳 食 48 32 低脂肪 膳食 52 68
医学研究是群体医学的范畴,数据来源于个 体,存在个体差异。 研究的精确性与真实性 精确性 真实性 随机误差 系统误差
第1节 误差概述
误差(error)
在流行病学研究中,无论采用哪种研究方法, 所得结果与真实情况均会存在一定的差异,有 时甚至还能得出错误的结论。这种研究结果和 真实情况间的差异就称为误差。
3、盲法(blingding)
在研究中,研究对象或/和调查者均不知道 研究对象的分组情况及研究内容,以避免或消除 研究对象、调查者主观心理因素的影响,保持观 察的客观性,称为盲法。 盲法是减少信息偏倚,尤其是控制调查偏倚 的重要方法。
4、限制(restriction)
限制是指对研究对象选择的条件加以控制。 是控制混杂偏倚的方法之一。 当认为某因素可能是混杂因素时,我们在选 择研究对象时可以对此加以限制。 研究口服避孕药与心肌梗死的关系时,考虑 年龄可能为混杂因素,只选择某一年龄组的妇女 作为研究对象。
一、分类
(一)、选择偏倚(selection bias)
研究对象的选取过程中,由于选取方式不当,导致
入选对象与未入选对象之间存在系统差异,由此造成的
偏倚称为选择偏倚。例如研究对象采用志愿者,方便样 本,或者研究对象的无应答或失访等。
选择偏倚对结果的影响是在选择研究对象时 出现了系统误差,认为地夸大或减小了研究因素 与疾病之间的关联程度,是研究阶段设计阶段经 常出现的错误。
(二)、准确的资料收集
1、要严格执行设计规定的要求 制定明确而严格的资料收集方法和质量控 制方法。 2、尽量采用客观指标 要制定统一的调查表,对调查表的内容要 有客观、明确的标准。研究中用到的仪器、设 备、试剂等测量结果要予以标准化。
3、调查人员的培训 调查人员的素质、态度、技术方法的熟练 程度、掌握判别结果的标准等对资料质量的影 响非常大。研究开始之前,要培训调查员,统 一资料收集方法,统一测量指标的标准,必要 时进行资料收集技巧的 培训。 同时,要进行预调查或预试验。
二、队列研究中常见偏倚及其控制
(一)、常见偏倚 1、选择偏倚 研究对象进入、排除、不参与等与研究暴 露或处理因素存在关联,由此增大或减少暴露 与疾病、处理与效应的关联,导致效应估计的 偏倚。
2、失访偏倚 研究过程中,某些选定的研究对象因为种种 原因脱离了观察,研究者无法继续随访他们从而 造成对研究结果的影响。 队列研究观察人数多,随访时间长,失访是 不可避免的,一项研究的失访率最好不超过5%或 稍高,否则应慎重考虑结果的解释和推论。
正向偏倚 某一特征的测量值大于真实值 夸大研究的结果 负向偏倚
某一特征的测量值小于真实值 减小研究的结果
1946年,Berkson做最著名的偏倚研究并给 予证实,又称为Berkson偏倚。 1976年,Miettinen详细讨论了偏倚的定义, 并给出分类框架,分三类 选择偏倚 信息偏倚 混杂偏倚
二、偏倚的控制