流行病学研究中的偏倚及其控制
第九章 流行病学研究中的偏倚及其控制
检出症候偏倚
某人进行了一项更年期服用雌激素与子宫内膜 癌关系的病例对照研究,分别在同一个医院的 不同科室选择了研究对象,经分析得到下表结 果
检出症候偏倚
在肿瘤科,子宫内膜癌病人多由于她们服用雌激素后出 现子宫出血而到医院检查,能及早发现该人群中的子宫 内膜癌病人,且多为早期的病人,而没有服用者,由于 没有子宫出血症状,减少了就诊机会,使该病不易及早 被诊断出来,因而能得出雌激素和子宫内膜癌之间相关 联的结论 在妇科,这些患者大多数接受妇科检查,因此子宫内膜 癌的检出与是否服用雌激素使妇科检查几率增加之间没 有关系
健康工人效应
为了探讨职业暴露对人类健康的危害,McMichael等在 美国俄亥俄州的一个轮胎生产工厂,选择在岗及退休男 性工人6678人作为暴露组,进行了回顾性队列研究。观 察期间为1964~1972年共9年时间。以国家卫生统计中 心编制的1968年美国男性年龄别死亡率作参比 下表是同时期与钢铁工人、俄亥俄州人口及美国全国人 口相比较的橡胶工人全死因死亡率(1/10万人年)
现患-新发病例偏倚
现患病例-新病例偏倚的测量可依据队列研究 和病例对照研究两研究不同的联系强度来估计 假设队列研究的联系强度为OR1,病例对照研 究的联系强度为OR2,现患病例-新病例偏倚
OR2 OR1 1.16 2.40 选择偏倚= 0.517 OR1 2.40
为负值,说明由于该偏倚的存在,使得病例对 照研究中高血胆固醇与冠心病之间的联系强度 降低了51.7%
假如在人群进行一项病例对照研究,以B病为对照,研 究A病与某因素X的关系。设人群中患A病与B病者各为 5000人,暴露于因素X者各为750人,不暴露于因素X者 各为4250人,X 在A、B患者中的暴露率均为15% 暴露X 有 无 A病 750 4250 B病 750 4250 合计 1500 8500
流行病学研究中常见偏倚及其控制
偏倚
定义
属于系统误差,在研究或推论过程 中所获得的结果系统地偏离其真实值 特点 具有单方向性 ,有正、负 可高于真值,也可低于真值 分类 选择偏倚、信息偏倚、混杂偏倚
选择偏倚
产生于设计阶段,是由于选择研究对象的 方法不当而导致研究结果偏离真实情况。 常见种类
入院率偏倚 现患-新发病例偏倚 无应答偏倚 检出征候偏倚 易感性偏倚
随机误差
布
随机误差 广义 因机遇不同估计总体参数时所产生的 误差,如选择的机遇、时间的机遇 狭义 随机抽样所得均值对总体均值的误差 特点 没有固定方向和固定大小 一般呈正态分布
偏
倚
偏倚概念:是指在流行病学研究中样 本人群所测得的某变量值系统地 偏离了目标人群中该变量的真实 值,使研究结果或推论的结果与 真实情况之间出现偏差,这是由 系统误差造成的。
入院率偏倚(admission rate bias) 利用医院就诊或住院病人作为研究对 象时,由于入院率或就诊机会不同而导 致的偏差
现患-新发病例偏倚 ( prevalenceincidence bias) 又称奈曼偏倚,凡因现患病例与新病 例的构成不同,只调查典型病例或者现 患病例的暴露情况,致使调查结果出现 的系统误差都属于本类误差
常见种类 回忆偏倚 诊断怀疑偏倚 暴露怀疑偏倚 报告偏倚 检出偏倚 诱导偏倚
回忆偏倚(recalling bias) 研究对象在回忆以往发生的事 件或经历时,由于记忆失真或不完 整在准确性和完整性上的差异所致 的系统误差
诊断怀疑偏倚(diagnostic suspicion bias) 常发生在前瞻性研究中,在 病例对照研究中也可发生,特别 是诊断亚临床病例,判断药物的 毒副作用时,研究者主观偏见和 研究对象的主观因素
流行病学 偏倚
选择偏倚
检出偏倚 或称检出症候偏倚。 指由于一些与疾病无关的因素而引
起疾病的某些症状,促使患者早期就诊 而发现疾病。如选用这部分早期病人作 研究对象,可使研究误认为该因素是疾 病的病因。
检出症候偏倚
例子:妇女使用雌H→子宫容易出血→早期就 医而发现子宫内膜癌,用这部分人作病例对照 研究时,就易造成雌H与子宫癌有关联的错误 结论。实际上该因素只是这部分研究对象得以 发现的一个诱因,而不是其病因,当用全子宫 癌人群的随机样本时即可得出两者无关的结论。
排除偏倚
在研究对象的确定过程中,没有按照对等的原则或标准从观察组或 对照组中排除某些研究对象。
二、信息偏倚(Information bias)
含义 又称观察偏倚、测量偏倚,主要发生于 资料收集阶段,是由于测量暴露或结局的方法 有问题,所获得的信息不准确而产生的系统误 差。
来源 可来源于研究者、研究对象及用于测量 的仪器、设备及方法。
由于研究者事先知道研究对象的对研究因素的暴露情况,在作 出诊断结果时容易出现带有倾向性的主观判断。(如暴露组细致检 查,对非暴露组或对照组则较粗略);另外,研究对象如知道暴露 情况,也可能出现对未来结局的主观判断。
多见于队列研究和实验性研究中。
暴露怀疑偏倚
研究者若事先了解研究对象的患病情况,对病例组和对照组询
一、选择偏倚(selection bias)
定义 研究对象的选取过程中,由于选取方式不当,
导致入选对象与未入选对象之间存在系统差异, 由此造成的偏倚称为选择偏倚。
描述性研究的选择偏倚
主要体现在样本对总体的代表性上 如不是采用随机抽样而是使用方便样本,或某
些特定群体(志愿者、因特网利用者等)造成的外 部效度(外推)受限问题。 控制方法 尽量采用随机抽样,避免样本选取的偏向 对特定群体的结果在外推上要谨慎等
流行病学中常见的偏倚及其控制
膳膳食食改改良组组
降降低胆胆固固醇醇药品物组组
0
5
10
15
图 8-2 膳食与药物预防心机梗死的样本变异性示例
流行病学中常见的偏倚及其控制
五年内发生 心肌梗死风险(%)
7
第7页
如图8-2, 研究A和B中膳食改良组五年内发生心机梗死风险为 9%, 而降胆固醇药品组为6%。
研究A样本较小(200人), 两组效应指标(心肌梗死风险) 95%可信限较大, 发生重合, 无显著性差异。
若θ<θ’<1,则为趋向无效值偏倚。
(三)不论θ>1或θ<1,若θ和θ’在1两侧,则 为颠倒偏倚。
流行病学中常见的偏倚及其控制
17
第17页
3.举例: (1)RR=1.5 RR’=2.0时,为远离无效值
正偏倚。
(2)RR=0.6 RR’=0.8时,为趋向无效值 负偏倚。
(3)RR=1.2 RR’=0.9时,为颠倒负偏倚。
流行病学中常见的偏倚及其控制
28
第28页
在美国弗明汉地域对心血管系统疾病研究中发觉: 男性居民在队列研究中,含有高胆固醇水平者,患 冠心病OR 值为2.4,而在病例对照研究中,病例 组和对照组却无显著差异(OR =1.16)。
原因: 病例对照研究中现患病例已改变了他们高胆固
醇饮食习惯。
流行病学中常见的偏倚及其控制
Hale Waihona Puke 流行病学中常见的偏倚及其控制
36
第36页
有些人以病例对照研究发觉, 子宫内膜癌患者雌 激素百分比显著高于对照组, 认为子宫内膜癌与服 用雌激素亲密相关。
流行病学中常见的偏倚及其控制
37
第37页
1978年,Horwitz和Feinstein: 口服雌激 素与子宫内膜癌高度关联是虚假,是一个 检出偏倚。
流行病学研究中常见偏倚及其控制
系统误差是由于血压计测量个体血
压所得的数值均偏离了用动脉内套管 直接测量到的血压值。
适当地重复试验或增加样本含量可以减少随机误差, 但不能减少系统误差。
6
第二节 偏
一、偏倚的概念
倚(bias)
在流行病学研究中样本人群所测得的某变量值系 统的与目标人群中该变量真实值的偏离 使研究结果或推论结果与真实情况之间出现偏差 系统误差造成的。
一般职员有73.6%参加,冠心病现患率为43 %。 扳道工有58%参加,冠心病现患率为24%。
两者差异有显著性。 6年后证实上次检查时部分患冠心病的扳 道工因害怕被解雇没有参加调查,所以当 时冠心病现患率上的差别是由于无应答偏 倚造成的。
16
☻ 无应答偏倚在观察性研究或实验性研究中均可发生。 ☻ 无应答的原因是多种多样的。 如身体健康状况、对健康关心程度、对调查内容是 否感兴趣、年龄、受教育程度、外出未归以及调查 一些敏感问题等等均可影响研究对象的应答率。 年龄大,文化水平低的,应答率低。 ☻ 无应答偏倚的大小主要取决于无应答率的高低和无应 答者的特征,所以要注意无应答者的人数及发生原因。 如果发生这些情况的原因是患病、死亡以及与研究 因子有关的其他事件,则造成偏倚的可能性很大。 ☻ 调查报告中须交待清楚应答率、对影响因素的分析及 对无应答者的处理方法等。 ☻ 公认的应答率最低限应为80%。
7
二、偏倚的方向和分类
☻ 偏倚的方向有两种( 如果某一特征的真实值为 θ, 而测量值为θ’)
正向偏倚:当θ’>θ时,为正偏倚。正偏倚会夸大研 究的结果; 负向偏倚:当θ’< θ时,为负偏倚。负偏倚则会减小 研究的结果。
☻偏倚的原因分为三大类:
选择偏倚(selection bias) 信息偏倚(information bias) 混杂偏倚(confounding bias)。
【流行病学】第08章 偏倚及其控制
非病例 A病
100
80 540 900
病例 非病例
选择概率 暴露 非暴露
α=
β=
a/A b/B
γ= δ= c/C d/D
患B病且暴露于因素X的选择概率:α=55/100=0.55 患B病但未暴露于因素X的选择概率:β=90/900=0.10 患A病且暴露于因素X的选择概率:γ=80/100=0.80 患A病但未暴露于因素X的选择概率:δ=540/900=0.60
➢ 严格选择标准:纳入标准与排除标准 ➢ 研究对象的合作:依从性、失访、无应答 ➢ 采用多种对照:内对照、外对照、全人群资料对照
第二节 信息偏倚
一、信息偏倚的相关概念
➢1、又称为观察偏倚(observational bias),指 在研究实施过程中,获取研究所需信息时产生 的系统误差。
➢2、信息偏倚可来自: ➢ 人:研究对象、调查者, ➢ 物:测量的仪器、设备、方法等。
➢4.无应答偏倚(non-response bias) ➢在流行病学研究中,无应答者是指由于种种原因那些没有对调查信
息予以应答的研究对象。 ➢在特定研究样本中,无应答者的患病状况以及对某些研究因素的暴
露情况与应答者可能会不尽相同,从而导致系统误差。
➢5.易感性偏倚(susceptibility bias) ➢研究对象暴露于某可疑致病因素与否,与许多主、客观原因有关,
720
280
720
280
5.0
2.4
1.4
【问题-4】 请问在这两种假定情况下的观察结果(研究结果) 与真实结果之间有什么不同?怎样解释这种现象?
【分析-4】
这两种假定情况下的观察结果(OR值)都远低于真实结果, 表明这两种假定情况下都产生了偏倚。其原因与暴露因素 (膳食脂肪摄入)的系统错误分类有关。这种由于在结局变 量或者暴露变量的测量过程中存在系统分类错误(系统测量 误差)所致暴露与结局之间的关联受到扭曲的现象,称为信 息偏倚,又称测量偏倚或观察偏倚。由于流行病学的暴露和 疾病多为分类资料,所以信息偏倚有时又被称为错分偏倚 (misclassification bias)。
流行病学研究中常见的偏倚及其控制
举例:用动脉血压计测量某人血压,各次读数的均值为 100mmHg,系统误差和随机误差可用以下图示
发 生 频 次
系统误差
随机误差
80
100
舒张压 (mmHg)
图1
血压计法测量舒张压值的分布
9
二、偏倚的概念
定义
偏倚(Bias)是在研究的设计、实施、分析阶段发 生的系统误差。 特点 是影响流行病学内部真实性的主要原因。 具有方向性,夸大真实值为正偏倚,缩小真实值为 负偏倚 分类 选择偏倚,信息偏倚,混杂偏倚
10
第二节 选择偏倚
一 选择偏倚的概念 选择偏倚(selection bias)指由于研究对象与目标人群的 特征存在着系统误差,使效应估计值与真值之间发生的 偏差。
是研究者在挑选研究人群时由于选择条件受限制或设计 失误所造成的。既可产生与研究开始选择研究对象的时 候,也可产生与收集资料过程中出现失访或无应答。常 见于现况研究、病例对照研究与回顾性队列研究。
16
二 选择偏倚的常见种类 2、现患-新发病例偏倚
又称奈曼偏倚,在病例对照研究中,用于研究的 通常是现患病例,而不包括死亡病例或者病程短、 轻型、不典型的病例,由此而所产生的系统误差。 如: Friedman 等人进行的心血管疾病的研究中发现, 队列研究中,高胆固醇水平者患冠心病的 OR 值为 2.4 ,而在病例对照研究中,病例组与对照组无明 显差别OR为1.16。
一、研究结果的误差和真实性
随机误差
定义
由于多种无法控制及不能预测的因素引起的 一类表现不恒定、随机变化的误差。 特点 没有固定方向和固定大小 一般呈正态分布
7
一、研究结果的误差和真实性
系统误差 定义 指研究过程中,由一些可控制的因素引起的使 研究结果或推论偏离真实情况的误差。 特点
流行病学研究中常见偏倚及其控制习题及答案
流行病学研究中常见偏倚及其控制1.下列哪条不是..控制选择性偏倚的措施:A. 尽量选用新发病例B. 选用中青年病例C. 选用多种对照D. 双盲法调查E. 随机选取对象2.下列哪一种情况不属于偏倚:A.由于抽样而导致的结果偏离真实情况B.由于入选的研究对象与没有入选的研究对象特征上的差异导致的结果偏离真实情况C.研究对象的某种特征被错误的分类导致的结果偏离真实情况D.由于某个或某些混杂因素导致的结果偏离真实情况E. 以上都不对1.队列研究证明暴露因素E是疾病D的危险因素(RR=3,P<0.05)。
但进行以医院为基础的病例对照研究时,发现病例与对照组暴露情况没有显著性差异(OR=1.1,P>0.05)。
进一步分析显示,这种病例对照研究与队列研究结果之间的差异,是因为患者在诊断出此病后往往会改变其行为习惯,从而使患者的暴露情况改变。
这属于:A.检出偏倚B.易感性偏倚C.Neyman偏倚D.Berksons偏倚E.诊断怀疑偏倚1.在探讨妊娠母亲各种暴露史与先天畸形之间联系的研究中,有人怀疑那些畸形儿的母亲由于内疚而少报了她们的吸烟情况,而那些对照儿童的母亲报告的要准确些,这会产生:A.报告偏倚B.易感性偏倚C.回忆偏倚D.混杂偏倚E.抽样误差2.如上题你的怀疑是正确的,并且实际上吸烟增加了畸形的危险,那么论文中报告的相对危险度与“真正的”相对危险度比是A.低估了B.高估了C.都不是D.不能确定E.没变化2.可以控制混杂偏倚的措施是:A.匹配设计B.分层分析C.因素模型D.随机化E.双盲法3.在以医院为基础进行病例对照研究时,最易出现的偏倚是:4. A.信息偏倚 B.回忆偏倚 C.选择偏倚 D.混杂偏倚 E.失访偏倚5.有人经Case-Control Study 报导子宫内膜癌患者的雌激素使用率入高于一般健康人,故此推断服用雌激素能导致子宫内膜癌,此结论:A.正确B.不正确,因该研究中病例的确定有选择性偏倚C.不正确,因该研究中病例的确定有观察偏倚D.不正确,因该研究中有混杂偏倚E.不正确,因有交互作用1.下列哪个不属于队列研究偏倚控制的内容:A.选择偏倚的控制B.入院偏倚的控制C.信息偏倚的控制D.失访偏倚的控制E.混杂偏倚的控制2.在流行病学研究中,混杂因素:A.与暴露因素有关,与疾病无关B.与疾病有关,与暴露因素无关C.与病例有关,与对照无关D.与暴露有关,与非暴露无关E.与疾病和暴露因素都有关6.混杂因素成立的条件是:(是单选吗?)A.与所研究疾病有关B.与所研究疾病无关C.与所研究暴露有关D.与所研究暴露无关7.下列哪一种偏倚属于选择偏倚?A.回忆偏倚B.测量偏倚C.报告偏倚D.无应答偏倚8.下列哪一种方法不能用来控制混杂偏倚?A.匹配B.严格的质量控制C.分层分析D.多因素分析9.流行病学研究的偏性主要指A.抽样误差B.系统误差C.过失误差D.时间顺序误差E.随机测量误差10.病例对照研究中控制混杂的方法是:A.分析B.叉生分析C.分层分析D.出生队列分析E.暴露人年分析11.流行病学研究的误差指A.测量值之间的差异B.样本和总体之间的差异C.两样本之间的差异D.两个不同质总体之间的差异E.测量值与真值之间的差异12.流行病学研究的偏性主要指A.抽样误差B.系统误差C.随机测量误差D.时间顺序误差下列哪一种情况不属于偏倚:A.由于抽样而导致的结果偏离真实情况B.由于入选的研究对象与没有入选的研究对象特征上的差异导致的结果偏离真实情况C.研究对象的某种特征被错误的分类导致的结果偏离真实情况D.由于某个或某些混杂因素导致的结果偏离真实情况E. 以上都不对下列哪一种偏倚属于选择偏倚:A.回忆偏倚B.测量偏倚C.报告偏倚D.无应答偏倚E.以上都不是下列哪一种偏倚不可能发生在病例对照研究中:A.Berksons偏倚B.混杂偏倚C.检出症候偏倚D.测量偏倚E.失访偏倚队列研究证明暴露因素E是疾病D的危险因素(RR=3,P<0.05)。
偏倚及其控制
流行病学中常见的偏倚及其控制误差(error)对事物某一特征的测量值偏离真实值的部分。
包括随机误差、系统误差随机误差:指随机抽样所得的均值与总体参数的差异,也称抽样误差。
只能减少,不能避免。
随机误差的两个特点1、样本的观察值都在平均值上下分布,从许多无偏倚样本中得到的观察值均数,假如数量较大,总是趋向于接近总体值;2、随机误差的范围可以用可信区间估计,当保持随机方法而加大样本时,样本均值逐渐向总体均值接近。
系统误差:当对群体的某一特征做一次测量或对某一个体的某一特征做多次测量时,所得均值与总体间的真实性也会产生误差,如果误差向量的方向一致或基本一致时,这种误差称为系统误差。
随机误差和系统误差的区别1、假设一项研究可以将样本量增至无穷大,如果研究样本无穷大能使误差减小到零,则此误差为随机误差。
系统误差不受样本量增加的影响,因此在研究样本无穷大时仍然存在的误差是系统误差;2、适当的重复试验或增加样本含量可以减少随机误差,但不能减少系统误差。
偏倚(bias):指在流行病学研究中样本人群所测得的某变量系统地偏离了目标人群中该变量的真实值,使得研究结果或推论的结果与真实情况之间出现偏差,这是由系统误差造成的。
选择偏倚(selection bias ):指被选入到研究中的研究对象与没有被选入者特征上的差异所造成的系统误差。
主要产生于研究的设计阶段,在各类流行病学研究中均可能发生,以在病例对照研究与现况研究中为常见。
常见的选择偏倚1、入院率偏倚(admission rate bias)亦称伯克森偏倚(Berkson’s bias),是指利用医院就诊或住院病人作为研究对象时,由于入院率的不同或就诊机会的不同而导致的偏倚。
用住院病例进行研究时可能没有包括:1)抢救不及时死亡的病例2)距离医院远的病例3)无钱住院的病例4)病情轻的病例2、现患-新发病例偏倚(Prevalence-incidence bias)又称奈曼偏倚(Neyman bias),凡因现患病例与新病例的构成不同,只调查典型病例或现患病例的暴露状况,致使调查结果出现的系统误差都属于本类偏倚。
流行病学研究中的偏倚及其控制试题
(一)单项选择题(1)利用医院就诊或住院病人为研究对象时,由于入院率的不同而造成的偏差是A.无应答偏倚B.混杂偏倚C.抽样误差D.易感性偏倚E.Berkson’s偏倚(2)在研究近期口服避孕药与心肌梗死关系时,因为怀疑年龄是可能的混杂因素,因此只选择35~45岁的妇女作为研究对象,这种控制混杂偏倚的方法是A.限制B.匹配C.随机化抽样D.便于资料进行多因素分析E.盲法收集资料(3)对研究所需指标或数据进行测定或测量时产生的偏倚为A.诊断怀疑偏倚B.测量偏倚C.暴露怀疑偏倚D.易感性偏倚E.Berkson’s偏倚(4)回忆偏倚与报告偏倚的区别在于A.回忆偏倚是由于调查的事件发生率较低,未留下深刻的印象,研究对象不能很好的回忆起来,而报告偏倚是因为调查事件发生很久,记忆不清,没有报告B.回忆偏倚在病例对照研究中最常见,报告偏倚在队列研究中最常见C.回忆偏倚在病例对照研究中最常见,报告偏倚在干预研究中最常见D.回忆偏倚是研究对象不能准确、完整地回忆以往发生的事情和经历时所产生;报告偏倚是研究对象有意扩大或缩小某些信息造成的偏倚E.回忆偏倚是研究对象故意不回忆真实情况造成,报告偏倚是研究对象故意不报告真实情况造成(5)某因素在病因学上与某疾病本无关联,但可引起所研究疾病的症状或体征,从而促使患者及早就诊,提高了早期病例检出率,从而过高的估计了暴露程度,这种偏倚是A.诊断怀疑偏倚B.检出偏倚C.测量偏倚D.混杂偏倚E.Berkson’s偏倚(6)奈曼偏倚(Neyman bias)是指A.诊断怀疑偏倚B.检出偏倚C.测量偏倚D.现患病例-新病例偏倚E.入院率偏倚(二)多项选择题(1)选择偏倚的种类包括A.诊断怀疑偏倚B.检出偏倚C.测量偏倚D.混杂偏倚E.回忆偏倚(2)对于选择偏倚的控制原则是A.对研究中可能会出现的各种选择性偏倚要充分了解B.严格掌握研究对象的纳入和排除标准C.采用盲法收集资料D.尽量取得研究对象的合作,提高应答率,降低失访率E.采用客观指标进行测量(33)混杂偏倚的控制原则是A.设计时对研究对象的入选条件进行限制B.匹配C.收集资料时有严格的质量控制方法D.以随机化原则使研究对象以同等的概率分配到各处理组中E.资料处理阶段可用一定的分析方法控制偏倚,如分层分析(4)为控制混杂偏倚,常将研究对象以同等的概率分配到各处理组中这种随机化方法常用于以下哪些(种)研究A.病例对照研究B.队列研究C.生态学研究D.临床试验研究E.现场试验研究(5)混杂因素的基本特点是A.必须是所研究疾病的独立危险因子B.必须掩盖而不是扩大了因素与疾病之间的关系C.一定不是研究因素与研究疾病因果链上的中间变量D.必须与研究因素有关E.必须是致病因素,而非保护因素(6)控制信息偏倚的要点是A.要有明确的资料收集方法和严格的质量控制方法B.尽可能获得高应答率C.尽量采用客观指标进行测量D.采用配比的方式E.尽可能采用盲法收集资料(7)病例对照研究中常见的偏倚有A.回忆偏倚B.入院率偏倚C.混杂偏倚D.调查偏倚E.以上都存在(8)队列研究中主要的偏倚有A.回忆偏倚B.入院率偏倚C.混杂偏倚D.失访偏倚E.以上都不是(9)以下哪些(种)说法是不正确的A.队列研究中,通过匹配可使暴露队列与非暴露队列潜在混杂因素的频率相同B.病例对照研究中,通过匹配可得到在某(些)混杂因素方面与病例组相同的对照组C.增加个体匹配中对照的数量,能提高信息利用的效率,因此对照的数目越多越好D.临床试验中,因为病人病情的严重程度不同,因此不能采用个体匹配E.因为配比能提高信息的利用率,因此配比的因素越多越好(10)以下哪些(种)说法是正确的A.混杂偏倚能够通过统计学方法,如分层分析等进行处理,因为它是由抽样产生的随机误差B.偏倚是指随机误差以外的误差,是系统误差C.选择偏倚是由抽样过程中产生的随机误差D.偏倚可以发生在流行病学研究的设计、实施分析以至推论的各个阶段E.以上都不正确。
流行病学研究中的常见偏倚
一般情况下,志愿者与非志愿者在关心 健康、注意饮食习惯、禁烟、禁酒及体 育锻炼等方面可能存在系统的差别,因 而,志愿者被入选为观察对象,而非志 愿者落选,这样的研究结果往往有选择 偏倚。例如,一项以体育锻炼预防冠心 病的研究,干预组都是志愿者,而将非 志愿者作对照,以比较该项措施的效 果,这样就可能会得出不正确的结论。
合计
组)
组)
1200
1200
2400
4800
4800
9600
OR=1,χ2检验差异无显著性,说明A病与X因素无关系。
假设A病住院率为25%,B病住院率为60%,具 有X因素也有一定的入院率为40%。现就上述 不同的入院率计算住院人数:
A病无X因素住院人数=4800×0.25=1200人
A病有X因素住院人数=1200×0.25+(1200 -300)×0.4=660人
7
72
110
117
117
9.8
妇科
暴露
非暴露
59
42
89
108
148
148
1.7
1978年,Horwitz指出,这一结论是由检 出征候偏倚所致,两者之间的高度关联 是虚假的。因为在人群中有一定量的无 症状的子宫内膜癌早期病人,她们若不 服用雌激素,子宫不致出血,因而不去 医院就诊,而不能被发现。
4. 志愿者偏倚(volunteer
2、尽量采用多种对照
理想的是以人群中全体病例和非病例(或其 有代表性的样本)作为研究对象。如以医院 病例为研究对象,宜在多个医院选择对象, 且最好有2个对照组,其中一个对照组来自 社区一般人群,在队列研究中,最好也应设 多种对照,以减少选择偏倚对结果的影响。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(四)样本水平的变异性
样本(研究)水平的变异性是指通过不同样本的 研究所得结果的差异性。为什么高水平的血清总 胆固醇是不利的或不健康的?这可以在关于血清 总胆固醇与心血管死亡风险呈正相关的研究中找 到答案,如Framingham心脏研究。 但是,研究通常不能针对整个总体人群来进行, 而是通过样本人群来进行,这就引入了抽样变异 (误差)。通过不同样本的研究所得的关于总体 结果的估计值会有不同,如果排除测量误差,这 些样本的估计值与总体真实值(用各样本估计值 的均值代表)的差异,就是抽样误差。当样本含 量增大时,抽样误差就会减少。
流行病学研究中的偏 倚及其控制
一、 研究结果的变异性
(一)变异性概述
研究结果包括描述性和分析性数据(指标)的变动或 波动,称为研究结果的变异性(variability)。它可存在 于不同的水平,包括个体水平、群体水平和样本(研 究)水平。
表 8-1 变异性的水平和来源 变异性水平 变异的来源 个体 个体生物学变异,测量误差 群体 个体间遗传学变异,环境变异,测量误差 样本(研究) 抽样方式,样本大小,测量误差
(二)内部真实性
内部真实性(internal validity)是指研究结果 与实际研究对象真实情况的符合程度。它回答 一个研究本身是否真实或有效。如果一个研究 针对实际研究对象提供了真实的描述频率或效 应估计值,即随机误差和系统误差较小,则该 研究是真实或有效的。如果一个研究本身是不 真实或无效的,则很难再应用到其他人群。 改善内部真实性的措施有:限制研究对象的类 型和研究的环境条件。因为这样可以降低群体 水平的变异性,或者使因果机制趋于一致等。 这些措施可能限制研究结果应用到其他人群, 也就是使下述的外部真实性受限。
三、外部真实性
外部真实性(external validity)是指研究结果 与推论对象真实情况的符合程度,外部真实性 又称为普遍性(generalizability)。它回答一 个研究能否推广应用到研究对象以外的人群。 如果研究对象对于推论对象的代表性不好,尽 管它的内部真实性可能好,但它的外部真实性 则肯定差。 增加研究对象的同质性,如限制类型如年龄、 职业、体质特征或疾病分型等,可以改善内部 真实性;而增加研究对象的异质性,使得研究 对象的代表性范围扩大,则可以改善外部真实 性。在实际研究确定对象时,需要综合平衡考 虑研究对象的同质性和异质性问题。
二、 研究的真实性
(一)真实性概述
研究的真实性或效度(validity)是指研究收集的 数据、分析结果和所得结论与客观实际的符合程 度。如果研究结果与客观实际存在不符合的地方, 这就是研究误差,它是研究真实性的反面。 研究误差可以分为系统误差和随机误差两部分: 系统误差是指有固定方向和固定大小的误差,来 自于对象选取、测量和统计分析等的方法学缺陷; 而随机误差没有固定方向和固定大小,一般呈正 态分布,来自于随机抽样变异和测量随机变异等。 研究真实性的反面应当包括系统误差和随机误差 两部分。
在图8-2的示例中,研究A和研究B中膳食改良 组五年内发生心机梗死的风险为9%,而降胆 固醇药物组为6%。研究A样本较小(200人), 两组效应指标(心肌梗死风险)的95%可信 限较大,从而发生重叠,统计检验无显著性差 异 。研究B样本较大(2000人),两组效应指 标(心肌梗死风险)的95%可信限较小,从 而未发生重叠,统计检验有显著性差异。一般 而言,研究样本越大,效应估计值的抽样误差 越小(95%可信限越小),统计检验能发现 的两组间效应差值越小。如果研究样本非常大, 两组间差异很小的效应值也会有统计学显著差 异,但这很少有生物学或临床意义。
(三)群体水平的变异性 1.群体水平的变异性可以看成是各个体的累计变 异,因为构成群体的各个个体具有不同的遗传 素质并受到不同的环境影响。 2.群体的变异程度常常大于个体的变异。一般可 根据群体的变异范围来确定“正常值”范围, 用于判定个体测得值是否“正常”。如某病人 的血清总胆固醇得到一个确定的测得值,可以 根据群体血清总胆固醇的变异范围,判定该病 人的总胆固醇是否处于“正常”水平。 3.群体水平的变异性也受到测量误差的影响。
1.描述性结果的样本变异性 可以示例如图8-1。
源群体 180,174,215,305 233,276 276,146,195 276 205,188,190,295 295 170,164,248 248,162 248 220,219,228,250 250
样本 A 305,276,195,215,170 样本 B 295,146,220,162,228 295 样本 C 219,164,190,188,233
100人 140人 40人
因A入院(50%)
400人
因B入院(20%) B病(X+) (200人) B病(1000人) B病(X-) (800人) 因X入院(40%)
40人 104人 64人
因B入院(20%)
160人
因不同住院率而住院的A、B病患者及其与因素X的关系 疾病 暴露于X 非暴露X 合计 X暴露率 A:对照 140 400 540 25.9% B:病例 104 160 264 39.4% 合计 244 560 804 30.4% OR=1.86 x2=15.215 P<0.001
(二)选择性偏倚的种类
1.入院率偏倚( bias) 1.入院率偏倚(admission rate bias) 入院率偏倚
亦称伯克森偏倚(Berkson s bias), ),是 亦称伯克森偏倚(Berkson’s bias),是 指利用医院就诊或住院病人作为研究对象时, 指利用医院就诊或住院病人作为研究对象时, 由于入院率的不同而导致的偏差。 由于入院率的不同而导致的偏差。
高胆固醇率 = 40%
=20%
高胆固醇率 = 25% (>240mg/dL) 图 8-1 源群体与样本高胆固醇率的样本变异性示例
=0%
在图8-1的示例中,源群体高胆固醇率为 25%,样本A为40%,样本B为20%,样 本C为0%。如果增大样本含量,样本的 变异性会减少,样本的高胆固醇率对群 体的代表性会增大。
72 230 302
3.检出偏倚 3.检出偏倚 或称检出症候偏倚(detection signal bias),指某因素与某疾病在病因学上虽无 关联,但由于该因素的存在而引起该疾病症 状或体征的出现,从而使患者及早就医,接 受多种检查,导致该人群较高的检出率,以 致得出该因素与该疾病相关联的错误结论。 在对一些慢性疾病如肿瘤、动脉硬化、 结石等进行病因研究时,这种偏倚的意义特 别重要。
(二)个体水平的变异性
个体水平的变异性是指某个体特征测得值的 变化,它可以是个体真值随时间的改变,也 可以是由于测量误差引起的变化。个体水平 测得值的变异来源归纳于表8-2。
变异来源 个体状态 测量误差 表 8-2 个体水平测得值的变异来源 特 点 日间变异, 年龄、 膳食或运动改变, 环境因素 (季节、 温度等) 仪器标度差,仪器精密度差,仪器读数或记录错误
2.分析性结果的样本变异性
研究 A(研究对象 200 人,随机分配到两组)
可以示例如图8-2。
膳食改良组 降胆固醇药物组
0
5
10
15
五年内发生 心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组) 膳食改良组 降胆固醇药物组
0
5
10
15
五年内发生 心肌梗死风险(%)
图 8-2 膳食与药物预防心机梗死的样本变异性示例
A、B病患者及其与因素X的关系 病患者及其与因素X 暴露于X 非暴露X 疾病 暴露于X 非暴露X A:对照 200 800 B:病例 200 800 合计 400 1600 OR=1.00 P>0.05 合计 1000 1000 2000 X暴露率 20% 20% 20%
因A入院(50%) A病(X+) (200人) 因X入院(40%) A病(1000人) A病(X-) (800人)
例如:研究绝经期妇女服用雌激素与子宫内膜 癌的关系,初步结果显示服用雌激素可使子宫内膜 癌发生增多,两者有相关关系,或认为服用雌激素 是子宫内膜癌的危险因素。但经仔细分析,特别对 子宫内膜癌的发现进行观察,揭示出服用雌激素会 导致绝经期妇女不规则的子宫出血,而子宫出血作 为一种诊断信息,使她们及时就诊寻求原因,从而 大大增加了子宫内膜癌的发现机会。末服用雌激素 的妇女中,一旦发生子宫内膜癌,常无明显症状, 而未能及时就诊,以致发现较晚。从而高估了雌激 素与子宫内膜癌的关系。
研究误差中的系统误差部分,称为偏倚 (bias)。研究的可靠性或信度(reliability) 亦称精密度(precision),就是反映研究结果 中随机误差大小的程度,随机误差小则研究信 度高。 随机抽样误差可以用统计学方法来估计,并且 可以通过增大样本含量来减少。测量数据的真 实性可用真实性指数(index of validity, IV), 或某方面的真实性指标如灵敏度或特异度等来 表示。 变异可以是真实的(如生物学个体变异),而 反映研究误差的变异肯定是不真实的。
变异的来源可以分为两个层次: 1.生物学(真实)变异和测量变异:生物学变异 反映真实的客观变异,测量的变异反映测量过 程的误差。例如,在个体水平上,某病人的血 压真值在一段时间内本身存在波动(生物学变 化);同时在血压的测量过程中,又存在一定 的测量误差(测量变异)。该病人的血压值的 总变异就包含生物学变异和测量变异。 2.随机变异和系统变异:随机变异(误差)的绝 对值和方向(符号)交错变化,并呈有界范围 的正态分布。系统变异(误差)的绝对值和方 向保持恒定。上述的测量误差,就可以再分出 随机误差和系统误差。
真实性、 第一节 真实性、偏倚和机遇
三、 研究的偏倚
研究误差中的系统误差部分,称为偏倚 (bias)。最著名的早期偏倚研究是Berkson 做的,他在1946年证实了采用医院病人对象 的病例对照研究容易遭受潜在的选择偏倚,这 种偏倚来自于病人入院风险同病人的多种状况 有关,又称为Berkson偏倚。 1976年Miettinen详细讨论了偏倚的定义,并 给出了分类框架,这就是被广泛接受的选择偏 倚、信息偏倚和混杂偏倚三分类。