第九章偏倚及其控制(精)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第九章偏倚及其控制
一、学习要求
1. 应掌握内容偏倚的概念，以及流行病学三种主要偏倚的概念；控制混杂偏倚的分层分析方法的基本思路。

2. 需熟悉的内容研究真实性的概念，分类；选择偏倚、信息偏倚及混杂偏倚产生的原因及对结果真实性的影响。

3. 需了解的内容研究结果变异的概念及来源；分层分析的计算方法。

二、学习要点
（一）研究结果的变异性
1. 变异性的概念研究结果包括描述性和分析性数据（指标）的变动或波动，称为研究结果的变异性（variability）。

2. 变异性的来源与水平
（1）变异的来源：包括生物学真实变异和测量误差，其中测量误差可再分为随机误差和系统误差。

（2）变异的水平：包括个体水平、群体水平和样本水平三个层次。

个体水平的变异性是指某个体特征测量值的变化，它可以是个体真值随时间的改变，也可以是由于测量误差引起的变化。

群体水平的变异性可以看成是各个体的累计变异，因为构成群体的各个体具有不同的遗传素质并受到不同的环境影响。

样本（研究）水平的变异性是指通过不同样本的研究所得结果的差异性。

（二）研究的真实性
1. 真实性的概念及与研究变异性的关系
（1）研究的真实性或效度（validity）是指研究收集的数据、分析结果和所得结论与客观实际的符合程度。

（2）研究的误差是研究真实性的反面，反映了研究数据的测量误差的程度，因此包括系统误差和随机误差两部分。

研究中的系统误差部分称为偏倚（bias）。

研究中的随机误差大小用信度（reliability）来反映，信度越高则随机误差越小，反之则随机误差越大。

2. 内部真实性和外部真实性
（1）内部真实性（internal validity）：是指研究结果与实际研究对象真实情
况的符合程度，它回答一个研究本身是否真实或有效。

（2）外部真实性（external validity）：是指研究结果与推论对象真实情况的符合程度，它回答一个研究能否推广应用到研究对象以外的人群。

（三）研究的偏倚
1. 偏倚（bias）的概念研究误差中的系统误差部分称为偏倚。

2. 偏倚的分类
（1）选择偏倚（selection bias）：是在研究对象的选取过程中，由于选取方式不当，导致入选对象与未入选对象之间存在系统误差，由此而造成的偏倚成为选择偏倚。

选择性偏倚的来源及控制方法见表9-1。

表9-1 不同类型研究选择性偏倚的来源及控制方法研究类型选择性偏倚的表现控制措施
描述性研究样本对总体的代表性不强，
结果外推局限随机抽样；特定人群研究结果
外推应谨慎
分析性研究进入或不进入研究对象的人群
特征与研究暴露因素或处理因
素存在关联，增大或减少研究
因素与结局效应的关联
注意样本的代表性；
增加应答
减少失访
严格遵循对象选取原则
（2）信息偏倚（information bias）：信息偏倚又称测量偏倚或观察偏倚，是来自于测量或资料收集方法的问题，使获取的资料存在系统误差，又称为错分偏倚（misclassification bias）。

错分偏倚的分类、表现及控制方法见表9-2。

表9-2 错分偏倚的分类、表现及控制方法
错分偏倚分类偏倚的表现控制措施
无差异性错分偏倚暴露或疾病的错误分类在研
究分组间分布均衡
使研究效应的估计值偏低制定判断暴露或疾病的公认（或“金”）标准
差异性错分偏倚暴露或疾病的错误分类在研
究分组间分布不同，效应的估
计值被高估或低估。

包括回忆
偏倚和调查者偏倚
盲法调查
控制回顾调查期限，使用生物学标志物测量暴露或结局效应
（3）混杂偏倚（confounding bias）：是指暴露因素与疾病发生的相关程度受其他因素的歪曲或干扰。

混杂偏倚的判断原则为：比较混杂因素控制前后的暴露
因素效应估计值，如果存在有意义的差异，则认为产生了混杂偏倚。

在因果关联分析中混杂偏倚可能引起两种假关联即继发关联和歪曲直接因果关联。

1）继发关联（secondary association）：即怀疑的病因（暴露）E与疾病D并不存在因果关系，而是由于两者（E，D）有共同的原因C，E，D同C存在关联，从而继发产生E与D的关联。

2）歪曲直接因果关联：暴露因素可通过直接关联和间接关联两种途径影响结局，如果分析时将间接关联的效应综合在直接关联中，则就会歪曲暴露因素与结局的直接关联，即出现混杂偏倚。

混杂偏倚在研究各阶段的控制措施见表9-3。

表9-3 混杂偏倚在研究各阶段的控制措施
研究阶段控制措施控制原理
设计阶段随机化
配比
限制人为使得混杂因素在研究分组中分布一致，则该因素对结局的效应为“零”
分析阶段标准化率分析
分层分析
多变量分析控制混杂因素的效应，估计研究变量的真实效应量
（4）混杂偏倚的分层分析步骤
1）对可能的混杂因素进行分层，计算各层的OR i或RR i
2）判定层间OR i或RR i是否相等或相近；若相等或相近，则可判断层间同质，否则不同质。

3）层间同质的资料，可以用M-H法将各层的ORi或RRi综合起来，即得到控制混杂后的调整RR或OR。

（层间不同质的资料则可能存在交互作用，应对交互作用进行估计。

）
4）层间同质的资料，将调整RR或OR与分层前的粗RR或粗OR（cRR或cOR）进行比较，一般而言，如果差值有0.5以上的改变（RR或OR>1时）或者有0.1以上的改变（RR或OR<1时），就可以下“存在混杂偏倚”的结论。

三、典型试题分析
（一）单项选择题
1.有关混杂因素和混杂偏倚的说法正确的是
A.有混杂因素存在一定会产生混杂偏倚
B.混杂因素主要指年龄、性别、职业这些人口学特征因素
C.混杂偏倚引起的继发关联是典型的混杂偏倚类型，而引起的间接关联则
不是混杂偏倚
D.在分析阶段控制混杂的方法多采用多元分析，不仅能分析暴露因素的效
应也能估计混杂因素的效应
E.暴露因素和混杂因素的概念是绝对的，有些因素只能是暴露因素，而另
一些因素一定是混杂因素
答案：D
[评析] 本题考点：混杂偏倚产生的原因及效应。

混杂偏倚是混杂因素在比较组间分布不均时产生的。

在设计阶段认识到混杂因素，通过限制、匹配、随机化等方法加以控制则可以避免混杂偏倚，故[A]不正确。

混杂因素不是特定的某些因素，也不是绝对的概念。

而是可能与研究结局相关的因素，只是在研究中不再关注这类因素的效应。

因此[B、E]不正确。

若暴露因素与结局存在直接关联和间接关联的因果联结方式，则混杂因素引起的间接关联会歪曲直接关联的效应，因此[C]不正确。

多元分析的原理即是控制了其他因素的变化后，其中一个因素变化一个单位引起结局变量变化的大小。

因此，在多元分析模型中，纳入模型的自变量（暴露因素或混杂因素）的效应均能估计出来，[D]正确。

（二）多项选择题
1. 关于真实性与变异性的关系说法正确的是
A. 真实性的反面是变异性，因此，真实性高的研究是无变异的
B. 内部真实性高的研究应能反映的是样本来源人群的生物学变异
C. 外部真实性高的研究应该能反映推论人群的生物学变异
D. 真实性高的研究系统变异和随机变异均应较小
E. 信度反映的是随机变异的大小，同时也反映研究的真实性的一部分
答案：BCDE
[评析] 本题考点：研究的真实性和变异性的关系。

研究的真实性是指研究收集的数据、分析结果和所得结论与客观实际的符合程度。

[A]真实性的反面是研究误差，包括系统误差和随机误差两部分，而变异性除了系统误差和随机误差外，还包括研究对象的生物学变异，这部分变异是真实的，且应为研究所揭示。

故A不正确。

[B]内部真实性是指研究结果与实际研究对象真实情况的符合程度。

[C]外部真实性是指研究结果与推论对象真实情况
的符合程度。

它回答一个研究能否推广应用到研究对象以外的人群。

[D]正确，理由同前。

[E]正确，研究的可靠性或信度，是反映研究结果中随机误差大小的程度，随机误差小则研究信度高。

四、习题
（一）单项选择题
[A1型题]
1. 个体水平的变异不可能来源于以下哪个方面
A.个体真值随时间改变
B.仪器标度或精密度差
C.抽样方式误差
D.环境因素改变
E.测量者记录误差
2. 以下关于研究真实性的描述正确的是
A.研究的真实性反映了结果随机误差的大小
B.内部真实性高的研究结果结论外推具有普遍性
C.外部真实性回答了一个研究本身是否真实或有效
D.真实性的反面是研究误差, 主要是系统误差
E.真实性好的研究能反映研究对象及目标人群的真实变异
3. The corporate reason between exposure and disease is
A. Accidental association
B. Secondary association
C. Indirect causation association
D .Direct causation association
E. Statistical correlation
4. 某研究者对女性被动吸烟与乳腺癌的关系进行研究。

随机选取现患乳腺癌患者300人（年龄40~65岁），同时在健康体检人群中选取同一年龄段并且职业相同的女性400名进行调查。

采用这种方法选择样本人群的目的及方法是
A. 控制年龄和职业的混杂偏倚，限制
B. 控制年龄和职业的选择偏倚，限制
C. 控制年龄和职业的混杂偏倚，匹配
D. 控制年龄和职业的选择偏倚，匹配
E. 方便调查，限制纳入标准
5. 未采用盲法收集资料的临床药物疗效实验研究，最容易产生的偏倚是
A. 选择偏倚
B. 无差异错分偏倚
C. 有差异错分偏倚
D. 混杂偏倚
E. 以上都是
（二）多项选择题
1. 以下关于信息偏倚的描述不正确的是
A.无差异错分偏倚因其错误分类与研究分组无关, 故不需要控制
B.差异错分偏倚因其错误分类与研究分组有关, 故需要控制
C.差异性信息偏倚通常来源于回忆偏倚和调查者偏倚
D.无差异偏倚通常是分类标准误差造成的
E.盲法收集信息是控制信息偏倚的有效且实用的方法
2. 关于混杂因素的描述正确的是
A.混杂因素是观察结局效应的危险或保护因素
B.混杂因素存在时一定干扰研究的真实性
C.混杂因素的效应可以通过配比、随机化、限制等方法消除
D.混杂因素是判断是否存在混杂偏倚的唯一标准
E.混杂因素可以通过增大样本量控制
（三）名词解释
1. validity
2. internal validity
3. external validity
4. bias
5. selection bias
6. information bias
7. confounding bias
（四）简答题
1. Take an example to describe the connection and significance of internal validity and external validity.
2. 举例说明无差异错分偏倚和差异性错分偏倚的原因及控制方法有何不同。

3. Please describe how to control confounding bias.
（五）论述题
1. Please describe false association of confounding bias in causal association
study, take an example.
五、参考答案
（一）单项选择题
1. C
2. E
3. B
4. A
5. C
（二）多项选择题
1. AE
2. AC
（三）名词解释
1. 效度（validity）：是指研究收集的数据、分析结果和所得结论与客观实际的符合程度。

2. 内部真实性（internal validity）：是指研究结果与实际研究对象真实情况的符合程度。

3. 外部真实性（external validity）：是指研究结果与推论对象真实情况的符合程度，外部真实性又称为普遍性（generalizability）。

4. 偏倚：研究误差中的系统误差部分称为偏倚（bias）。

5. 选择偏倚（selection bias）：是在研究对象的选取过程中，由于选取方式不当，导致入选对象与未入选对象之间存在系统差异，由此造成的偏倚称为选择偏倚。

6. 信息偏倚（information bias）：又称测量偏倚或观察偏倚，是来自于测量或资料收集方法的问题，使得获取的资料存在系统误差。

7. 混杂偏倚（confounding bias）：当我们研究某个因素与某种疾病的关联时，由于某个既与疾病有制约关系，又与所研究的暴露因素有联系的外来因素的影响，掩盖或夸大了所研究的暴露因素与疾病的联系。

这种现象或影响叫混杂或混杂偏倚，该外来因素叫混杂因素。

（四）简答题
1. 内部真实性和外部真实性是考察研究结论真实度的两个方面，其中，内部真实性反映的是研究结论对研究对象的符合程度，要达到内部真实性好则需要研究对象的特征尽可能相同，干扰因素尽可能少，如选择同一年龄段、同一种职业或同一地区居住的居民等；而外部真实性反映的是研究结论对样本所代表的总体情况的符合程度，要达到外部真实性好则要求样本对总体的代表性好。

二者是对立统一的，对象选择限制条件越多的研究，同质性高，内部真实性越好，但外推
的人群局限，则外部真实性较差。

2. 无差异错分偏倚主要是由于判断暴露或结局的依据发生了偏差，而导致分析时观察结果与真实结果不符，但这种偏差在研究分组间无差异，即两组发生误判的概率是一样的。

如对观察肥胖组与正常体重组血糖异常率的差异时，若血糖异常的标准低于或高于公认的金标准，发生误判的概率是10%，则在肥胖组和体重正常组均有10%的对象会发生误判。

有差异错分偏倚主要来源于被调查者和调查者。

如实验研究中容易发生的霍桑效应，以及实验研究的调查者对研究对象有差异性地收集信息均会导致信息偏倚，并且这种信息误判率在分组间分布不均。

鉴于两种信息偏倚的产生原因不同，采取的控制方法也不同，在制定划分结局或暴露的标准时采用公认的金标准，以控制无差异的错分偏倚；采用盲法调查，加强调查中的质量控制则可以控制差异性错分偏倚。

3. 混杂偏倚的控制可分为两个阶段，在研究设计阶段，可采取随机化、配比和限制的方法进行控制，使混杂因素在研究分组中分布一致，从而不会干扰暴露因素对结局的影响。

此时，混杂因素在研究中与结局的关联被人为控制为“无关联”，值得注意的是这种无关联的现象并非混杂因素的真实效应。

在分析阶段，可通过标准化率、分层分析以及多变量（多元）分析方法控制混杂因素。

其中标准化率计算和分层分析均是以混杂因素在不同研究组间的构成不同，赋以不同的权重，再计算暴露因素调整的关联度（如调整OR或RR），一般不估计混杂因素的作用大小。

而多变量分析是通过统计分析模型，将混杂因素和暴露因素对结局的独立效应均估计出来。

（五）论述题
1. 因果研究中由混杂偏倚引起的假关联包括继发关联和直接因果关联被歪曲。

①继发关联是一种纯粹由混杂偏倚产生的关联，即怀疑的病因（暴露）E与疾病D并不存在因果关系，而是由于两者（E，D）有共同的原因C，E，D同C 存在关联，从而继发产生E与D的关联。

②直接因果关联的歪曲如果怀疑的病因（暴露）E与疾病D既存在直接关联，又存在间接关联或与其他危险（保护）因素F存在相关，E与D的总关联等于E-D直接关联同E-F-D间接关联之和。

如果直接关联与间接关联混在一起，而将其作为直接关联的估计，就会出现混杂偏倚。

（四川大学华西医学院李佳圆栾荣生）。