流行病学中常见的偏倚及其控制参考课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主要体现在样本对总体的代表性上 如不是采用随机抽样而是使用方便样本,或某些特定群
体(志愿者、因特网利用者等)造成的外部效度(外推) 受限问题。 控制方法 尽量采用随机抽样,避免样本选取的偏向 对特定群体的结果在外推上要谨慎等
21
分析性研究的选择偏倚
主要体现 研究对象进入、排除、不参与或失访等与研 究暴露或处理因素存在关联,由此增大或减少暴露与疾 病、处理与效应的关联,导致效应估计的偏倚。
样本本CC
高胆固醇率 = 25%
219,164,190,188,233 =0%
(>240mg/dL)
图8-1
图 8-1 源群体与样本高胆固醇率的样本变异性示例
5
在图8-1中,群体高胆固醇率为25%,样本A 为40%,样本B为20%,样本C为0%。
增大样本含量,样本的变异性会减少,样本 的高胆固醇率对群体的代表性会增大。
19
选择偏倚(selection bias )
指被选入到研究中的研究对象与没有被选入者特征上的差 异所造成的系统误差。主要产生于研究的设计阶段,在各类 流行病学研究中均可能发生,以在病例对照研究与现况研究 中为常见。
例如研究对象采用志愿者,方便样本,或者研究对象的无 应答或失访等。
20
描述性研究的选择偏倚
15
1.θ>1时: (1) θ’>θ>1时,夸大危险效应,为正偏倚。 (2)θ>θ’>1时,缩小危险效应,为负偏倚。
2.θ<1时: (1) θ’<θ<1时,夸大 保护效应,为正偏倚。 (2)θ<θ’<1时,缩小保护效应,为负偏倚。
16
(二)趋向无效值偏倚、远离无效值偏倚或颠 倒偏倚:无效值指产生零效应的值。例如, 对于RR或OR等于1时即无效值。就RR或OR 而言:
4
描述性结果的样本变异性
源群体
样样本本AA
高胆固醇率
180,174,215,305
305,276,195,215,170 = 40%
233,276,146,195
205,188,190,295
样本本BB
170,164,248,162
295,146,220,162,228 =20%
220,219,228,250
6
分析性结果的样本变异性
研究 A(研究对象 200 人,随机分配到两组) 膳膳食食改改良良组组
降降低胆胆固固醇醇药药物组组
0
5
10
15
五年内发生
心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组)
膳膳食食改改良组组
降降低胆胆固固醇醇药物物组组
0
5
10
15
五年内发生
心肌梗死风险(%)
8
样本越大,效应估计值的抽样误差越小(95% 可信限越小),统计检验能发现的两组间效应差 值越小。
样本非常大,两组间差异很小的效应值也会有 统计学显著差异,但这很少有生物学或临床意义。
9
系统误差
当对群体的某一特征做一次测量或对某一个体 的某一特征做多次测量时,所得均值与总体间的真 实性也会产生误差,如果误差向量的方向一致或基 本一致时,这种误差称为系统误差。
图 8-2 膳食与药物预防心机梗死的样本变异性示例
7
如图8-2,研究A和B中膳食改良组五年内发生心机梗死的 风险为9%,而降胆固醇药物组为6%。
研究A样本较小(200人),两组效应指标(心肌梗死风 险)的95%可信限较大,发生重叠,无显著性差异。
研究B样本较大(2000人),两组效应指标(心肌梗死风 险)的95%CI较小,未发生重叠,有显著性差异。
13
偏倚(bias)
指在流行病学研究中样本人群所测得的某变量 系统地偏离了目标人群中该变量的真实值,使得研 究结果或推论的结果与真实情况之间出现偏差,这 是由系统误差造成的。
14
偏倚的方向
(一)正偏倚和负偏倚: 凡夸大真实效应者为正偏倚。 凡缩小真实效应者为负偏倚。
假如某特征的真实值为θ,而测得值为θ’。 θ=1.0为零效应; θ>1为危险效应; θ<1为 保护效应。
舒张压 (mmHg)
12
随机误差和系统误差的区别
❖ 假设一项研究可以将样本量增至无穷大,如果 研究样本无穷大能使误差减小到零,则此误差 为随机误差。系统误差不受样本量增加的影响, 因此在研究样本无穷大时仍然存在的误差是系 统误差;
❖ 适当的重复试验或增加样本含量可以减少随机 误差,但不能减少系统误差。
10
系统误差不是由随机抽样所引起的,而 是由某些不能准确定量但较为恒定的因素所 引起,其结果导致测量值系统地偏离总体的 真实值。
11
❖ 举例:用动脉血压计测量某人血压(实际值为 80mmHg),各次读数的均值为100mmHg,系统 误差和随机误差可用以下图示
发
系统误差
生
频
随机误差
次
80
100
血压计法测量舒张压值的分布
❖ 可以是测量方法本身的随机变异,也可以是被测 定的生物现象的随机变异。
❖ 利用统计学技术可估计随机误差的大小,但随机 误差无法消除。
3
随机误差的两个特点
❖ 样本的观察值都在平均值上下分布,从许多无偏 倚样本中得到的观察值均数,假如数量较大,总 是趋向于接近总体值;
❖ 随机误差的范围可以用可信区间估计,当保持随 机方法而加大样本时,样本均值逐渐向总体均值 接近。
正偏倚。 (2)RR=0.6 RR’=0.8时,为趋向无效值
负偏倚。 (3)RR=1.2 RR’=0.9时,为颠倒负偏倚。
18
1946年,Berkson做最著名的偏倚研究并给 予证实,又称为Berkson偏倚。
1976年,Miettinen详细讨论了ቤተ መጻሕፍቲ ባይዱ倚的定义, 并给出分类框架,分三类
选择偏倚 信息偏倚 混杂偏倚
当θ>1时,若θ’>θ>1,则为远离无效值偏倚。
若θ>θ’>1,则为趋向无效值偏倚。
当θ<1时,若θ’<θ<1,则为远离无效值偏倚。
若θ<θ’<1,则为趋向无效值偏倚。
(三)无论θ>1或θ<1,若θ和θ’在1的两侧,则 为颠倒偏倚。
17
3.举例: (1)RR=1.5 RR’=2.0时,为远离无效值
流行病学中常见的 偏倚及其控制
Biases and Their Control 吴库生
汕头大学医学院预防医学教研室
1
误差 (error)
对事物某一特征的测量值偏离真实值的部分。 随机误差 (random error ) 系统误差 (systematic error )
2
随机误差
❖ 指随机抽样所得的均值与总体参数的差异,也称 抽样误差。只能减少,不能避免。
体(志愿者、因特网利用者等)造成的外部效度(外推) 受限问题。 控制方法 尽量采用随机抽样,避免样本选取的偏向 对特定群体的结果在外推上要谨慎等
21
分析性研究的选择偏倚
主要体现 研究对象进入、排除、不参与或失访等与研 究暴露或处理因素存在关联,由此增大或减少暴露与疾 病、处理与效应的关联,导致效应估计的偏倚。
样本本CC
高胆固醇率 = 25%
219,164,190,188,233 =0%
(>240mg/dL)
图8-1
图 8-1 源群体与样本高胆固醇率的样本变异性示例
5
在图8-1中,群体高胆固醇率为25%,样本A 为40%,样本B为20%,样本C为0%。
增大样本含量,样本的变异性会减少,样本 的高胆固醇率对群体的代表性会增大。
19
选择偏倚(selection bias )
指被选入到研究中的研究对象与没有被选入者特征上的差 异所造成的系统误差。主要产生于研究的设计阶段,在各类 流行病学研究中均可能发生,以在病例对照研究与现况研究 中为常见。
例如研究对象采用志愿者,方便样本,或者研究对象的无 应答或失访等。
20
描述性研究的选择偏倚
15
1.θ>1时: (1) θ’>θ>1时,夸大危险效应,为正偏倚。 (2)θ>θ’>1时,缩小危险效应,为负偏倚。
2.θ<1时: (1) θ’<θ<1时,夸大 保护效应,为正偏倚。 (2)θ<θ’<1时,缩小保护效应,为负偏倚。
16
(二)趋向无效值偏倚、远离无效值偏倚或颠 倒偏倚:无效值指产生零效应的值。例如, 对于RR或OR等于1时即无效值。就RR或OR 而言:
4
描述性结果的样本变异性
源群体
样样本本AA
高胆固醇率
180,174,215,305
305,276,195,215,170 = 40%
233,276,146,195
205,188,190,295
样本本BB
170,164,248,162
295,146,220,162,228 =20%
220,219,228,250
6
分析性结果的样本变异性
研究 A(研究对象 200 人,随机分配到两组) 膳膳食食改改良良组组
降降低胆胆固固醇醇药药物组组
0
5
10
15
五年内发生
心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组)
膳膳食食改改良组组
降降低胆胆固固醇醇药物物组组
0
5
10
15
五年内发生
心肌梗死风险(%)
8
样本越大,效应估计值的抽样误差越小(95% 可信限越小),统计检验能发现的两组间效应差 值越小。
样本非常大,两组间差异很小的效应值也会有 统计学显著差异,但这很少有生物学或临床意义。
9
系统误差
当对群体的某一特征做一次测量或对某一个体 的某一特征做多次测量时,所得均值与总体间的真 实性也会产生误差,如果误差向量的方向一致或基 本一致时,这种误差称为系统误差。
图 8-2 膳食与药物预防心机梗死的样本变异性示例
7
如图8-2,研究A和B中膳食改良组五年内发生心机梗死的 风险为9%,而降胆固醇药物组为6%。
研究A样本较小(200人),两组效应指标(心肌梗死风 险)的95%可信限较大,发生重叠,无显著性差异。
研究B样本较大(2000人),两组效应指标(心肌梗死风 险)的95%CI较小,未发生重叠,有显著性差异。
13
偏倚(bias)
指在流行病学研究中样本人群所测得的某变量 系统地偏离了目标人群中该变量的真实值,使得研 究结果或推论的结果与真实情况之间出现偏差,这 是由系统误差造成的。
14
偏倚的方向
(一)正偏倚和负偏倚: 凡夸大真实效应者为正偏倚。 凡缩小真实效应者为负偏倚。
假如某特征的真实值为θ,而测得值为θ’。 θ=1.0为零效应; θ>1为危险效应; θ<1为 保护效应。
舒张压 (mmHg)
12
随机误差和系统误差的区别
❖ 假设一项研究可以将样本量增至无穷大,如果 研究样本无穷大能使误差减小到零,则此误差 为随机误差。系统误差不受样本量增加的影响, 因此在研究样本无穷大时仍然存在的误差是系 统误差;
❖ 适当的重复试验或增加样本含量可以减少随机 误差,但不能减少系统误差。
10
系统误差不是由随机抽样所引起的,而 是由某些不能准确定量但较为恒定的因素所 引起,其结果导致测量值系统地偏离总体的 真实值。
11
❖ 举例:用动脉血压计测量某人血压(实际值为 80mmHg),各次读数的均值为100mmHg,系统 误差和随机误差可用以下图示
发
系统误差
生
频
随机误差
次
80
100
血压计法测量舒张压值的分布
❖ 可以是测量方法本身的随机变异,也可以是被测 定的生物现象的随机变异。
❖ 利用统计学技术可估计随机误差的大小,但随机 误差无法消除。
3
随机误差的两个特点
❖ 样本的观察值都在平均值上下分布,从许多无偏 倚样本中得到的观察值均数,假如数量较大,总 是趋向于接近总体值;
❖ 随机误差的范围可以用可信区间估计,当保持随 机方法而加大样本时,样本均值逐渐向总体均值 接近。
正偏倚。 (2)RR=0.6 RR’=0.8时,为趋向无效值
负偏倚。 (3)RR=1.2 RR’=0.9时,为颠倒负偏倚。
18
1946年,Berkson做最著名的偏倚研究并给 予证实,又称为Berkson偏倚。
1976年,Miettinen详细讨论了ቤተ መጻሕፍቲ ባይዱ倚的定义, 并给出分类框架,分三类
选择偏倚 信息偏倚 混杂偏倚
当θ>1时,若θ’>θ>1,则为远离无效值偏倚。
若θ>θ’>1,则为趋向无效值偏倚。
当θ<1时,若θ’<θ<1,则为远离无效值偏倚。
若θ<θ’<1,则为趋向无效值偏倚。
(三)无论θ>1或θ<1,若θ和θ’在1的两侧,则 为颠倒偏倚。
17
3.举例: (1)RR=1.5 RR’=2.0时,为远离无效值
流行病学中常见的 偏倚及其控制
Biases and Their Control 吴库生
汕头大学医学院预防医学教研室
1
误差 (error)
对事物某一特征的测量值偏离真实值的部分。 随机误差 (random error ) 系统误差 (systematic error )
2
随机误差
❖ 指随机抽样所得的均值与总体参数的差异,也称 抽样误差。只能减少,不能避免。