偏倚
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通过不同样本研究所得结果的差异性
为什么高水平的血清总胆固醇是不利的或不健
康的? 这可以在关于血清总胆固醇与心血管死亡风险 呈正相关的研究中找到答案。 如Framingham心脏研究。
描述性结果的样本变异性
源群体 180,174,215,305 233,276,146,195 205,188,190,295 170,164,248,162 220,219,228,250 高胆固醇率 = 25% (>240mg/dL)
时间效应偏倚 (time effect bias)
入院率偏倚 (admission rate) / Berkson偏倚
利用医院就诊或住院病例为研究对象,由于入 院率不同而导致偏差。
入院率偏倚 (admission rate) / Berkson偏倚
☻ 病例组与对照组 (其他疾病的患者) 入院率不同 ☻ 入选的与不入选的 暴露率不同
与客观实际的符合程度。
内部真实性
内部真实性(internal validity) 定义 研究结果与实际研究对象真实情况 的符合程度 ,它回答一个研究本身是否真实或有 效。
改善措施
限制研究对象的类型和研究的环境条件。
外部真实性
外部真实性(external validity)
定义
研究结果与推论对象真实情况的符合
混杂偏倚 (confounding bias)
选择偏倚
(Selection Bias)
指由于入选的研究对象与未入选的研 究对象在某些特征上存在差异而引起的 误差。这种偏倚常发生在设计阶段。
无偏抽样
选择偏倚
选择偏倚
入院率偏倚 (admission rate) / Berkson偏倚 现患病例-新发病例偏倚 (prevalenceincidence bias) / Neyman偏倚 检出征候偏倚 (detection signal bias) / 暴露 偏倚 (unmasking bias)
偏倚的方向
偏倚的方向是指对事物所产生的效应的估计值 是大于或小于效应真值所做出的一种定性判断, 不涉及偏倚的大小。
效应值为危险效应
正偏倚与负偏倚
负偏倚
正偏倚
RR=1 Null value
RR>1
效应值为保护效应
正偏倚
负偏倚
RR<1
RR=1 Null value
颠倒偏倚
RR>1
RR=1 Null value
病例组(颈椎病) 660 1200 1860
对照组(冠心病) 912 2880 3792
合计 1572 4080 5652
OR=660×2880/912×1200=1.73(P<0.001)
现患病例—新发病例偏倚
用于病例对照研究或现况研究的病例一般是研究期间 的现患病例,而不包括死亡病例和病程短、轻型、不 典型的病例。 存活病例中又有新发和现患病例。存活同死亡病例在 所研究的因素方而有系统差异。新发同现患病例间也 有系统差异; 某些病人患病后,可能会改变原来的某些暴露因素, 这种用于研究的病例类型(现患病例)显然会与队列研 究或实验研究不同(多用新发病例),其产生的偏倚即 为现患病例—新发病例偏倚。
程度,又称为普遍性(generalizability)。它回答 一个研究能否推广应用到研究对象以外的人群。 改善措施 增加研究对象的异质性,使得研究对象的代
表性范围扩大。
研究误差
研究误差是真实性的反面,变异可以是真实的 (如生物学个体变异),而反映研究误差的变 异肯定是不真实的。
Hale Waihona Puke Baidu
研究误差的两种常见类型
个体状态
日间变异 年龄 膳食运动 环境
测量误差
仪器标度差 仪器精密度差 读数或记录错误
群体水平的变异性
个体的累计变异 群体中的个体具有不同的遗传素质并受环境影响 常大于个体变异 根据群体的变异范围确定“正常值”范围,用于判定 个体测得值是否“正常” 群体水平的变异性受测量误差影响
样本水平的变异性
系统误差:因研究设计或实施过程不恰当、或 结果分析错误所致,也称为偏倚。来自于对象选取、 测量和统计分析等的方法学缺陷,有固定方向和固 定大小的误差 。
随机误差:常来源于研究对象的选择过程,即 抽样过程。可用统计学方法来估计,增大样本含量 可减少,没有固定方向和固定大小,一般呈正态分 布。
举例:用动脉血压计测量某人群舒张压
假定肝癌、糖尿病、高血压患者的入院率分别为 20%,50%和40%,计算结果如下:
肝癌合并高血压者200*20%+(20040)*40%=104 肝癌(无高血压者)=800*20%=160 糖尿病合并高血压者200*50%+(200100)*40%=140 糖尿病(无高血压者)=800*50%=400
样本 样本A A
305,276,195,215,170
样本 BB 样本
高胆固醇率 = 40%
295,146,220,162,228 样本 样本 CC 219,164,190,188,233
=20%
=0%
图 8-1 源群体与样本高胆固醇率的样本变异性示例
在上图中,群体高胆固醇率为25%,样本A 为40%,样本B为20%,样本C为0%。 增大样本含量,样本的变异性会减少。
真值 均值
发 生 频 次
偏倚
随机误差
测量 均值
80
100
舒张压 ( mmHg )
血压计法测量某人舒张压值的分布
临床科学研究中的误差与样本的关系
偏倚
偏倚是指在调查研究设计或实施阶段,由于某 种或某些因素的影响,使得研究或推论结果与 真实情况存在系统误差,或者指在研究或推论 过程中所获得的结果系统地偏离其真实值,属 于系统误差。
假定肝癌、糖尿病、高血压患者的住院率分别为 20%,50%和40%,计算结果如下:
高血压 + – 合计
肝癌 104 160 264
糖尿病 140 400 540
合计 244 560 804
OR=ad/bc=104 ×400/160 ×140=1.86
说明两者有联系
社会阶层与颈椎病 假定某人群中有6000人患颈椎病, 6000人患冠心病,并且在患这两种疾病的 人中各有20%的人属于上等社会阶层。 这两种疾病的病人社会阶层情况: 1.患冠心病并属上等阶层:1200人 2.患颈椎病并属上等阶层:1200人 3.患冠心病不属上等阶层:4800人 2.患颈椎病不属上等阶层:4800人
分析性结果的样本变异性
研究A(研究对象 200 人,随机分配到两组) 研究 A(研究对象 200 人,随机分配到两组)
膳食改良组 膳食改良组 降胆固醇药物组 降低胆固醇药物组 0 5 10 15
五年内发生 心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组) 膳食改良组 膳食改良组 降胆固醇药物组 降低胆固醇药物组 0 5 10 15
第十章 临床科研中常见的偏倚及防 治方法
研究结果的变异性
个体水平的变异性 群体水平的变异性 样本水平的变异性
概 述
变异性(variability) 研究结果包括描述性和分析性数据(指标)的变
动或波动。
表 8-1 变异性的水平和来源 变异性水平 变异的来源 个体 个体生物学变异,测量误差 群体 个体间遗传学变异,环境变异,测量误差 样本(研究) 抽样方式,样本大小,测量误差
解决办法:不同类型 的多家医院
入院病人
入院率不同的原因
特别是用住院病人进行研究时,很容易产 生这种偏倚,主要是因为住院病人作为研究对 象时可能没有包括: (1)抢救不及时而死亡的病例 (2)距离医院远的病例 (3)无钱住院的病例 (4)病情轻的病例 (5)此外不同医院的技术专长、专业水平也会 造成不同疾病在不同的医院的就诊断或住院率 的差别。
社会地位 病例组(颈椎病) 对照组(冠心病) 上等阶层 1200 1200 非上等阶层 4800 4800 合计 6000 6000
OR=1200×4800/1200×4800=1
χ2=1 , P>0.05
合计 2400 9600 12000
又假定患冠心病者入院率为60%,颈椎病为 25%,上等阶层者因接受保健检查的入院率 为40%。那么实际入院人数为: 1.患冠心病并属上等阶层:共1200人, 正常入院:1200×60%=720人 接受保健检查入院:480×40%=192人 实际入院人数:720+192=912人 2.患冠心病不属上等阶层:共4800人 正常入院:4800×60%=2880 实际入院人数: 2880
五年内发生 心肌梗死风险(%)
图 8-2 膳食与药物预防心机梗死的样本变异性示例
如图8-2,研究A和B中膳食改良组五年内发生心机梗 死的风险为9%,而降胆固醇药物组为6%。
研究A样本较小(200人),两组效应指标(心肌梗死
风险)的95%可信限较大,发生重叠,无显著性差异。
研究B样本较大(2000人),两组效应指标(心肌梗
以医院中心肌梗死病人为病例进行 病例对照研究,得到结论:大量饮用咖 啡与心肌梗死无关。 而队列研究表明:大量饮用咖啡者 心肌梗死发病危险性是对照的2倍。 原因: Neyman bias 50%的心肌梗死患者入院前死亡。调查 对象只是心肌梗死后的幸存者; 死亡者多是大量饮用咖啡者且时间较长; 入院的未死亡病例只是一般的饮用者;
现患-新发病例偏倚 (prevalenceincidence bias) / Neyman偏倚
☻ 入选的为现患或存活病例 ☻ 不包括死亡病例、病程短 的病例
解决办法:新发病例
例如:Friedman等人在美国弗明汉地区对胆固醇与冠 心病的关系中发现,男性居民在队列研究和病例对 照研究中RR和OR分别为2.4和1.16,
例如:在一般人群和住院病人中研究骨和运动器官疾 病与呼吸道疾病之间的关系。
呼吸道 疾病
+ – 合计 OR
一般人群 + – 17 207 184 2376 201 2583 1.06
合计 224 2560 2784
住院病人 + – 合计 5 15 20 18 219 237 23 234 257 4.06
死风险)的95%CI较小,未发生重叠,有显著性差异。
样本越大,效应估计值的抽样误差越小(95% 可信限越小),统计检验能发现的两组间效应差值 越小。 样本非常大,两组间差异很小的效应值也会有
统计学显著差异,但这很少有生物学或临床意义。
研究的真实性 概
真实性(效度)
述
定义 指研究收集的数据、分析结果和所得结论
RR=1 Null value
RR>1
三.机遇 机遇是观察结果的精确性和可重复性受到影 响。机遇是一种随机误差,它是各测量结果 间受机会影响的变异度的大小,是任何观察 所固有的。 机遇对研究结果的影响具体表现在假阳性和 假阴 性上。例如评价两种疗法。
常见偏倚 选择偏倚 (selection bias) 信息偏倚 (information bias)
例:以糖尿病为对照研究肝癌与高血压的关系,假如人群中 糖尿病和肝癌患者各1000人,两种病人暴露于高血压者各 200人,暴露率为20%,计算结果如下:
高血压 + – 合计
肝癌 200 800 1000
糖尿病 200 800 1000
合计 400 1600 2000
OR=ad/bc=200×800/200 ×800=1 说明肝癌的发生与高血压无关
原因:冠心病病人在确诊后,改变了原来的生活习惯 或嗜好,从而使血中胆固醇水平降低或与正常人相 比血中胆固醇水平增长速度较慢所致。
血胆固醇与冠心病的关系 队列研究 病例对照研究 胆固醇 水平 病例 对照 合计 病例 对照 合计 >75 85 462 547 38 34 72 <75 116 1511 1627 113 117 230 合计 201 1973 2174 151 151 302 RR=2.40 OR=1.16
变异的来源分为两个层次
生物学(真实)变异和测量变异 生物学变异 真实的客观变异
测量变异 测量过程的误差
随机变异和系统变异
随机变异 绝对值和方向交错变化,正态分布
系统变异 绝对值和方向保持恒定
个体水平的变异性
某个体特征测得值的变化,是个体真值随时间的改变, 或是由于测量误差引起的变化。
表 8-2 个体水平测得值的变异来源 变异来源 特 点 个体状态 日间变异,年龄、膳食或运动改变,环境因素(季节、 温度等) 测量误差 仪器标度差,仪器精密度差,仪器读数或记录错误
3.患颈椎病并属上等阶层:共1200人, 正常入院:1200×25%=300人 接受保健检查入院:900×40%=360人 实际入院人数:300+360=660人 4.患颈椎病不属上等阶层:共4800人 正常入院:4800×25%=1200 实际入院人数:1200
颈椎病与社会地位的关系:
社会地位 上等阶层 非上等阶层 合计
为什么高水平的血清总胆固醇是不利的或不健
康的? 这可以在关于血清总胆固醇与心血管死亡风险 呈正相关的研究中找到答案。 如Framingham心脏研究。
描述性结果的样本变异性
源群体 180,174,215,305 233,276,146,195 205,188,190,295 170,164,248,162 220,219,228,250 高胆固醇率 = 25% (>240mg/dL)
时间效应偏倚 (time effect bias)
入院率偏倚 (admission rate) / Berkson偏倚
利用医院就诊或住院病例为研究对象,由于入 院率不同而导致偏差。
入院率偏倚 (admission rate) / Berkson偏倚
☻ 病例组与对照组 (其他疾病的患者) 入院率不同 ☻ 入选的与不入选的 暴露率不同
与客观实际的符合程度。
内部真实性
内部真实性(internal validity) 定义 研究结果与实际研究对象真实情况 的符合程度 ,它回答一个研究本身是否真实或有 效。
改善措施
限制研究对象的类型和研究的环境条件。
外部真实性
外部真实性(external validity)
定义
研究结果与推论对象真实情况的符合
混杂偏倚 (confounding bias)
选择偏倚
(Selection Bias)
指由于入选的研究对象与未入选的研 究对象在某些特征上存在差异而引起的 误差。这种偏倚常发生在设计阶段。
无偏抽样
选择偏倚
选择偏倚
入院率偏倚 (admission rate) / Berkson偏倚 现患病例-新发病例偏倚 (prevalenceincidence bias) / Neyman偏倚 检出征候偏倚 (detection signal bias) / 暴露 偏倚 (unmasking bias)
偏倚的方向
偏倚的方向是指对事物所产生的效应的估计值 是大于或小于效应真值所做出的一种定性判断, 不涉及偏倚的大小。
效应值为危险效应
正偏倚与负偏倚
负偏倚
正偏倚
RR=1 Null value
RR>1
效应值为保护效应
正偏倚
负偏倚
RR<1
RR=1 Null value
颠倒偏倚
RR>1
RR=1 Null value
病例组(颈椎病) 660 1200 1860
对照组(冠心病) 912 2880 3792
合计 1572 4080 5652
OR=660×2880/912×1200=1.73(P<0.001)
现患病例—新发病例偏倚
用于病例对照研究或现况研究的病例一般是研究期间 的现患病例,而不包括死亡病例和病程短、轻型、不 典型的病例。 存活病例中又有新发和现患病例。存活同死亡病例在 所研究的因素方而有系统差异。新发同现患病例间也 有系统差异; 某些病人患病后,可能会改变原来的某些暴露因素, 这种用于研究的病例类型(现患病例)显然会与队列研 究或实验研究不同(多用新发病例),其产生的偏倚即 为现患病例—新发病例偏倚。
程度,又称为普遍性(generalizability)。它回答 一个研究能否推广应用到研究对象以外的人群。 改善措施 增加研究对象的异质性,使得研究对象的代
表性范围扩大。
研究误差
研究误差是真实性的反面,变异可以是真实的 (如生物学个体变异),而反映研究误差的变 异肯定是不真实的。
Hale Waihona Puke Baidu
研究误差的两种常见类型
个体状态
日间变异 年龄 膳食运动 环境
测量误差
仪器标度差 仪器精密度差 读数或记录错误
群体水平的变异性
个体的累计变异 群体中的个体具有不同的遗传素质并受环境影响 常大于个体变异 根据群体的变异范围确定“正常值”范围,用于判定 个体测得值是否“正常” 群体水平的变异性受测量误差影响
样本水平的变异性
系统误差:因研究设计或实施过程不恰当、或 结果分析错误所致,也称为偏倚。来自于对象选取、 测量和统计分析等的方法学缺陷,有固定方向和固 定大小的误差 。
随机误差:常来源于研究对象的选择过程,即 抽样过程。可用统计学方法来估计,增大样本含量 可减少,没有固定方向和固定大小,一般呈正态分 布。
举例:用动脉血压计测量某人群舒张压
假定肝癌、糖尿病、高血压患者的入院率分别为 20%,50%和40%,计算结果如下:
肝癌合并高血压者200*20%+(20040)*40%=104 肝癌(无高血压者)=800*20%=160 糖尿病合并高血压者200*50%+(200100)*40%=140 糖尿病(无高血压者)=800*50%=400
样本 样本A A
305,276,195,215,170
样本 BB 样本
高胆固醇率 = 40%
295,146,220,162,228 样本 样本 CC 219,164,190,188,233
=20%
=0%
图 8-1 源群体与样本高胆固醇率的样本变异性示例
在上图中,群体高胆固醇率为25%,样本A 为40%,样本B为20%,样本C为0%。 增大样本含量,样本的变异性会减少。
真值 均值
发 生 频 次
偏倚
随机误差
测量 均值
80
100
舒张压 ( mmHg )
血压计法测量某人舒张压值的分布
临床科学研究中的误差与样本的关系
偏倚
偏倚是指在调查研究设计或实施阶段,由于某 种或某些因素的影响,使得研究或推论结果与 真实情况存在系统误差,或者指在研究或推论 过程中所获得的结果系统地偏离其真实值,属 于系统误差。
假定肝癌、糖尿病、高血压患者的住院率分别为 20%,50%和40%,计算结果如下:
高血压 + – 合计
肝癌 104 160 264
糖尿病 140 400 540
合计 244 560 804
OR=ad/bc=104 ×400/160 ×140=1.86
说明两者有联系
社会阶层与颈椎病 假定某人群中有6000人患颈椎病, 6000人患冠心病,并且在患这两种疾病的 人中各有20%的人属于上等社会阶层。 这两种疾病的病人社会阶层情况: 1.患冠心病并属上等阶层:1200人 2.患颈椎病并属上等阶层:1200人 3.患冠心病不属上等阶层:4800人 2.患颈椎病不属上等阶层:4800人
分析性结果的样本变异性
研究A(研究对象 200 人,随机分配到两组) 研究 A(研究对象 200 人,随机分配到两组)
膳食改良组 膳食改良组 降胆固醇药物组 降低胆固醇药物组 0 5 10 15
五年内发生 心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组) 膳食改良组 膳食改良组 降胆固醇药物组 降低胆固醇药物组 0 5 10 15
第十章 临床科研中常见的偏倚及防 治方法
研究结果的变异性
个体水平的变异性 群体水平的变异性 样本水平的变异性
概 述
变异性(variability) 研究结果包括描述性和分析性数据(指标)的变
动或波动。
表 8-1 变异性的水平和来源 变异性水平 变异的来源 个体 个体生物学变异,测量误差 群体 个体间遗传学变异,环境变异,测量误差 样本(研究) 抽样方式,样本大小,测量误差
解决办法:不同类型 的多家医院
入院病人
入院率不同的原因
特别是用住院病人进行研究时,很容易产 生这种偏倚,主要是因为住院病人作为研究对 象时可能没有包括: (1)抢救不及时而死亡的病例 (2)距离医院远的病例 (3)无钱住院的病例 (4)病情轻的病例 (5)此外不同医院的技术专长、专业水平也会 造成不同疾病在不同的医院的就诊断或住院率 的差别。
社会地位 病例组(颈椎病) 对照组(冠心病) 上等阶层 1200 1200 非上等阶层 4800 4800 合计 6000 6000
OR=1200×4800/1200×4800=1
χ2=1 , P>0.05
合计 2400 9600 12000
又假定患冠心病者入院率为60%,颈椎病为 25%,上等阶层者因接受保健检查的入院率 为40%。那么实际入院人数为: 1.患冠心病并属上等阶层:共1200人, 正常入院:1200×60%=720人 接受保健检查入院:480×40%=192人 实际入院人数:720+192=912人 2.患冠心病不属上等阶层:共4800人 正常入院:4800×60%=2880 实际入院人数: 2880
五年内发生 心肌梗死风险(%)
图 8-2 膳食与药物预防心机梗死的样本变异性示例
如图8-2,研究A和B中膳食改良组五年内发生心机梗 死的风险为9%,而降胆固醇药物组为6%。
研究A样本较小(200人),两组效应指标(心肌梗死
风险)的95%可信限较大,发生重叠,无显著性差异。
研究B样本较大(2000人),两组效应指标(心肌梗
以医院中心肌梗死病人为病例进行 病例对照研究,得到结论:大量饮用咖 啡与心肌梗死无关。 而队列研究表明:大量饮用咖啡者 心肌梗死发病危险性是对照的2倍。 原因: Neyman bias 50%的心肌梗死患者入院前死亡。调查 对象只是心肌梗死后的幸存者; 死亡者多是大量饮用咖啡者且时间较长; 入院的未死亡病例只是一般的饮用者;
现患-新发病例偏倚 (prevalenceincidence bias) / Neyman偏倚
☻ 入选的为现患或存活病例 ☻ 不包括死亡病例、病程短 的病例
解决办法:新发病例
例如:Friedman等人在美国弗明汉地区对胆固醇与冠 心病的关系中发现,男性居民在队列研究和病例对 照研究中RR和OR分别为2.4和1.16,
例如:在一般人群和住院病人中研究骨和运动器官疾 病与呼吸道疾病之间的关系。
呼吸道 疾病
+ – 合计 OR
一般人群 + – 17 207 184 2376 201 2583 1.06
合计 224 2560 2784
住院病人 + – 合计 5 15 20 18 219 237 23 234 257 4.06
死风险)的95%CI较小,未发生重叠,有显著性差异。
样本越大,效应估计值的抽样误差越小(95% 可信限越小),统计检验能发现的两组间效应差值 越小。 样本非常大,两组间差异很小的效应值也会有
统计学显著差异,但这很少有生物学或临床意义。
研究的真实性 概
真实性(效度)
述
定义 指研究收集的数据、分析结果和所得结论
RR=1 Null value
RR>1
三.机遇 机遇是观察结果的精确性和可重复性受到影 响。机遇是一种随机误差,它是各测量结果 间受机会影响的变异度的大小,是任何观察 所固有的。 机遇对研究结果的影响具体表现在假阳性和 假阴 性上。例如评价两种疗法。
常见偏倚 选择偏倚 (selection bias) 信息偏倚 (information bias)
例:以糖尿病为对照研究肝癌与高血压的关系,假如人群中 糖尿病和肝癌患者各1000人,两种病人暴露于高血压者各 200人,暴露率为20%,计算结果如下:
高血压 + – 合计
肝癌 200 800 1000
糖尿病 200 800 1000
合计 400 1600 2000
OR=ad/bc=200×800/200 ×800=1 说明肝癌的发生与高血压无关
原因:冠心病病人在确诊后,改变了原来的生活习惯 或嗜好,从而使血中胆固醇水平降低或与正常人相 比血中胆固醇水平增长速度较慢所致。
血胆固醇与冠心病的关系 队列研究 病例对照研究 胆固醇 水平 病例 对照 合计 病例 对照 合计 >75 85 462 547 38 34 72 <75 116 1511 1627 113 117 230 合计 201 1973 2174 151 151 302 RR=2.40 OR=1.16
变异的来源分为两个层次
生物学(真实)变异和测量变异 生物学变异 真实的客观变异
测量变异 测量过程的误差
随机变异和系统变异
随机变异 绝对值和方向交错变化,正态分布
系统变异 绝对值和方向保持恒定
个体水平的变异性
某个体特征测得值的变化,是个体真值随时间的改变, 或是由于测量误差引起的变化。
表 8-2 个体水平测得值的变异来源 变异来源 特 点 个体状态 日间变异,年龄、膳食或运动改变,环境因素(季节、 温度等) 测量误差 仪器标度差,仪器精密度差,仪器读数或记录错误
3.患颈椎病并属上等阶层:共1200人, 正常入院:1200×25%=300人 接受保健检查入院:900×40%=360人 实际入院人数:300+360=660人 4.患颈椎病不属上等阶层:共4800人 正常入院:4800×25%=1200 实际入院人数:1200
颈椎病与社会地位的关系:
社会地位 上等阶层 非上等阶层 合计