研究的真实性及因果推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研究对象在回忆以往发生的事件或 经历时,由于记忆失真或不完整在准确 性和完整性上的差异所致的系统误差
报告偏倚(reporting bias)
研究对象的有意做假所造成,即有意 的夸大或缩小某些信息而导致的偏倚, 亦被称作说谎偏倚
测量偏倚(detection bias)
实验过程中由于实验的仪器和试剂 质量及操作人员的操作误差造成的偏倚 称为测量偏倚,又叫检出偏倚
心肌梗死 对 照
心肌梗死 对 照
OR= (60╳60)/(40╳40)=2.3
OR= (48╳68)/(52╳32)=2.0 差异性错误分类
研究真实数据 高脂肪 膳食 60 40 低脂肪 膳食 40 60
错误分类数据 高脂肪膳 食 60 32 低脂肪 膳食 40 68
Байду номын сангаас
心肌梗死 对 照
心肌梗死 对 照
控制方法
明确资料收集方法和严格质量控制 尽可能采用盲法
采用客观指标的信息
采用调查技巧避免回忆偏倚 资料校正
三 混杂偏倚(confounding bias)
bias, Neyman bias)
又称奈曼偏倚,凡因现患病例与新病例的 构成不同,只调查典型病例或者现患病例的暴 露情况,致使调查结果出现的系统误差都属于 本类误差。
表
呼吸道疾病和骨骼运动系统疾病的关系
一般 人群 骨骼运动 系统疾病 有 呼吸道 疾病 合计 OR 有 无 17(a) 184(c) 201 无 207(b) 2376(d) 2583 1.06 合计 224 2560 2784
选择偏倚控制方法
了解整个研究中可能出现的选择偏倚(选 择偏倚一旦发生,再消除或校正其影响非 常困难。)
严格掌握研究对象纳入排除标准
注意选择研究对象的代表性
随机抽样
取得研究对象合作,减少无应答、失访
多种对照
二 信息偏倚(information bias)
又称观察偏倚(observational bias)或测量偏 倚(measurement bias),是指在研究实施阶 段从研究对象获取研究所需信息时所产生的系 统误差。 信息偏倚的表现是使研究对象的某种特征被错 误分类,也称为错误分类偏倚 (misclassification bias)。 –无差异性(非特异性)错误分类 –差异性(特异性)错误分类。
一 个体水平的变异性 定义
某个体特征测得值的变化,可以是个体真 值随时间的改变,也可以是由于测量误差引 起的变化
来源
变异来源 个体状态 测量误差 特 点
日间变异,年龄、膳食或运动改变,环境因 素(季节、温度等) 仪器标度差,仪器精密度差,仪器读数或记 录错误
二 群体水平的变异性 来源 个体间遗传变异 环境变异 测量误差 特点 变异程度常常大于个体的变异 也受到测量误差的影响 可确定“正常值”范围
外部真实性(external validity) 研究结果与推论对象真实情况的 符合程度,又称普遍性,回答一个 研究能否推广应用到研究对象以外 的人群
内部真实性与外部真实性的联系
推论代表性不好,内部真实性可能好,
而外部真实性差 增加研究对象的同质性(如限制类型如 年龄、职业、体质特征或疾病分型等), 可改善内部真实性 增加研究对象的异质性,可改善外部真 实性 在实际研究需综合考虑研究对象的同质 性和异质性问题
---Special News Report Science Vol. 269, 14 July 1995
误差(error)
定义
指对事物某一特征的度量值偏离真实 值的部分,即测定值与真实值之差 分类 随机误差(random error) 系统误差(systematic error,偏倚)
系统误差和随机误差的关系
引言
研究的解说涉及到研究的真实性与因果
推断的问题。研究的真实性直接关系到 是否获得正确的结论,而真实性需要通 过变异性估计来确定。 对于因果关系的研究,从研究结果如何 做出正确的因果推断,也是非常重要的。
第一部分 研究的误差和偏倚 一 研究的真实性
真实性(validity,有效性,效度)
表
绝经期妇女服用雌激素和子宫内膜癌的关系, 同一医院的两个研究
以出血怀疑肿瘤 就诊病例 子宫内膜癌 有 服用 雌激素 合计 OR 有 无 45 72 117 无 7 110 117 9.8 合计 52 182 234
刮宫或子宫切 除证实病例 子宫内膜癌 有 59 89 148 无 42 106 148 1.7 合计 101 195 296
真实性的概念
研究收集的数据、分析结果和所得结论 与客观实际的符合程度
真实性和可靠性(reliability)
真实性的两个方面
内部真实性(internal validity) 外部真实性(external validity)
内部真实性(internal validity)
概念
研究结果与实际研究对象真实情况的符 合程度,回答一个研究本身是否真实或 有效 改善措施 限制研究对象类型 限定研究的环境条件 限定干预措施
检出征候偏倚(detection signal bias) 在疾病和暴露之外存在一个征候因素, 即一种临床症状或体征;这种症状或体 征不是疾病的危险因素,但人们因具有 这种征候去就诊,从而提高了早期病例 的检出率;致使过高地估计了暴露程度, 因而发生了系统误差,最终可能得出该 征候因素与该疾病有联系的错误结论
时间效应偏倚(time effect bias) 许多慢性病(如恶性肿瘤、冠心病) 自接触有效暴露(内、外环境的危险因 素)之日起至出现临床症状止,其间经 过一段漫长的潜隐过程;在此期间他们 实际上是有暴露史但未出现症状,用现 有检测手段未能发现有症状的病人;但 由于无明显的症状,因此常被错误地归 入健康对照组内。
研究的真实性 与因果推断
Study Validity and Causal Inference
主要内容
第一部分 研究的误差和偏倚 一 研究的真实性 二 研究结果的变异性 三 研究的误差和偏倚 第二部分 病因研究和因果关系的推断 一 流行病学的病因和病因模型 二 病因研究步骤 三 因果推断的逻辑方法 四 关联和因果关联
真实性的反面(研究误差)
概念
研究结果与客观实际存在不符合的地方 分类 随机误差 系统误差(偏倚)
二 研究结果的变异性
变异性:
描述性和分析性数据(指标) 的变动或波动
表1 变异性的水平
变异性水平 个体 群体 样本(研究) 变异的来源 个体生物学变异、测量误差 个体间遗传学变异、环境变异、 测量误差 抽样方式、样本大小、测量误差
曾住院六个 月以上者 骨骼运动 系统疾病 有 5(a) 18(c) 23 无 15(b) 219(d) 234 4.06 合计 20 237 257
无应答偏倚 ( non-respondent bias) 调查研究中那些因各种原因不回答或不 能回答所提出问题的人、不依研究设计 接受治疗者人称为无应答者。
随机误差(random error) 广义
因机遇不同估计总体参数时所产生的误差, 如选择的机遇、时间的机遇 狭义 随机抽样所得均值对总体均值的误差 特点 没有固定方向和固定大小 一般呈正态分布
偏倚(Bias) 定义
属于系统误差(systematic error), 在研究或推论过程中所获得的结果系统 地偏离其真实值 特点 具有单方向性 可高于真值,也可低于真值
入院率偏倚 现患-新发病例偏倚 无应答偏倚 检出征候偏倚 时间效应偏倚 排除偏倚 志愿者偏倚
入院率偏倚(admission rate bias, Berkson bias)
利用医院就诊或住院病人作为研究对象时, 由于入院率或就诊机会不同而导致的偏差。
现患-新发病例偏倚 ( prevalence-incidence
样本B
295,146,220,162,228
=20%
样本C
219,164,190,188,233
高胆固醇率 = 25% (>240mg/dL)
=0%
图1 源群体与样本高胆固醇率的样本变异性示例
源群体高胆固醇率为25%,样本A为40%,样本B为 20%,样本C为0%。如果增大样本含量,样本的变异性 会减少,样本的高胆固醇率对群体的代表性会增大
暴露怀疑偏倚(exposure suspicion bias)
研究者在收集并确定病例组的暴露 比例时所具有的认真、细致、深入程度 同对照组相比有重大的系统差别
错误分类(归类)偏倚 (misclassification bias)
每项病症所用的客观诊断试验或测定仪
器都有一定的灵敏度和特异度,而不可 能是100%,于是就会产生一定的假阳性 和假阴性错误即误诊和漏诊这就发生了 错分,即本应是病人,错将他分入了对 照组,而本应是健康者,错将其分入了 病例组
OR= (60╳60)/(40╳40)=2.3
OR= (60╳68)/(40╳32)=3.2
3 无差异性错误分类和差异性错误分类的示例 图 4 无差异性错误分类和差异性错误分类的示例
信息偏倚常见种类
回忆偏倚 报告偏倚 测量偏倚 调查者偏倚
暴露怀疑偏倚 诊断怀疑偏倚
错误分类偏倚
回忆偏倚(recalling bias)
两种错误分类
无差异性错误分类
暴露或疾病的错误分类同研究分组无关, 各比较组间不存在差异;在多数情况下 模糊了研究组的差异,使OR偏低 差异性错误分类 暴露或疾病的错误分类同研究分组有关, 各比较组间存在差异;造成高估或低估 效应值
无差异性错误分类
研究真实数据 高脂肪 膳食 60 40 低脂肪 膳食 40 60 错误分类数据 高脂肪膳 食 48 32 低脂肪 膳食 52 68
研究 A(研究对象 200 人,随机分配到两组) 膳食改良组 降胆固醇药物组
0
5
10
15
五年内发生 心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组) 膳食改良组 降胆固醇药物组
0
5
10
15
五年内发生 心肌梗死风险(%)
图2
膳食与药物预防心机梗死的样本变异性示例
图2,研究A和研究B中膳食改良组五年 内发生心梗死的风险为9%,降胆固醇药 物组为6% A样本较小(200人),两组效应指标 (心肌梗死风险)的95%可信限较大, 从而发生重叠,统计检验差异无统计学 意义 研究B样本较大(2000人),两组效应 指标的95%可信限较小,从而未发生重 叠,统计检验差异统计学意义
三 研究的误差和偏倚
Epidemiology Faces Its Limits?
The search for subtle links between diet, lifestyle, or environmental factors and disease is an unending source of fear---but often yields little certainty
排除偏倚(exclusive bias)
研究者在设计时除规定研究对象诊断标准、 纳入标准外,还应规定哪些个体不能选作研究 对象,即规定排除标准,这些标准在实施期间 不得更改
志愿者偏倚 (volunteer bias)
志愿参加观察的研究者同非志愿者在关心 健康、注意饮食卫生及营养食疗、禁烟禁酒、 坚持锻炼等方面有差异,因志愿者常被入选为 观察对象,而非志愿者常被落选,故这样的观 察或研究结果肯定有选择偏倚
偏倚的分类
选择偏倚(selection
bias) 信息偏倚(information bias) 混杂偏倚(confounding bias)
一 选择偏倚( selection bias ) 研究者在挑选研究人群时由于选 择条件受限制或设计失误所致的系 统误差
常见种类 控制方法
选择偏倚的常见种类
三 样本水平的变异性
定义
不同样本的研究所得结果的差异性
来源
抽样方式 样本大小 测量误差
分类
描述性结果的样本变异性(图1) 分析性结果的样本变异性(图2)
源群体
180 ,174,215,305
样本A
205,276,195,215,170
高胆固醇率
= 40%
233,276,146,195
205,188,190,295 170,164,248,162 220,219,228,250
报告偏倚(reporting bias)
研究对象的有意做假所造成,即有意 的夸大或缩小某些信息而导致的偏倚, 亦被称作说谎偏倚
测量偏倚(detection bias)
实验过程中由于实验的仪器和试剂 质量及操作人员的操作误差造成的偏倚 称为测量偏倚,又叫检出偏倚
心肌梗死 对 照
心肌梗死 对 照
OR= (60╳60)/(40╳40)=2.3
OR= (48╳68)/(52╳32)=2.0 差异性错误分类
研究真实数据 高脂肪 膳食 60 40 低脂肪 膳食 40 60
错误分类数据 高脂肪膳 食 60 32 低脂肪 膳食 40 68
Байду номын сангаас
心肌梗死 对 照
心肌梗死 对 照
控制方法
明确资料收集方法和严格质量控制 尽可能采用盲法
采用客观指标的信息
采用调查技巧避免回忆偏倚 资料校正
三 混杂偏倚(confounding bias)
bias, Neyman bias)
又称奈曼偏倚,凡因现患病例与新病例的 构成不同,只调查典型病例或者现患病例的暴 露情况,致使调查结果出现的系统误差都属于 本类误差。
表
呼吸道疾病和骨骼运动系统疾病的关系
一般 人群 骨骼运动 系统疾病 有 呼吸道 疾病 合计 OR 有 无 17(a) 184(c) 201 无 207(b) 2376(d) 2583 1.06 合计 224 2560 2784
选择偏倚控制方法
了解整个研究中可能出现的选择偏倚(选 择偏倚一旦发生,再消除或校正其影响非 常困难。)
严格掌握研究对象纳入排除标准
注意选择研究对象的代表性
随机抽样
取得研究对象合作,减少无应答、失访
多种对照
二 信息偏倚(information bias)
又称观察偏倚(observational bias)或测量偏 倚(measurement bias),是指在研究实施阶 段从研究对象获取研究所需信息时所产生的系 统误差。 信息偏倚的表现是使研究对象的某种特征被错 误分类,也称为错误分类偏倚 (misclassification bias)。 –无差异性(非特异性)错误分类 –差异性(特异性)错误分类。
一 个体水平的变异性 定义
某个体特征测得值的变化,可以是个体真 值随时间的改变,也可以是由于测量误差引 起的变化
来源
变异来源 个体状态 测量误差 特 点
日间变异,年龄、膳食或运动改变,环境因 素(季节、温度等) 仪器标度差,仪器精密度差,仪器读数或记 录错误
二 群体水平的变异性 来源 个体间遗传变异 环境变异 测量误差 特点 变异程度常常大于个体的变异 也受到测量误差的影响 可确定“正常值”范围
外部真实性(external validity) 研究结果与推论对象真实情况的 符合程度,又称普遍性,回答一个 研究能否推广应用到研究对象以外 的人群
内部真实性与外部真实性的联系
推论代表性不好,内部真实性可能好,
而外部真实性差 增加研究对象的同质性(如限制类型如 年龄、职业、体质特征或疾病分型等), 可改善内部真实性 增加研究对象的异质性,可改善外部真 实性 在实际研究需综合考虑研究对象的同质 性和异质性问题
---Special News Report Science Vol. 269, 14 July 1995
误差(error)
定义
指对事物某一特征的度量值偏离真实 值的部分,即测定值与真实值之差 分类 随机误差(random error) 系统误差(systematic error,偏倚)
系统误差和随机误差的关系
引言
研究的解说涉及到研究的真实性与因果
推断的问题。研究的真实性直接关系到 是否获得正确的结论,而真实性需要通 过变异性估计来确定。 对于因果关系的研究,从研究结果如何 做出正确的因果推断,也是非常重要的。
第一部分 研究的误差和偏倚 一 研究的真实性
真实性(validity,有效性,效度)
表
绝经期妇女服用雌激素和子宫内膜癌的关系, 同一医院的两个研究
以出血怀疑肿瘤 就诊病例 子宫内膜癌 有 服用 雌激素 合计 OR 有 无 45 72 117 无 7 110 117 9.8 合计 52 182 234
刮宫或子宫切 除证实病例 子宫内膜癌 有 59 89 148 无 42 106 148 1.7 合计 101 195 296
真实性的概念
研究收集的数据、分析结果和所得结论 与客观实际的符合程度
真实性和可靠性(reliability)
真实性的两个方面
内部真实性(internal validity) 外部真实性(external validity)
内部真实性(internal validity)
概念
研究结果与实际研究对象真实情况的符 合程度,回答一个研究本身是否真实或 有效 改善措施 限制研究对象类型 限定研究的环境条件 限定干预措施
检出征候偏倚(detection signal bias) 在疾病和暴露之外存在一个征候因素, 即一种临床症状或体征;这种症状或体 征不是疾病的危险因素,但人们因具有 这种征候去就诊,从而提高了早期病例 的检出率;致使过高地估计了暴露程度, 因而发生了系统误差,最终可能得出该 征候因素与该疾病有联系的错误结论
时间效应偏倚(time effect bias) 许多慢性病(如恶性肿瘤、冠心病) 自接触有效暴露(内、外环境的危险因 素)之日起至出现临床症状止,其间经 过一段漫长的潜隐过程;在此期间他们 实际上是有暴露史但未出现症状,用现 有检测手段未能发现有症状的病人;但 由于无明显的症状,因此常被错误地归 入健康对照组内。
研究的真实性 与因果推断
Study Validity and Causal Inference
主要内容
第一部分 研究的误差和偏倚 一 研究的真实性 二 研究结果的变异性 三 研究的误差和偏倚 第二部分 病因研究和因果关系的推断 一 流行病学的病因和病因模型 二 病因研究步骤 三 因果推断的逻辑方法 四 关联和因果关联
真实性的反面(研究误差)
概念
研究结果与客观实际存在不符合的地方 分类 随机误差 系统误差(偏倚)
二 研究结果的变异性
变异性:
描述性和分析性数据(指标) 的变动或波动
表1 变异性的水平
变异性水平 个体 群体 样本(研究) 变异的来源 个体生物学变异、测量误差 个体间遗传学变异、环境变异、 测量误差 抽样方式、样本大小、测量误差
曾住院六个 月以上者 骨骼运动 系统疾病 有 5(a) 18(c) 23 无 15(b) 219(d) 234 4.06 合计 20 237 257
无应答偏倚 ( non-respondent bias) 调查研究中那些因各种原因不回答或不 能回答所提出问题的人、不依研究设计 接受治疗者人称为无应答者。
随机误差(random error) 广义
因机遇不同估计总体参数时所产生的误差, 如选择的机遇、时间的机遇 狭义 随机抽样所得均值对总体均值的误差 特点 没有固定方向和固定大小 一般呈正态分布
偏倚(Bias) 定义
属于系统误差(systematic error), 在研究或推论过程中所获得的结果系统 地偏离其真实值 特点 具有单方向性 可高于真值,也可低于真值
入院率偏倚 现患-新发病例偏倚 无应答偏倚 检出征候偏倚 时间效应偏倚 排除偏倚 志愿者偏倚
入院率偏倚(admission rate bias, Berkson bias)
利用医院就诊或住院病人作为研究对象时, 由于入院率或就诊机会不同而导致的偏差。
现患-新发病例偏倚 ( prevalence-incidence
样本B
295,146,220,162,228
=20%
样本C
219,164,190,188,233
高胆固醇率 = 25% (>240mg/dL)
=0%
图1 源群体与样本高胆固醇率的样本变异性示例
源群体高胆固醇率为25%,样本A为40%,样本B为 20%,样本C为0%。如果增大样本含量,样本的变异性 会减少,样本的高胆固醇率对群体的代表性会增大
暴露怀疑偏倚(exposure suspicion bias)
研究者在收集并确定病例组的暴露 比例时所具有的认真、细致、深入程度 同对照组相比有重大的系统差别
错误分类(归类)偏倚 (misclassification bias)
每项病症所用的客观诊断试验或测定仪
器都有一定的灵敏度和特异度,而不可 能是100%,于是就会产生一定的假阳性 和假阴性错误即误诊和漏诊这就发生了 错分,即本应是病人,错将他分入了对 照组,而本应是健康者,错将其分入了 病例组
OR= (60╳60)/(40╳40)=2.3
OR= (60╳68)/(40╳32)=3.2
3 无差异性错误分类和差异性错误分类的示例 图 4 无差异性错误分类和差异性错误分类的示例
信息偏倚常见种类
回忆偏倚 报告偏倚 测量偏倚 调查者偏倚
暴露怀疑偏倚 诊断怀疑偏倚
错误分类偏倚
回忆偏倚(recalling bias)
两种错误分类
无差异性错误分类
暴露或疾病的错误分类同研究分组无关, 各比较组间不存在差异;在多数情况下 模糊了研究组的差异,使OR偏低 差异性错误分类 暴露或疾病的错误分类同研究分组有关, 各比较组间存在差异;造成高估或低估 效应值
无差异性错误分类
研究真实数据 高脂肪 膳食 60 40 低脂肪 膳食 40 60 错误分类数据 高脂肪膳 食 48 32 低脂肪 膳食 52 68
研究 A(研究对象 200 人,随机分配到两组) 膳食改良组 降胆固醇药物组
0
5
10
15
五年内发生 心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组) 膳食改良组 降胆固醇药物组
0
5
10
15
五年内发生 心肌梗死风险(%)
图2
膳食与药物预防心机梗死的样本变异性示例
图2,研究A和研究B中膳食改良组五年 内发生心梗死的风险为9%,降胆固醇药 物组为6% A样本较小(200人),两组效应指标 (心肌梗死风险)的95%可信限较大, 从而发生重叠,统计检验差异无统计学 意义 研究B样本较大(2000人),两组效应 指标的95%可信限较小,从而未发生重 叠,统计检验差异统计学意义
三 研究的误差和偏倚
Epidemiology Faces Its Limits?
The search for subtle links between diet, lifestyle, or environmental factors and disease is an unending source of fear---but often yields little certainty
排除偏倚(exclusive bias)
研究者在设计时除规定研究对象诊断标准、 纳入标准外,还应规定哪些个体不能选作研究 对象,即规定排除标准,这些标准在实施期间 不得更改
志愿者偏倚 (volunteer bias)
志愿参加观察的研究者同非志愿者在关心 健康、注意饮食卫生及营养食疗、禁烟禁酒、 坚持锻炼等方面有差异,因志愿者常被入选为 观察对象,而非志愿者常被落选,故这样的观 察或研究结果肯定有选择偏倚
偏倚的分类
选择偏倚(selection
bias) 信息偏倚(information bias) 混杂偏倚(confounding bias)
一 选择偏倚( selection bias ) 研究者在挑选研究人群时由于选 择条件受限制或设计失误所致的系 统误差
常见种类 控制方法
选择偏倚的常见种类
三 样本水平的变异性
定义
不同样本的研究所得结果的差异性
来源
抽样方式 样本大小 测量误差
分类
描述性结果的样本变异性(图1) 分析性结果的样本变异性(图2)
源群体
180 ,174,215,305
样本A
205,276,195,215,170
高胆固醇率
= 40%
233,276,146,195
205,188,190,295 170,164,248,162 220,219,228,250