真实性与偏倚
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变异性
描述性和分析性数据(指标)的变动 或波动
表1 变异性的水平
变异性水平 个体 变异的来源 个体生物学变异、测量误差
群体 样本(研究)
个体间遗传学变异、环境变异、测量误差 抽样方式、样本大小、测量误差
一 个体水平的变异性
定义
某个体特征测得值的变化,可以是个体真 值随时间的改变,也可以是由于测量误差引起 的变化
0
5
10
15
五年内发生 心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组) 膳食改良组 降胆固醇药物组
0
5
10
15
五年内发生 心肌梗死风险(%)
图2
膳食与药物预防心机梗死的样本变异性示例
图2,研究A和研究B中膳食改良组五年内发生 心梗死的风险为9%,降胆固醇药物组为6% A样本较小(200人),两组效应指标(心肌梗 死风险)的95%可信限较大,从而发生重叠, 统计检验无显著性差异 研究B样本较大(2000人),两组效应指标的 95%可信限较小,从而未发生重叠,统计检验 有显著性差异 一般而言,研究样本越大,效应估计值的抽样 误差越小(95%可信限越小),统计检验能发 现的两组间效应差值越小
真实性的反面(研究误差)
概念 研究结果与客观实际存在不符合的地方 分类 系统误差 随机误差
一 内部真实性(internal validity)
定义 研究结果与实际研究对象真实情况的符合程 度,回答一个研究本身是否真实或有效 改善措施 限制研究对象类型 限定研究的环境条件 限定干预措施
来源
个体状态 测量误差
表2 个体水平的变异来源
变异来源 个体状态
特
点
日间变异, 年龄、 膳食或运动改变, 环境因素 (季节、 温度等)
测量误差
仪器标度差,仪器精密度差,仪器读数或记录错误
二 群体水平的变异性 来源 个体间遗传变异 环境变异 测量误差 特点 变异程度常常大于个体的变异 也受到测量误差的影响 可确定“正常值”范围
三 样本水平的变异性
定义
不同样本的研究所得结果的差异性
来源
抽样方式 样本大小 测量误差
分类
描述性结果的样本变异性(图1) 分析性结果的样本变异性(图2)
样本水平的变异性
通过不同样本研究所得结果的差异性 为什么高水平的血清总胆固醇是不利的或 不健康的?
这可以在关于血清总胆固醇与心血管死亡
风险呈正相关的研究中找到答案。 如Framingham心脏研究。
OR= (60╳60)/(40╳40)=2.3
研究真实数据 研究真实数据
OR= (48╳68)/(52╳32)=2.0 差异性错误分类 差异性错误分类
错误分类数据 错误分类数据
心肌梗死 对 照
高脂肪 膳食 60 40
低脂肪 膳食 40 60
心肌梗死 对 照
高脂肪膳 食 60 32
低脂肪 膳食 40 68
源群体
180 ,174,215,305
样本A
305,276,195,215,170
高胆固醇率
= 40%
233,276,146,195
205,188,190,295 170,164,248,162 220,219,228,250
样本B
295,146,220,162,228
=20%
样本C
219,164,190,188,233
来自于被调查者
来自于调查者
来自于测量仪器
控制方法
明确资料收集方法和严格质量控制 尽可能采用盲法 采用客观指标的信息 采用调查技巧避免回忆偏倚 资料校正
三 混杂偏倚
暴露因素与疾病发生的相关(关联)程度受
到其他因素的歪曲或干扰
判定方法
专业知识
分层分析进行定量判别
继发关联(secondary association)
误差
定义
指对事物某一特征的度量值偏离真实 值的部分,即测定值与真实值之差 分类 随机误差 系统误差(偏倚)
举例:用动脉血压计测量某人血压(实际值为 80mmHg),各次读数的均值为100mmHg,系统 误差和随机误差可用以下图示
发 生 频 次
系统误差
随机误差
80
100
舒张压 (mmHg)
暴露或处理因素存在关联,由此增大或减少暴露与疾病、 处理与效应的关联,导致效应估计的偏倚。 控制方法 分析研究对象的选取是否同暴露或处理因素有关
常见选择偏倚 入院偏倚
失访偏倚
志愿者偏倚
确定有无选择偏倚的关键
把握选取环节或已入选对象,是否存在人为
增大或减少研究因素与结局的关联程度
控制方法
严密掌握对象选取的各个环节,注意选取对
二 外部真实性(external validity) 研究结果与推论对象真实情况的 符合程度,又称普遍性,回答一个 研究能否推广应用到研究对象以外 的人群
内部真实性与外部真实性的联系
推论代表性不好,内部真实性可能好, 而外部真实性差 增加研究对象的同质性(如限制类型如 年龄、职业、体质特征或疾病分型等), 可改善内部真实性 增加研究对象的异质性,可改善外部真 实性
1976 年,Miettinen 详细讨论了偏倚的定义,
并给出分类框架,分三类 选择偏倚 信息偏倚 混杂偏倚
偏倚 定义
属于系统误差,在研究或推论过程 中所获得的结果系统地偏离其真实值 特点 具有单方向性 可高于真值,也可低于真值 分类 选择偏倚、信息偏倚、混杂偏倚
一 选择偏倚 ( selection bias ) 研究者在挑选研究人群时由 于选择条件受限制或设计失误所 致的系统误差 常见种类 控制方法
图3 血压计法测量舒张压值的分布
随机误差 广义
因机遇不同估计总体参数时所产生的误差, 如选择的机遇、时间的机遇 狭义 随机抽样所得均值对总体均值的误差 特点 没有固定方向和固定大小 一般呈正态分布
误差
误差=√随机误差2+系统误差2
1946年,Berkson做最著名的偏倚研究并 给予证实,又称为Berkson偏倚。
象的代表性,增加应答和减少失访等
选择偏倚的控制
随机选择研究对象; 选择多种对照; 明确规定纳入和排除标准; 选择依从性高的对象,掌握调源自文库技巧; 延长收集病例的时间; 尽量采用敏感的疾病早期检查技术,或 者开展观察期较长的纵向调查;
二 信息偏倚(information bias)
在收集和整理有关暴露或疾病资料时所 出现的系统误差,主要发生在观察、收集资料 及测量等实施阶段。
?
图A
F
?
图B
D
D
混杂偏倚
例如 静脉吸毒E与性乱F都是HIV感染D的 危险因素,吸毒者易发生多性伴行为, 即吸毒同HIV感染既存在直接关联(E→D) 又存在间接关联(E→F→D),吸毒与多 性伴没有确定的时间先后而呈双向相关, 多性伴F将对吸毒E与HIV感染D的直接因 果关联起混杂或歪曲作用。
混杂偏倚
定义 是一种纯粹由混杂偏倚产生的关联 即怀疑的病因(暴露)E与疾病D并不存在 因果关系,而是由于两者(E,D)有共同的原因 C,E,D同C存在关联,从而继发产生E与D的关联。 E
C
?
D
例如 高血清胆固醇是冠心病的危险因素,高血 清胆固醇可产生沉积于眼睑的黄色瘤,从而导致
黄色瘤与冠心病的继发关联。另外,E与C也可以
在实际研究时,需要综合平衡考虑 研究对象的同质性和异质性问题
由于相关(因果方向不明)而产生继发关联。 例如 吸烟是胰腺癌的危险因素,吸烟又与喝咖 啡存在相关(没有确定的时间先后),从而造成 喝咖啡与胰腺癌的继发关联。
直接因果关联的歪曲 如果怀疑病因E与疾病D既存在直接关联,又存 在间接关联(图A)或与其他危险(保护)因素F存在 相关(图B),暴露E与疾病D的直接因果关联程度或 方向将可能受到混杂干扰,即得到歪曲的关联估计 值。 E E F
OR= (60╳60)/(40╳40)=2.3
OR= (60╳68)/(40╳32)=3.2
表 图 8-3 无差异性错误分类和差异性错误分类的示例
信息偏倚常见的种类
差异性信息偏倚的常见类型
不应答偏倚 回忆偏倚 报告偏倚(说谎偏倚) 社会期望偏倚 诊断怀疑偏倚 暴露怀疑偏倚 测量偏倚
描述性研究的选择偏倚
主要体现在样本对总体的代表性上 如不是采用随机抽样而是使用方便样本,或某些 特定群体(志愿者、因特网利用者等)造成的外部效 度(外推)受限问题。 控制方法
尽量采用随机抽样,避免样本选取的偏向
对特定群体的结果在外推上要谨慎等
分析性研究的选择偏倚
主要体现 研究对象进入、排除、不参与或失访等与研究
E C D
(1)继发关联
E ? F D
(2)直接因果关联的歪曲
E ? F ? D
(3)直接因果关联的歪曲
图 8-4 混杂偏倚引起假关联
调控方法
分层分析 多变量分析
配比
随机化分配
限制进入
真实性(validity) 定义
研究收集的数据、分析结果和所得结 论与客观实际的符合程度 两个方面 内部真实性 外部真实性
研究结果的真实性与偏倚
主要内容
研究结果的变异性 研究的偏倚 研究的真实性
引言
研究结果的解说涉及到研究的真实性与 因果推断的问题。研究结果的真实性直 接关系到是否获得正确的结论,而真实 性需要通过变异性估计来确定 对于因果关系的研究,从研究结果如何 做出正确的因果推断,也是非常重要的
研究结果的变异性
高胆固醇率 = 25% (>240mg/dL)
=0%
图1 源群体与样本高胆固醇率的样本变异性示例
源群体高胆固醇率为25%,样本A为40%,样本B为 20%,样本C为0%。如果增大样本含量,样本的变异性 会减少,样本的高胆固醇率对群体的代表性会增大
研究 A(研究对象 200 人,随机分配到两组) 膳食改良组 降胆固醇药物组
信息偏倚同样影响描述性研究和分析性
研究的结果。
无差异性错误分类和差异性错误分类
无差异性错误分类 无差异性错误分类 研究真实数据 研究真实数据
错误分类数据 错误分类数据 高脂肪膳 食 48 32 低脂肪 膳食 52 68
心肌梗死 对 照
高脂肪 膳食 60 40
低脂肪 膳食 40 60
心肌梗死 对 照