常见统计学错误
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5. 随机化,说而不做,做而不严
处理分配的随机化为什么这么重要? (1) 消除分配处理有意或无意的偏倚。 (2) 为实施盲法创造条件。 (3) 使得有可能利用概率论来说明:各干预组 之间的差异有多大可能仅仅是由偶然性 造 成的。
说错和做错 将随机化当作“廉价名词”,实际没做, 却写: “随机分成两组” —— 科研道德? 将“随意分组”当作随机化 将“机械分组”当作随机化 略去筛选过程,简单地报告将多少人随机分 组 略去实施过程中丢失对象,将最后两组人数 说成是随机分组人数
医学论文常见统计学错误与纠正
II. 分析与结果
8. 不考虑基线均衡与否
不首先考察基线是否均衡 不论基线均衡与否,一概使用单变量分析 方法: 2 比较百分比或均数: 检验;t 检验、非参 数检验 比较发生某事件的时间:Kaplan-Meier 方法
应当如何? 不论干预性研究还是观察性研究,数据分析 的第一步总是考察基线是否均衡,列表报告 若干预性研究许多变量基线不均衡 ---- 随机化失败! 若观察性研究多个变量基线不均衡,很自然! ---- 从设计入手,认真解决! 对付基线不均衡的统计学方法: (1) 分层 (2) 匹配 (3) 回归
翻译-逆翻译,文化调试,与原作者共同修 改、定稿; 收集现场数据,评价信度、效度和反应度
应当如何研制新量表? 查阅文献、专家咨询…… 确定概念框架,领域、方面…… 根据概念框架建立条目池 量表初稿 小规模试用、修改 收集现场调查数据 评价量表,信度、效度、反应度…… 修改、定稿
7. 量表的滥用
医学研究中,量表的应用日益广泛: 生存质量 (quality of life, QOL) 患者报告结局(patient report outcome, PRO) 美国FDA规定药品说明书必须有PRO内容。 国外已经研制了许多量表,可以借鉴; 有些课题国外还没有适宜的量表, 有待研制 国内许多医学研究也开始采用量表测量临床 疗效。
常见错误 1:没有对照! 千方百计省去对照组,以减少一半工作量!? 自身对照 历史对照 文献对照 “标准”对照
常见错误 2:对照不当 对照太弱:安慰剂对照 对照过强:西药+加中药 ~ 西药 对照剂量有争议: 试验药,大剂量 ~ 对照药,中小剂量 对照基线不可比: 试验组年轻、病轻 ~ 对照组年老、病重
错在哪里?
哪些指标可能有组间差异,必须心中有数。
假说:预计将要得到的结论 —— 假说是科研的灵魂 心中无数,不要“先上马再说” 指标多,实验工作量大。 大海捞针—— 碰运气,不是科研! 指标多,翻来覆去分析,制造假阳性! Nature杂志统计学指南:常见错误之一。
翻来覆去分析,会制造假阳性?!
(1) 简单匹配举例 巢式病例-对照研究
胰岛素治疗的2型糖尿病患者中胰岛素和 胰岛素类似物的剂量与癌症之间的关系
连续收集 1533例门 诊2型糖尿 病患者
排除193例 既往肿瘤病 史的患者
1340例2 型糖尿病患 者纳入研究
中位随访75.9月 [27.4;133.7 ]
Baidu Nhomakorabea
病例组 对照组
随访期间,共 112例患者诊断 新发肿瘤(发生 率为1.9/100人 年)
应当如何? ---- 报告最小样本量估算及其依据 2. 比较两组达标率 依据:
(1)预计一组发生某结局的百分比为 1 (2)预计另一组发生某结局的百分比为 2 (3)允许犯假阳性错误的机会 (4)允许犯假阴性错误的机会
例:格列美脲、 格列苯脲对比研究 以HbA1c达标为主要终点
(1)预计一组发生某结局的百分比为 45% (2)预计另一组发生某结局的百分比为 25% (3)允许犯假阳性错误的机会 5% (4)允许犯假阴性错误的机会 20% 计算: 176 例
常见错误 如何“盲”? 轻描淡写 为何没有“盲”?不加说明 普遍忽视盲法判定终点 终点判定委员会: 专人、专职; 盲法措施 盲法实施效果如何?缺乏评价
对 “盲法”的评价
“盲法”成功?何以见得? ---- 报告证据 “盲法”失败?---- 报告原因 例如,活性药和安慰剂外形差别等。 有人报告含锌止咳糖的安慰剂对照试验。 另请一批健康志愿者和被试者来识别含锌 止咳糖和安慰剂。结果 56% 接受含锌止咳 糖者和 26% 接受安慰剂接受能正确识别。 (副作用和临床疗效可能提供线索)
2. 结局指标多而杂
“primary outcome measure”是事先规定的最重要 的结局指标,通常以此为准来计算样本量。 “secondary outcome measure” 可以几个,但不宜 太多
常见错误:终点指标过多, 大海捞针
临床试验时,不知道哪个指标在组与组间有差异; “确定某个指标后,万一组间没有差异,岂不被 动!” 生理、生化、组织学、基因,都做; “内容丰富,显得水平高!” 许多仪器一下子可以做许多项目; “许多项目一一分析,哪个有意义,就报告哪个指 标!”
常见错误
只报告来源和时间段,总体不清晰:大杂 烩,得不到科学结论; 事前未规定合格标准和排除标准,事后排 除; 不报告按照合格标准和排除标准筛选对象 的过程。
应当如何? ---- 防止总体的异质性
在Kenyatta National Hospital 家庭福利中心要求 宫内避孕装置IUCD的所有妇女, 有正常月经,年龄 在20与44岁之间均可纳入研究。如果发生以下任何 一项,不可进入研究:(1)异位妊娠史,(2)前42天内 怀孕,(3)子宫平滑肌瘤,(4)现患骨盆炎性疾病PID, (5)宫颈或子宫内膜恶性肿瘤,(6)已知四环素过敏, (7)前14天内用过任何抗生素或曾用长效注射青霉素, (8)弱感染反应,(9)Nairobi以外的居民,随访地址不 详,或不愿返回做随访。
常见错误
1. “引进国外量表” 未经作者同意,声称翻译稿是“xx量表的中文版 ” 未经文化调试,便用于研究 未曾考察中文版量表的信度、效度和反应度
2. “自制量表”
未经查阅文献和专家咨询,匆忙起草 没有概念框架和基于概念框架的条目池 没有试用和现场调查,没有心理测量学评价
应当如何引进国外量表? 联系原作者,征得同意;
医学论文常见统计学错误与纠正 I. 设计与实施
II. 分析与结果
方积乾 中山大学公共卫生学院 医学统计与流行病学系 2014年9月
1. 对象合格标准不明确
“ Eligibility criteria” :年龄、性别、临床诊断 、 病情… “Exclusion criteria”:常为保障病人安全 目的: 1. 读者据此判断研究结果可以应用到什么范围 2. 统计学:明确总体 总体:大同小异的个体集合
应当如何? ---- 报告最小样本量估算及其依据
1. 比较两组测定值的均数
依据:
(1)预计欲比较的两总体参数的差值 (2)预计总体标准差 (3)允许出现假阳性结果的机会 (4)允许出现假阴性结果的机会
例:格列美脲、 格列苯脲对比研究 以HbA1c 为主要终点 报告依据 1. 欲检出HbA1c临床差异≥0.65% 2. 假定标准差为1.3% 3. 双侧检验水平0.05 4. 功效80% 退出率20% 计算:157例
仅分析一个指标时, P(假阳性)=0.05, P(一次分析不犯错误)=0.95 同时分析 2 个指标时, P(2 次分析均不犯错误)= [P(一次分析不犯错误)]2 2 P(假阳性)=1 - 0.95 ≈ 0.10 同时分析 3 个指标时, 3 P(假阳性)=1 - 0.95 ≈ 0.14 同时分析 10 个指标时, P(假阳性)=1 - 0.9510 ≈ 0. 40
38
无心梗史患者的各组基线数据
二甲 双胍 格列 美脲 格列 齐特 格列 本脲 格列 吡嗪 甲苯磺 丁脲 瑞格 列奈
应当如何? 成功的随机化取决于: (1) 产生一个不可预见的分配序列; (2) “隐蔽” (allocation concealment )这个 序列,直到分配完毕 (必须建立一个分配处 理的系统) 。 报告如何随机分组,如何“隐蔽” : 谁做随机序列,谁收病人,谁分药和发药; 分组方案如何保管……
0.05, k 10,
k
0.005
3. 不重视对照
为何必需对照? 鉴别研究因素的效应和自然发展结果
例如,研究某药物对口腔溃疡模型兔的疗效, 口腔溃疡有自愈的倾向,必须有对照扣除自愈效应
消除非研究因素的混杂
实验组和对照组受非研究因素的影响尽可能 相同,使两组的差异主要反映研究因素的效应。
• 患者来源:佛罗仑 萨大学糖尿病门诊 • 于1998年1月1日 至2007年12月31 日间起始胰岛素治疗
入组患者满足以下条件: • 居住在佛罗仑萨 • 临床诊断为2型糖尿病 • 起始胰岛素治疗前5年未 接受胰岛素治疗 • 自1998年1月1日至起始 胰岛素治疗前无报告肿瘤
巢式病例对照研究: • 对应每一例新发肿 瘤病例,同时从队列 中随机选取多达5名风 险匹配的对照 • 同时匹配性别、年 龄(5岁分层)、BMI (18.5; 18.5-24.9; 25-29.9; ≥30)
常见错误之一(Nature) ----多重比较不校正 多重比较: 对一组数据作多项比较时,必须 说明如何校正α 水平,以避免增大第一类错 误的机会
如何校正?
Bonfferoni 校正 当同一组数据同时作k次分析时, 若 限定犯假阳性错误的概率总共不超过 , 则 每次分析要用 / k 来控制假阳性的概率。 例
应当如何? 事先明确研究假说 XX 比 YY 好 : 以 YY为对照 设计: 研究组 XX ~ 对照组YY 研究组与对照组: 基线可比、过程可比、终点可比 措施: 干预性研究: 随机化 观察性研究:匹配
4. 样本量无根据
干预性研究: “ xx 例患者随机分成两组 ……” 为什麽 xx 例?不多不少? xx 例从天而降?现成送上门来? 观察性研究: “ 10年期间A组3000例,B组258例……” ---- 有多少用多少 !?
随机化类型
Simple randomisation (简单随机化) Blocked randomisation (区组随机化) Stratified randomisation (分层随机化) Minimisation (不均衡最小化)
6. 避而不谈盲法
盲法为什么这么重要? 对病人“盲”:防止performance bias. 对医护人员、评价人员“盲”:防止 detection bias 或 assessment bias. “不盲”有利于非对 照组。 对数据分析者“盲”:防止为得阳性结果而 选 择并非事先计划的分析方法。
数据来源: 丹麦国家多项注册登记资料
所有丹麦居民各有一个唯一、永久的注册号,与 国内各种注册相连接。 “丹麦国家处方注册”,记录了1995年来所有的 处方。 “全国患者注册”, 1978年以来,所有的住院患 者出院时记录了主要诊断(以及必要时, 次要诊 断)。 “全国死因注册”,记录死因信息。
可疑危险因素:甘精胰岛素、地特胰岛素、赖脯胰 岛素、门冬胰岛素、人胰岛素(基础、餐时)
两组间比较:使用各种胰岛素的人数所占比例、 平均日剂量( Mean daily dose, MDD)
(2)倾向性匹配举例
不同胰岛素促泌剂与二甲双胍在有或无心肌梗 塞史二型糖尿病患者中死亡率和心血管风险的 比较: 丹麦研究 ( EHJ 影响因子IF= 9)
37
研究设计
研究目的:评估与二甲双胍相比,常用的胰岛素 促泌剂的死亡率和心血管风险。 丹麦居民年龄大于20岁,在1997年至2006年之间 应用胰岛素促泌剂或者二甲双胍单药治疗者,总人 数为107,806;随访时间:中位数3.3年(最长9年) 77% 的患者在研究期间仅使用了一种药物治疗