L-10常见统计学错误(2016)(总)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
错在哪里? 哪些指标可能有组间差异,必须心中有数。 假说:预计将要得到的结论 —— 假说是科研的灵魂 心中无数,不要“先上马再说” 指标多,实验工作量大。 大海捞针—— 碰运气,不是科研! 指标多,翻来覆去分析,制造假阳性! Nature杂志统计学指南:常见错误之一。
翻来覆去分析,会制造假阳性?!
常见错误: 丢弃具有缺失值的个体? 仅完全随机缺失才可丢弃有缺失值的个体 临床试验中,若仅采用完整病例进行分析, 违背 Intention-To-Treat原则(ITT原则) 仅在以下情况下考虑使用完整病例进行分析 ① 在探索性研究中,药物研发的初期阶段; ② 在确证性试验中,作为次要结果的处理 方法
随机化类型
Simple randomisation (简单随机化) Blocked randomisation (区组随机化) Stratified randomisation (分层随机化) Minimisation (不均衡最小化)
6. 避而不谈盲法
盲法为什么这么重要? 对病人“盲”:防止performance bias. 对医护人员、评价人员“盲”: 防止detection bias 或 assessment bias. “不盲”有利于非对照组。 对数据分析者“盲”: 防止为得阳性结果而选择并非事先计划 的分析方法。 ---- 必须报告;“盲”?谁“盲”?
应当如何? 成功的随机化取决于: (1) 产生一个不可预见的分配序列; (2) “隐蔽” (allocation concealment )这个 序列,直到分配完毕 (必须建立一个分配处 理的系统) 。 报告如何随机分组,如何“隐蔽” : 谁做随机序列,谁收病人,谁分药和发药; 分组方案如何保管……
常见错误
1. “引进国外量表” 未经作者同意,声称是“xx量表的中文版” 妄称文化调试,随意修改 未曾考察中文版量表的信度、效度和反应度
2. “自制量表”
未经查阅文献和专家咨询,匆忙起草 没有概念框架和基于概念框架的条目池 没有试用和现场调查,没有心理测量学评价
应当如何引进国外量表? 联系原作者,征得同意; 翻译-逆翻译,文化调试,与原作者共同修 改、定稿;
1 非劣 2 非优 3 非劣、非优 ---- 等效
-Δ
0
Δ
试验组-对照组(T-C) C优← →T优
小 结
医学论文常见统计学错误往往源于研究设计 任何一项研究首先要明确定义目标总体; 从目标总体选择对象要有细致的合格标准 和排除标准; 总体和标准不清晰,切勿匆忙上阵; 基于“杂乱” 对象的研究,一定不会有 科学结论。
应当如何? 事先明确研究假说,例如, 新药 比 常规药好 : 以常规药为对照 设计: 研究组新药 ~ 对照组常规药 可比性:基线可比、过程可比、终点可比 保证可比性措施: 干预性研究: 随机化 观察性研究:匹配
4. 样本量无根据
干预性研究: “ 500 例患者随机分成两组 ……” 为什麽 500 例?不多不少? 500 例从天而降?现成送上门来? 观察性研究: “ 10年期间A组3000例,B组258例……” ---- 有多少用多少 !?
收集现场数据,评价信度、效度和反应度
应当如何研制新量表? 查阅文献、专家咨询…… 确定概念框架,领域、方面…… 根据概念框架建立条目池 量表初稿 小规模试用、修改 收集现场调查数据 评价量表,信度、效度、反应度…… 修改、定稿
请同学们考试带2B铅笔! 考试时间:2016年10月26日(周三) 19:00~20:30 考试地点:新教201、301、401课室 请提前20分钟进场,查看座位号安排
4 有差异
0
C优
试验组-对照组(T-C)
T优
图2 非劣效性试验置信区间示意图
1 非劣 2 非劣 3 非劣 4 尚不能下结论
5 劣
-Δ 0
C优
试验组-对照组(T-C)
T优
图3 非优效性试验置信区间示意图
1 非优 2 非优 3 非优 4 尚不能下结论 5优
0 Δ
试验组-对照组 (T-C) C优
T优
图4 等效性试验置信区间示意图
医学论文常见统计学错误与纠正
II. 分析与结果
8. 不考虑基线均衡与否
不首先考察基线是否均衡 不论基线均衡与否,一概使用单变量分析 方法: 2 检验; 比较百分比或均数: 比较均数:t 检验、非参数检验 比较发生某事件的时间:Kaplan-Meier 方法
应当如何? 不论干预性研究还是观察性研究,数据分析 的第一步总是考察基线是否均衡,列表报告 若干预性研究许多变量基线不均衡 ---- 随机化失败! 若观察性研究多个变量基线不均衡,很自然! ---- 从设计入手,认真解决! 对付基线不均衡的统计学方法: (1) 分层 (2) 匹配 (3) 回归
常见错误: 数据填补(data imputation)? 仅在以下情况下
① 相对小的缺失率(例如10%~15%)
② 含有缺失值的变量对于所要研究的问题
具有非常重要的意义;
③ 有合理的假设和结转技术, 一般宜遵循
保守原则
不同填补方式产生的结论需进行敏感性分析
10. 统计检验结论不当
差异性检验
常见错误 1:没有对照! 千方百计省去对照组,以减少一半工作量!? 自身前后对照 历史对照 文献对照 “标准”对照
常见错误 2:对照不当 对照太弱:安慰剂对照 对照过强:西药+加中药 ~ 西药 对照剂量有争议: 试验药,大剂量 ~ 对照药,中小剂量 对照基线不可比: 试验组年轻、病轻 ~ 对照组年老、病重
考场安排:将在10月25日公布FTP 名单请查阅FTP,查不到名字的同学,请于24号前 发邮件给吴少敏老师,wushm@mail.sysu.edu.cn
因第七周需要进行政治考试,部分班的 实习课调整如下: 实习课: DEF班:原10.13(星期四)晚上的课顺 延一周,调到10月20日,节次、地点不 变。
常见错误之一(Nature) ----多重比较不校正 多重比较: 对一组数据作多项比较时, 必须说明如何校正α 水平,以避免增大 第一类错误的机会
如何校正?
Bonfferoni 校正 当同一组数据同时作k次分析时, 若 限定犯假阳性错误的概率总共不超过 , 则 每次分析要用 / k 来控制假阳性的概率。 例
5. 随机化,说而不做,做而不严
处理分配的随机化为什么这么重要? (1) 消除分配处理有意或无意的偏倚。 (2) 为实施盲法创造条件。 (3) 使得有可能利用概率论来说明: 各干预组之间的差异不大可能是偶然性 造成的。
说错和做错
将随机化当作“廉价名词”,实际没做, 却写: “随机分成两组” —— 科研道德? 将“随意分组”当作随机化 将“机械分组”当作随机化 略去筛选过程,简单地报告将多少人随机分 组 略去实施过程中丢失对象,将最后两组人数 说成是随机分组人数
仅分析一个指标时, P(假阳性)=0.05, P(一次分析不犯错误)=0.95 同时分析 2 个指标时, 2 P(2 次分析均不犯错误)= [P(一次分析不犯错误)] 2 P(假阳性)=1 - 0.95 ≈ 0.10 同时分析 3 个指标时, 3 P(假阳性)=1 - 0.95 ≈ 0.14 同时分析 10 个指标时, P(假阳性)=1 - 0.9510 ≈ 0. 40
应当如何? ---- 报告最小样本量估算及其依据 1. 比较两组测定值的均数
依据:
(1)预计欲比较的两总体参数的差值 (2)预计总体标准差 (3)允许出现假阳性结果的机会 (4)允许出现假阴性结果的机会
例:格列美脲、 格列苯脲对比研究 以HbA1c 为主要终点 报告依据 1. 欲检出HbA1c临床差异≥0.65% 2. 假定标准差为1.3% 3. 双侧检验水平0.05 4. 功效80% 退出率20% 计算:157例
常见错误
如何“盲”? 轻描淡写 为何没有“盲”?不加说明 普遍忽视盲法判定终点 没有独立的终点判定委员会: 专人、专职; 盲法措施 盲法实施效果如何?缺乏评价
7. 量表的滥用
医学研究中,量表的应用日益广泛: 生存质量 (quality of life, QOL) 患者报告结局(patient report outcome, PRO) 美国FDA规定药品说明书必须有PRO内容。 国外已经研制了许多量表,可以借鉴; 有些课题国外还没有适宜的量表, 有待研制 国内许多医学研究也开始采用量表测量临床 疗效。
目的: 1. 读者据此判断研究结果可以应用到什么范围 2. 统计学:明确总体 总体:大同小异的个体集合
常见错误 只报告来源和时间段,总体不清晰:大杂 烩,得不到科学结论; 事前未规定合格标准和排除标准,事后排 除; 不报告按照合格标准和排除标准筛选对象 的过程。
2. 结局指标多而杂
“primary outcome measure”是事先规定的最 重要的结局指标,通常以此为准来计算样本量。 “secondary outcome measure” 可以几个,但 不宜太多
---- “尚不能认为总体均数间有差别 ”
常见错误
若 p ,“两组样本均数间的差异显著” ---- “总体均数不等” (忘记有假阳性可能!?) 若 p ,“两组样本均数间的差异不显著”
---- “总体均数相等”
图1 差异性试验置信区间示意图
1 尚不能说有差异 2 尚不能说有差异 3 有差异
零假设:两组(或多组)总体均数间没有差别 检验水准 若 p , “两组样本均数间的差异具有统计学意义
对立假设:两组(或多组)总体均数间有差别
(statistically significant)” ---- “可以认为总体均数间有差别 ” 若 p , “两组样本均数间的差异不具有统计学意义 ”
0.05, k 10,
k
0.005
3. பைடு நூலகம்重视对照
为何必需对照? 消除非研究因素的混杂
实验组和对照组受非研究因素的影响尽可能 相同,使两组的差异主要反映研究因素的效应。
鉴别研究因素的效应和自然发展结果
例如,研究某药物对口腔溃疡模型兔的疗效, 口腔溃疡有自愈的倾向,必须有对照扣除自愈 效应。
9. 缺失值处理不当
三类缺失机制: 完全随机缺失(missing completely at random, MCAR), 缺失完全由随机因素造成 随机缺失(missing at random, MAR), 缺失与 已有的观察结果有关 非随机缺失(missing not at random,NAR), 缺失与当前观察到和尚未观察到的结果有关
应当如何? ---- 报告最小样本量估算及其依据 2. 比较两组达标率 依据:
(1)预计一组发生某结局的百分比为 1 (2)预计另一组发生某结局的百分比为 2 (3)允许犯假阳性错误的机会 (4)允许犯假阴性错误的机会
例:格列美脲、 格列苯脲对比研究 以HbA1c达标为主要终点
(1)预计一组发生某结局的百分比为 45% (2)预计另一组发生某结局的百分比为 25% (3)允许犯假阳性错误的机会 5% (4)允许犯假阴性错误的机会 20% 计算: 176 例
医学论文常见统计学错误与纠正
I. 设计与实施 II. 分析与结果
方积乾 中山大学公共卫生学院 医学统计与流行病学系 2016年9月
1. 对象合格标准不明确
“Eligibility criteria”:年龄、性别、临床 诊断、病情… “Exclusion criteria”:常为保障病人安全
常见错误:终点指标过多, 大海捞针 临床试验时,不知道哪个指标在组与组间有 差异;“确定某个指标后,万一组间没有差 异,岂不被动?!” 生理、生化、组织学、基因,都做; “内容丰富,显得水平高?!” 许多仪器一下子可以做许多项目; “许多项目一一分析,哪个有意义,就报告 哪个指标?!”