常见统计学错误

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

5. 随机化，说而不做，做而不严
处理分配的随机化为什么这么重要? (1) 消除分配处理有意或无意的偏倚。 (2) 为实施盲法创造条件。 (3) 使得有可能利用概率论来说明：各干预组之间的差异有多大可能仅仅是由偶然性造成的。
说错和做错将随机化当作“廉价名词”，实际没做，却写: “随机分成两组” —— 科研道德？将“随意分组”当作随机化将“机械分组”当作随机化略去筛选过程，简单地报告将多少人随机分组略去实施过程中丢失对象，将最后两组人数说成是随机分组人数
医学论文常见统计学错误与纠正
II. 分析与结果
8. 不考虑基线均衡与否
不首先考察基线是否均衡不论基线均衡与否，一概使用单变量分析方法： 2 比较百分比或均数：检验；t 检验、非参数检验比较发生某事件的时间：Kaplan-Meier 方法
应当如何？不论干预性研究还是观察性研究，数据分析的第一步总是考察基线是否均衡，列表报告若干预性研究许多变量基线不均衡 ---- 随机化失败！若观察性研究多个变量基线不均衡，很自然！ ---- 从设计入手，认真解决！对付基线不均衡的统计学方法： (1) 分层 (2) 匹配 (3) 回归
翻译-逆翻译，文化调试，与原作者共同修改、定稿；收集现场数据，评价信度、效度和反应度
应当如何研制新量表？查阅文献、专家咨询…… 确定概念框架，领域、方面…… 根据概念框架建立条目池量表初稿小规模试用、修改收集现场调查数据评价量表，信度、效度、反应度…… 修改、定稿
7. 量表的滥用
医学研究中，量表的应用日益广泛：生存质量 (quality of life, QOL) 患者报告结局(patient report outcome, PRO) 美国FDA规定药品说明书必须有PRO内容。国外已经研制了许多量表，可以借鉴；有些课题国外还没有适宜的量表, 有待研制国内许多医学研究也开始采用量表测量临床疗效。
常见错误 1：没有对照！千方百计省去对照组，以减少一半工作量!? 自身对照历史对照文献对照 “标准”对照
常见错误 2：对照不当对照太弱：安慰剂对照对照过强：西药+加中药 ~ 西药对照剂量有争议：试验药，大剂量 ~ 对照药，中小剂量对照基线不可比：试验组年轻、病轻 ~ 对照组年老、病重
错在哪里？
哪些指标可能有组间差异，必须心中有数。
假说：预计将要得到的结论 —— 假说是科研的灵魂心中无数，不要“先上马再说” 指标多，实验工作量大。大海捞针—— 碰运气，不是科研！指标多，翻来覆去分析，制造假阳性！ Nature杂志统计学指南：常见错误之一。
翻来覆去分析，会制造假阳性?!
(1) 简单匹配举例巢式病例-对照研究
胰岛素治疗的2型糖尿病患者中胰岛素和胰岛素类似物的剂量与癌症之间的关系
连续收集 1533例门诊2型糖尿病患者
排除193例既往肿瘤病史的患者
1340例2 型糖尿病患者纳入研究
中位随访75.9月 [27.4;133.7 ]
Baidu Nhomakorabea
病例组对照组
随访期间，共 112例患者诊断新发肿瘤（发生率为1.9/100人年）
应当如何？ ---- 报告最小样本量估算及其依据 2. 比较两组达标率依据：
（1）预计一组发生某结局的百分比为 1 （2）预计另一组发生某结局的百分比为 2 （3）允许犯假阳性错误的机会（4）允许犯假阴性错误的机会
例：格列美脲、格列苯脲对比研究以HbA1c达标为主要终点
（1）预计一组发生某结局的百分比为 45% （2）预计另一组发生某结局的百分比为 25% （3）允许犯假阳性错误的机会 5% （4）允许犯假阴性错误的机会 20% 计算: 176 例
常见错误如何“盲”？轻描淡写为何没有“盲”？不加说明普遍忽视盲法判定终点终点判定委员会：专人、专职；盲法措施盲法实施效果如何？缺乏评价
对 “盲法”的评价
“盲法”成功？何以见得？ ---- 报告证据 “盲法”失败？---- 报告原因例如，活性药和安慰剂外形差别等。有人报告含锌止咳糖的安慰剂对照试验。另请一批健康志愿者和被试者来识别含锌止咳糖和安慰剂。结果 56% 接受含锌止咳糖者和 26% 接受安慰剂接受能正确识别。（副作用和临床疗效可能提供线索）
2. 结局指标多而杂
“primary outcome measure”是事先规定的最重要的结局指标，通常以此为准来计算样本量。 “secondary outcome measure” 可以几个，但不宜太多
常见错误：终点指标过多, 大海捞针
临床试验时，不知道哪个指标在组与组间有差异； “确定某个指标后，万一组间没有差异，岂不被动！” 生理、生化、组织学、基因，都做； “内容丰富，显得水平高！” 许多仪器一下子可以做许多项目； “许多项目一一分析，哪个有意义，就报告哪个指标！”
常见错误
只报告来源和时间段，总体不清晰：大杂烩，得不到科学结论；事前未规定合格标准和排除标准，事后排除；不报告按照合格标准和排除标准筛选对象的过程。
应当如何？ ---- 防止总体的异质性
在Kenyatta National Hospital 家庭福利中心要求宫内避孕装置IUCD的所有妇女, 有正常月经，年龄在20与44岁之间均可纳入研究。如果发生以下任何一项，不可进入研究：(1)异位妊娠史，(2)前42天内怀孕，(3)子宫平滑肌瘤，(4)现患骨盆炎性疾病PID， (5)宫颈或子宫内膜恶性肿瘤，(6)已知四环素过敏， (7)前14天内用过任何抗生素或曾用长效注射青霉素， (8)弱感染反应，(9)Nairobi以外的居民，随访地址不详，或不愿返回做随访。
常见错误
1. “引进国外量表” 未经作者同意，声称翻译稿是“xx量表的中文版 ” 未经文化调试，便用于研究未曾考察中文版量表的信度、效度和反应度
2. “自制量表”
未经查阅文献和专家咨询，匆忙起草没有概念框架和基于概念框架的条目池没有试用和现场调查，没有心理测量学评价
应当如何引进国外量表？联系原作者，征得同意；
医学论文常见统计学错误与纠正 I. 设计与实施
II. 分析与结果
方积乾中山大学公共卫生学院医学统计与流行病学系 2014年9月
1. 对象合格标准不明确
“ Eligibility criteria” ：年龄、性别、临床诊断、病情… “Exclusion criteria”：常为保障病人安全目的： 1. 读者据此判断研究结果可以应用到什么范围 2. 统计学：明确总体总体：大同小异的个体集合
应当如何？ ---- 报告最小样本量估算及其依据
1. 比较两组测定值的均数
依据：
（1）预计欲比较的两总体参数的差值（2）预计总体标准差（3）允许出现假阳性结果的机会（4）允许出现假阴性结果的机会
例：格列美脲、格列苯脲对比研究以HbA1c 为主要终点报告依据 1. 欲检出HbA1c临床差异≥0.65% 2. 假定标准差为1.3% 3. 双侧检验水平0.05 4. 功效80% 退出率20% 计算：157例
仅分析一个指标时， P(假阳性)=0.05， P(一次分析不犯错误)=0.95 同时分析 2 个指标时， P(2 次分析均不犯错误)= [P(一次分析不犯错误)]2 2 P(假阳性)=1 - 0.95 ≈ 0.10 同时分析 3 个指标时， 3 P(假阳性)=1 - 0.95 ≈ 0.14 同时分析 10 个指标时， P(假阳性)=1 - 0.9510 ≈ 0. 40
38
无心梗史患者的各组基线数据
二甲双胍格列美脲格列齐特格列本脲格列吡嗪甲苯磺丁脲瑞格列奈
应当如何？成功的随机化取决于： (1) 产生一个不可预见的分配序列; (2) “隐蔽” （allocation concealment ）这个序列，直到分配完毕 (必须建立一个分配处理的系统) 。报告如何随机分组，如何“隐蔽” ：谁做随机序列，谁收病人，谁分药和发药；分组方案如何保管……
0.05, k 10,

k
0.005
3. 不重视对照
为何必需对照？鉴别研究因素的效应和自然发展结果
例如，研究某药物对口腔溃疡模型兔的疗效，口腔溃疡有自愈的倾向，必须有对照扣除自愈效应
消除非研究因素的混杂
实验组和对照组受非研究因素的影响尽可能相同，使两组的差异主要反映研究因素的效应。
• 患者来源：佛罗仑萨大学糖尿病门诊 • 于1998年1月1日至2007年12月31 日间起始胰岛素治疗
入组患者满足以下条件： • 居住在佛罗仑萨 • 临床诊断为2型糖尿病 • 起始胰岛素治疗前5年未接受胰岛素治疗 • 自1998年1月1日至起始胰岛素治疗前无报告肿瘤
巢式病例对照研究： • 对应每一例新发肿瘤病例，同时从队列中随机选取多达5名风险匹配的对照 • 同时匹配性别、年龄(5岁分层)、BMI （18.5; 18.5-24.9; 25-29.9; ≥30）
常见错误之一(Nature) ----多重比较不校正多重比较: 对一组数据作多项比较时，必须说明如何校正α 水平，以避免增大第一类错误的机会
如何校正？
Bonfferoni 校正当同一组数据同时作k次分析时，若限定犯假阳性错误的概率总共不超过，则每次分析要用 / k 来控制假阳性的概率。例
应当如何？事先明确研究假说 XX 比 YY 好：以 YY为对照设计：研究组 XX ~ 对照组YY 研究组与对照组：基线可比、过程可比、终点可比措施：干预性研究: 随机化观察性研究：匹配
4. 样本量无根据
干预性研究： “ xx 例患者随机分成两组 ……” 为什麽 xx 例？不多不少？ xx 例从天而降？现成送上门来？观察性研究： “ 10年期间A组3000例，B组258例……” ---- 有多少用多少 !?
随机化类型
Simple randomisation (简单随机化) Blocked randomisation (区组随机化) Stratified randomisation (分层随机化) Minimisation (不均衡最小化)
6. 避而不谈盲法
盲法为什么这么重要? 对病人“盲”：防止performance bias. 对医护人员、评价人员“盲”：防止 detection bias 或 assessment bias. “不盲”有利于非对照组。对数据分析者“盲”：防止为得阳性结果而选择并非事先计划的分析方法。
数据来源: 丹麦国家多项注册登记资料
所有丹麦居民各有一个唯一、永久的注册号，与国内各种注册相连接。 “丹麦国家处方注册”，记录了1995年来所有的处方。 “全国患者注册”， 1978年以来，所有的住院患者出院时记录了主要诊断（以及必要时, 次要诊断）。 “全国死因注册”，记录死因信息。

可疑危险因素：甘精胰岛素、地特胰岛素、赖脯胰岛素、门冬胰岛素、人胰岛素（基础、餐时）
两组间比较：使用各种胰岛素的人数所占比例、平均日剂量( Mean daily dose, MDD)
（2）倾向性匹配举例
不同胰岛素促泌剂与二甲双胍在有或无心肌梗塞史二型糖尿病患者中死亡率和心血管风险的比较: 丹麦研究（ EHJ 影响因子IF= 9）
37
研究设计
研究目的：评估与二甲双胍相比，常用的胰岛素促泌剂的死亡率和心血管风险。丹麦居民年龄大于20岁，在1997年至2006年之间应用胰岛素促泌剂或者二甲双胍单药治疗者,总人数为107,806；随访时间：中位数3.3年(最长9年) 77% 的患者在研究期间仅使用了一种药物治疗