常见统计学错误

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应当如何? ---- 报告最小样本量估算及其依据
2. 比较两组达标率 依据:
(1)预计一组发生某结局的百分比为 1 (2)预计另一组发生某结局的百分比为 2
(3)允许犯假阳性错误的机会
(4)允许犯假阴性错误的机会
例:格列美脲、 格列苯脲对比研究 以HbA1c达标为主要终点
(1)预计一组发生某结局的百分比为 45% (2)预计另一组发生某结局的百分比为 25%
Bonfferoni 校正
当同一组数据同时作k次分析时,
若 限定犯假阳性错误的概率总共不超过 ,
Βιβλιοθήκη Baidu
则 每次分析要用 / k 来控制假阳性的概率。

0.05, k 10,
0.005
k
3. 不重视对照
为何必需对照? 鉴别研究因素的效应和自然发展结果
例如,研究某药物对口腔溃疡模型兔的疗效, 口腔溃疡有自愈的倾向,必须有对照扣除自愈效应
指标多,翻来覆去分析,制造假阳性! Nature杂志统计学指南:常见错误之一。
翻来覆去分析,会制造假阳性?!
仅分析一个指标时,
P(假阳性)=0.05,
P(一次分析不犯错误)=0.95
同时分析 2 个指标时,
P(2 次分析均不犯错误)= [P(一次分析不犯错误)]2
P(假阳性)=1 - 0.952 ≈ 0.10
消除非研究因素的混杂
实验组和对照组受非研究因素的影响尽可能 相同,使两组的差异主要反映研究因素的效应。
常见错误 1:没有对照!
千方百计省去对照组,以减少一半工作量!? 自身对照 历史对照 文献对照 “标准”对照
常见错误 2:对照不当
对照太弱:安慰剂对照 对照过强:西药+加中药~ 西药 对照剂量有争议:
医学论文常见统计学错误与纠正
I. 设计与实施 II.分析与结果
1. 对象合格标准不明确
“Eligibility criteria”:年龄、性别、临床诊断 、 病情…
“Exclusion criteria”:常为保障病人安全 目的: 1. 读者据此判断研究结果可以应用到什么范围 2. 统计学:明确总体
总体:大同小异的个体集合
常见错误
只报告来源和时间段,总体不清晰:大杂 烩,得不到科学结论;
事前未规定合格标准和排除标准,事后排 除;
不报告按照合格标准和排除标准筛选对象 的过程。
应当如何? ---- 防止总体的异质性
在Kenyatta National Hospital 家庭福利中心要求 宫内避孕装置IUCD的所有妇女, 有正常月经,年龄 在20与44岁之间均可纳入研究。如果发生以下任何 一项,不可进入研究:(1)异位妊娠史,(2)前42天内 怀孕,(3)子宫平滑肌瘤,(4)现患骨盆炎性疾病PID, (5)宫颈或子宫内膜恶性肿瘤,(6)已知四环素过敏, (7)前14天内用过任何抗生素或曾用长效注射青霉素, (8)弱感染反应,(9)Nairobi以外的居民,随访地址不 详,或不愿返回做随访。
(3)允许犯假阳性错误的机会 5%
(4)允许犯假阴性错误的机会 20%
计算: 176 例
5. 随机化,说而不做,做而不严
处理分配的随机化为什么这么重要? (1) 消除分配处理有意或无意的偏倚。 (2) 为实施盲法创造条件。 (3) 使得有可能利用概率论来说明:各干预组
之间的差异有多大可能仅仅是由偶然性 造
2. 结局指标多而杂
“primary outcome measure”是事先规定的最重要 的结局指标,通常以此为准来计算样本量。
“secondary outcome measure” 可以几个,但不宜 太多
常见错误:终点指标过多, 大海捞针
临床试验时,不知道哪个指标在组与组间有差异; “确定某个指标后,万一组间没有差异,岂不被 动!”
干预性研究: “ xx 例患者随机分成两组……” 为什麽xx 例?不多不少? xx 例从天而降?现成送上门来?
观察性研究: “ 10年期间A组3000例,B组258例……” ---- 有多少用多少!?
应当如何? ---- 报告最小样本量估算及其依据 1. 比较两组测定值的均数
依据:
(1)预计欲比较的两总体参数的差值
试验药,大剂量~ 对照药,中小剂量 对照基线不可比:
试验组年轻、病轻~ 对照组年老、病重
应当如何?
事先明确研究假说 XX 比 YY 好 : 以 YY为对照
设计: 研究组 XX ~ 对照组YY 研究组与对照组: 基线可比、过程可比、终点可比
措施: 干预性研究: 随机化 观察性研究:匹配
4. 样本量无根据
成的。
说错和做错
将随机化当作“廉价名词”,实际没做, 却写: “随机分成两组” —— 科研道德?
将“随意分组”当作随机化 将“机械分组”当作随机化 略去筛选过程,简单地报告将多少人随机分
组 略去实施过程中丢失对象,将最后两组人数
说成是随机分组人数
应当如何?
成功的随机化取决于: (1)产生一个不可预见的分配序列; (2) “隐蔽” (allocation concealment )这个 序列,直到分配完毕(必须建立一个分配处 理的系统) 。
(2)预计总体标准差 (3)允许出现假阳性结果的机会 (4)允许出现假阴性结果的机会
例:格列美脲、 格列苯脲对比研究 以HbA1c 为主要终点
报告依据 1. 欲检出HbA1c临床差异≥0.65% 2. 假定标准差为1.3% 3. 双侧检验水平0.05 4. 功效80% 退出率20% 计算:157例
生理、生化、组织学、基因,都做; “内容丰富,显得水平高!”
许多仪器一下子可以做许多项目; “许多项目一一分析,哪个有意义,就报告哪个指 标!”
错在哪里?
哪些指标可能有组间差异,必须心中有数。 假说:预计将要得到的结论 —— 假说是科研的灵魂 心中无数,不要“先上马再说”
指标多,实验工作量大。 大海捞针—— 碰运气,不是科研!
同时分析 3 个指标时,
P(假阳性)=1 - 0.953 ≈ 0.14
同时分析 10 个指标时,
P(假阳性)=1 - 0.9510 ≈ 0. 40
常见错误之一(Nature) ----多重比较不校正
多重比较: 对一组数据作多项比较时,必须 说明如何校正α 水平,以避免增大第一类错 误的机会
如何校正?
相关文档
最新文档