P 值的恰当应用暨解读新英格兰医学杂志统计学指南(2019)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
28
投稿时附上 SAP
• 若观察性研究有预先规定的描述欲检验假说的 SAP,那么 投稿时 必须 附上签署并注明日期的版本。
• 本刊 鼓励作者们将观察性研究的 SAP 存放在为此目的而 设计的某个在线资源库。
29
多重检验 (multiple hypothesis tests)
• 观察性研究必须使用事先规定的可接受的方法,在多重检 验时控制总的第一类错误概率 (family-wise error rate, FWER) 或错误发现率 (false discovery rate, FDR) 。
31
新指南的结语
• 这个新指南可能对其使用和解释提出挑战,对习惯于把 P 值和置信区间当作“一刀切”标记的作者和读者们,尤其 如此。
• 如今投向本刊的文章所报告的结果可能来自十年前计划的 试验。我们愿意和作者们共同努力,按照新指南适当报告 结果。
32
小结
1. 假设检验的统计思维 类似于司法中的“无罪推断”和“疑罪从无”,面对犯罪嫌
• 必须报告校正多重比较后的 P 值,并在手稿中标明 • 序贯检验的方法,所有 P 值都要报告,直到最后一个具有
统计学意义的比较;第一个出现无统计学意义的比较,以 及此后所有比较的 P 值都不要报告。
21
两组或多组比较(探索性分析)
• 事先规定的探索性分析,必须使用 SAP 中所述的控制错 误发现率 (false discovery rate) 的方法。
16
统计意义检验
• 统计意义检验(statistical significance tests)必须伴有效应参 数的置信区间(confidence intervals);
• 置信区间必须和相应检验的有意义水准 α (significance levels) 所作校正相匹配。
• 除非研究设计要求单侧检验,例如非劣临床试验,所有 P 值必须是双侧的。
我们的统计学顾问们建议投向本刊的手稿遵循以下最佳 统计学实践。我们建议您在设计和报告您的研究工作时遵照 执行: • For all studies • For clinical trials • For observational studies
以下,着重介绍该指南中有关 P 值的内容。
15
For all studies
8
(3) 司法中的“无罪推定”和“疑罪从无”原则 • 面对犯罪嫌疑人,人们想证实其为罪人; • 弄清事实之前,法官总是假定此人与好人无区别 (无罪假定) • 原告的任务是收集证据,拒绝无罪假定; • 仅当法官认为一个好人不大可能出现目前的行为时,方可质
疑无罪假定,乃至拒绝无罪假定;法官才宣布:此人不同于 好人。 • 当法官认为一个好人颇有可能出现目前的行为时,不能拒绝 无罪假定 (疑罪从无) ;但并不意味此人就是好人。
23
亚组分析
• 当 SAP 事先规定分析某些亚组时,所作分析必须与之一致。 • 亚组分析的方法建议参考Wang et al (N Engl J Med 2007;
357:2189–2194) • 若研究团队认为某项事后的亚组分析重要,手稿中必须说明
理由,并且标明这是事后决定做的。
24
森林图(forest plots)
12
例 H 0 : =14.1(月)成立时,
将样本数据代入,
t X 0 14.3 14.1 0.236
S / n 5.08 / 36
自由度 n 1 36 1 35
统计量数值
0.025
0.025
0.236
(1) 表明 H0 成立时,出现目前状况的可能性不小 —— 即颇有可能出现目前状况;
• “我们不相信 P 值和统计意义检验会被淘汰!” • 一项良好设计的随机化研究或观察性研究应有主要假设、
事先规定的分析方法和有统计学意义的水准 α; • 有统计学意义的水准 α 是一个可靠的指标,表明观察到的
数据和零假设间矛盾的程度, α 越小,矛盾的程度越高;
• 医生和监管部门必须就采取何种治疗或是否允许上市作决 策,以可靠计算和适当调整的阈值 α 来解释的 P 值,在他 们的决策中发挥了作用。
2
P 值的意义
• P 值标志观测到的数据与零假设背离到何等程度; P 值越
小,背离的程度越高。
• “P<0.05” 意味着:在无效应的假设成立下,不大会出现如 此的观测值。
• “P<0.05” 意味着:在无效应的假设成立下,误判其不成立 的机会少于5%。
3
P 值的意义
• 对多结局的情形,没有校正多重比较而报告“P<0.05” , 误报有差异(假阳性)的概率会远高于 5%。
19
方案和统计分析计划
• 必须和手稿一起提交 (1)开始时和最后的方案 (protocol) (2)统计分析计划 (statistical analysis plan, SAP) (3)关于方案和 SAP 修改的表格,包括修改日期和内容
20
两组或多组比较(证实性分析)
• 证实性分析,比较两组或多组结局时,必须使用方案和 SAP 规定的检验方法来控制第一类错误 — 例如,Bonferroni 校正或事先规定的方法
疑人, • 法官总是假定此人与好人无区别(零假设); • 原告的任务是收集证据,推翻无罪假定(采纳对立假设); • 仅当一个好人不大可能出现目前的行为时,方可质疑无罪假
定,乃至推翻无罪假定,宣布此人不同于好人。 • 当一个好人颇有可能出现目前的行为时,只能疑罪从无 ---- 证据不足,无罪释放;但并不意味此人就是好人。
贯彻 CONSORT
• 作者必须提供 CONSORT 格式的流程图。 • 编辑们鼓励递交 CONSORT 清单所要求的全部相关信息;
虽然这些信息未必会全部和手稿一起登载,但是投稿时必 须在手稿或附件中提供。 • CONSORT 声明、清单和流程图详见 CONSORT 网页。
27
For observational studies
25
安全性结局的统计意义检验
• 如果报告各处理组安全性结局(并非主要结局)的统计意 义检验,不必作多重比较的校正。
• 因为安全性终点所含的信息可以警示问题所在,编辑们认 为第一类错误概率大于 0.05 是可以接受的。
• 无论 SAP 中有否事先规定了这类比较,编辑们都会要求 报告所有 P 值。
26
17
P 值的有效数字
• 通常,大于 0.01 的 P 值必须报告 2 位有效数字; 0.01 和 0.001 之间,必须报告 3 位有效数字; 小于0.001,必须报告 P<0.001 (不可写 0.000)
• 与临床试验停止规则有关检验或全基因关联研究产生的 P 值,可以不必如此。
18
For clinical trials
• 若没有事先规定的方法,只限于报告点估计和 95% 置信区 间。这种情形下,必须在方法部分说明,该区间的宽度未 曾校正多重比较,据此所作推断不可重复。这些分析无需 报告P 值。
30
潜在混杂变量均衡
• 报告处理效应或暴露效应的研究, 必须按暴露或干预组分别 出示那些潜在混杂变量的分布。
• 当暴露组间混杂变量均衡时,组间差异宜以点估计和 95% 置信区间来概括, 无需报告 P 值。
注:相当于司法中的“无罪假设” H0 :µ 与 14.1无区别 H1 : µ 不同于14.1
10
2. 如果 H0 成立,出现目前状况的可能性多大? 利用目前样本数据, 计算统计量:t X 0
S/ n
统计量数值
0.025
0.025
拒绝域
接收域
拒绝域
• 若统计量的数值落入两个尾巴,
(1) 表明 H0 成立时,出现目前状况的概率很小 —— 不大可能出现目前状况;
6
什麽是 P 值?
7
假设检验的统计思维
(1) 实践中,面对事物的不确定性,人们往往要估算事物发 生的概率;
(2) 如果某事物发生的概率很小(即不大可能发生),为了 决策和行动,便将“不大可能”当作“不可能”。
例如, • 上街被撞死的概率很小(1/5百万) ,故人们照样上街; • 飞机失事的概率很小(1/百万),故坐飞机的人越来越多; • 跳楼自杀,砸死行人的概率很小,故无人胆战心惊过大楼。
33
小结
2. 关于P-值,务必正确理解 (1) P-值表明数据与零假设“离谱”的程度 (2) P-值并不度量研究假设为真的概率
(3) 科学决策不可以仅仅依靠一个 P-值是否通过特定的阈值 α
(4) P-值或统计学意义并不度量效应的大小或结果的重要性 (5) P-值并不度量零假设本身的对错 (6) 正确恰当的推断要求完整的报告和透明度
• 例如,Benjamini–Hochberg 方法 (Benjamini Y, Hochberg Y (1995) Controlling the false discovery rate: a practical and powerful approach to multiple hypothesis testing. J R Stat Soc B 57:289–300 )
9
例 已知北方农村儿童前囟门闭合月龄均值为 14.1 月。有人从东北某县抽取 36 名儿童,得前囟 门闭合月龄均值为 14.3 月,标准差为 5.08 月。 问该县儿童前囟门闭合月龄是否不同于一般儿童 闭合的月龄?
1. 建立检验假设,确定检验水准
H0 : =14.1, H1 : ≠14.1(双侧)
解读 新英格兰医学杂志最新统计学指南
---- P 值的恰当应用
Ji-Qian Fang School of Public Health Sun Yat-Sen 格兰医学杂志编辑部署名文章
2019年7月18日,新英格兰医学杂志登载了一篇编辑部 署名文章,着重解释了该杂志新的统计学指南中关于正确使 用P 值的规定,有助于广大作者和读者深刻理解、使用和解 释 P 值。
• 例如,若进行 10 个检验,当关于无差异的假设均为真时, 至少有一个假阳性的概率高达 40%。
当零假设成立时, P(1个检验犯假阳性错误)= 0.05 P(1个检验不犯假阳性错误)=1 - 0.05 = 0.95 P(10个检验都不犯假阳性错误) = 0.9510 = 0.5987 P(10个检验犯假阳性错误) = 1 - 0.5987 = 0.4013
(2) 没有足够理由质疑 H0 —— 尚不能拒绝 H0 !
13
P-值的定义
统计量数值以外 的小尾巴就是P值
0.025
0.025
临界值
统计量 数值
关于统计量数值是否“靠谱”的两种说法:
(1) 统计量数值 > 临界值 或 (2) 统计量数值以外的“尾巴”较小
14
Statistical Reporting Guidelines
34
小结
3. 新英格兰医学杂志“坚信 P 值和统计意义检验不会被淘汰”, “坚信 P 值将在医学研究中继续发挥重要作用”。
4
P 值并不 ……
• P<0.05 并不意味:“零假设成立的概率小于0.05” • P 值并不提供:所估计效应变异方面的信息(标准误) • P 值并不提供:效应 大小的信息 • 医学界一种简化的观点:如果 P<0.05,则认为处理有效,
否则认为无效 ---- 有时并不反映实际情况 !
5
P 值在医学研究中继续发挥重要作用
22
若事先没有规定
• 当临床试验的方案或 SAP 没有规定校正多重比较或控制 错误发现率的方法时,所有次要终点和探索性终点的报告必 须限于处理效应的点估计和 95% 置信区间。 • 此时,必须在手稿的方法部分注明,置信区间的宽度并没 有校正多重比较,据此所作推断可能不可重复。这些分析无 需报告 P 值。
(2) 把“不大可能”当作“不可能”: H0 成立时“不可能”
出现目前状况” ——故拒绝 H0 !
11
统计量数值
0.025 拒绝域
0.025 拒绝域
若统计量的数值落入中间区域, (1) 表明 H0 成立时,出现目前状况的可能性不小
—— 颇有可能出现目前状况; (2) 没有足够理由质疑 H0
—— 尚不能拒绝 H0 !
• 森林图常用来反映关于处理效应的分析结果在某些感兴趣 因素的亚组中具有一致性(同质性)。
• 这类图可用于显示亚组中处理的效应,编辑们建议只纳入 重要的亚组。
• 然而,如果亚组很小,关于处理效应同质性的正式推断就 不可行了。
• 亚组交互效应属于多重比较,众多 P 值 没什麽用处; 因此,多数情形下,森林图不需要提供交互效应的P 值。
投稿时附上 SAP
• 若观察性研究有预先规定的描述欲检验假说的 SAP,那么 投稿时 必须 附上签署并注明日期的版本。
• 本刊 鼓励作者们将观察性研究的 SAP 存放在为此目的而 设计的某个在线资源库。
29
多重检验 (multiple hypothesis tests)
• 观察性研究必须使用事先规定的可接受的方法,在多重检 验时控制总的第一类错误概率 (family-wise error rate, FWER) 或错误发现率 (false discovery rate, FDR) 。
31
新指南的结语
• 这个新指南可能对其使用和解释提出挑战,对习惯于把 P 值和置信区间当作“一刀切”标记的作者和读者们,尤其 如此。
• 如今投向本刊的文章所报告的结果可能来自十年前计划的 试验。我们愿意和作者们共同努力,按照新指南适当报告 结果。
32
小结
1. 假设检验的统计思维 类似于司法中的“无罪推断”和“疑罪从无”,面对犯罪嫌
• 必须报告校正多重比较后的 P 值,并在手稿中标明 • 序贯检验的方法,所有 P 值都要报告,直到最后一个具有
统计学意义的比较;第一个出现无统计学意义的比较,以 及此后所有比较的 P 值都不要报告。
21
两组或多组比较(探索性分析)
• 事先规定的探索性分析,必须使用 SAP 中所述的控制错 误发现率 (false discovery rate) 的方法。
16
统计意义检验
• 统计意义检验(statistical significance tests)必须伴有效应参 数的置信区间(confidence intervals);
• 置信区间必须和相应检验的有意义水准 α (significance levels) 所作校正相匹配。
• 除非研究设计要求单侧检验,例如非劣临床试验,所有 P 值必须是双侧的。
我们的统计学顾问们建议投向本刊的手稿遵循以下最佳 统计学实践。我们建议您在设计和报告您的研究工作时遵照 执行: • For all studies • For clinical trials • For observational studies
以下,着重介绍该指南中有关 P 值的内容。
15
For all studies
8
(3) 司法中的“无罪推定”和“疑罪从无”原则 • 面对犯罪嫌疑人,人们想证实其为罪人; • 弄清事实之前,法官总是假定此人与好人无区别 (无罪假定) • 原告的任务是收集证据,拒绝无罪假定; • 仅当法官认为一个好人不大可能出现目前的行为时,方可质
疑无罪假定,乃至拒绝无罪假定;法官才宣布:此人不同于 好人。 • 当法官认为一个好人颇有可能出现目前的行为时,不能拒绝 无罪假定 (疑罪从无) ;但并不意味此人就是好人。
23
亚组分析
• 当 SAP 事先规定分析某些亚组时,所作分析必须与之一致。 • 亚组分析的方法建议参考Wang et al (N Engl J Med 2007;
357:2189–2194) • 若研究团队认为某项事后的亚组分析重要,手稿中必须说明
理由,并且标明这是事后决定做的。
24
森林图(forest plots)
12
例 H 0 : =14.1(月)成立时,
将样本数据代入,
t X 0 14.3 14.1 0.236
S / n 5.08 / 36
自由度 n 1 36 1 35
统计量数值
0.025
0.025
0.236
(1) 表明 H0 成立时,出现目前状况的可能性不小 —— 即颇有可能出现目前状况;
• “我们不相信 P 值和统计意义检验会被淘汰!” • 一项良好设计的随机化研究或观察性研究应有主要假设、
事先规定的分析方法和有统计学意义的水准 α; • 有统计学意义的水准 α 是一个可靠的指标,表明观察到的
数据和零假设间矛盾的程度, α 越小,矛盾的程度越高;
• 医生和监管部门必须就采取何种治疗或是否允许上市作决 策,以可靠计算和适当调整的阈值 α 来解释的 P 值,在他 们的决策中发挥了作用。
2
P 值的意义
• P 值标志观测到的数据与零假设背离到何等程度; P 值越
小,背离的程度越高。
• “P<0.05” 意味着:在无效应的假设成立下,不大会出现如 此的观测值。
• “P<0.05” 意味着:在无效应的假设成立下,误判其不成立 的机会少于5%。
3
P 值的意义
• 对多结局的情形,没有校正多重比较而报告“P<0.05” , 误报有差异(假阳性)的概率会远高于 5%。
19
方案和统计分析计划
• 必须和手稿一起提交 (1)开始时和最后的方案 (protocol) (2)统计分析计划 (statistical analysis plan, SAP) (3)关于方案和 SAP 修改的表格,包括修改日期和内容
20
两组或多组比较(证实性分析)
• 证实性分析,比较两组或多组结局时,必须使用方案和 SAP 规定的检验方法来控制第一类错误 — 例如,Bonferroni 校正或事先规定的方法
疑人, • 法官总是假定此人与好人无区别(零假设); • 原告的任务是收集证据,推翻无罪假定(采纳对立假设); • 仅当一个好人不大可能出现目前的行为时,方可质疑无罪假
定,乃至推翻无罪假定,宣布此人不同于好人。 • 当一个好人颇有可能出现目前的行为时,只能疑罪从无 ---- 证据不足,无罪释放;但并不意味此人就是好人。
贯彻 CONSORT
• 作者必须提供 CONSORT 格式的流程图。 • 编辑们鼓励递交 CONSORT 清单所要求的全部相关信息;
虽然这些信息未必会全部和手稿一起登载,但是投稿时必 须在手稿或附件中提供。 • CONSORT 声明、清单和流程图详见 CONSORT 网页。
27
For observational studies
25
安全性结局的统计意义检验
• 如果报告各处理组安全性结局(并非主要结局)的统计意 义检验,不必作多重比较的校正。
• 因为安全性终点所含的信息可以警示问题所在,编辑们认 为第一类错误概率大于 0.05 是可以接受的。
• 无论 SAP 中有否事先规定了这类比较,编辑们都会要求 报告所有 P 值。
26
17
P 值的有效数字
• 通常,大于 0.01 的 P 值必须报告 2 位有效数字; 0.01 和 0.001 之间,必须报告 3 位有效数字; 小于0.001,必须报告 P<0.001 (不可写 0.000)
• 与临床试验停止规则有关检验或全基因关联研究产生的 P 值,可以不必如此。
18
For clinical trials
• 若没有事先规定的方法,只限于报告点估计和 95% 置信区 间。这种情形下,必须在方法部分说明,该区间的宽度未 曾校正多重比较,据此所作推断不可重复。这些分析无需 报告P 值。
30
潜在混杂变量均衡
• 报告处理效应或暴露效应的研究, 必须按暴露或干预组分别 出示那些潜在混杂变量的分布。
• 当暴露组间混杂变量均衡时,组间差异宜以点估计和 95% 置信区间来概括, 无需报告 P 值。
注:相当于司法中的“无罪假设” H0 :µ 与 14.1无区别 H1 : µ 不同于14.1
10
2. 如果 H0 成立,出现目前状况的可能性多大? 利用目前样本数据, 计算统计量:t X 0
S/ n
统计量数值
0.025
0.025
拒绝域
接收域
拒绝域
• 若统计量的数值落入两个尾巴,
(1) 表明 H0 成立时,出现目前状况的概率很小 —— 不大可能出现目前状况;
6
什麽是 P 值?
7
假设检验的统计思维
(1) 实践中,面对事物的不确定性,人们往往要估算事物发 生的概率;
(2) 如果某事物发生的概率很小(即不大可能发生),为了 决策和行动,便将“不大可能”当作“不可能”。
例如, • 上街被撞死的概率很小(1/5百万) ,故人们照样上街; • 飞机失事的概率很小(1/百万),故坐飞机的人越来越多; • 跳楼自杀,砸死行人的概率很小,故无人胆战心惊过大楼。
33
小结
2. 关于P-值,务必正确理解 (1) P-值表明数据与零假设“离谱”的程度 (2) P-值并不度量研究假设为真的概率
(3) 科学决策不可以仅仅依靠一个 P-值是否通过特定的阈值 α
(4) P-值或统计学意义并不度量效应的大小或结果的重要性 (5) P-值并不度量零假设本身的对错 (6) 正确恰当的推断要求完整的报告和透明度
• 例如,Benjamini–Hochberg 方法 (Benjamini Y, Hochberg Y (1995) Controlling the false discovery rate: a practical and powerful approach to multiple hypothesis testing. J R Stat Soc B 57:289–300 )
9
例 已知北方农村儿童前囟门闭合月龄均值为 14.1 月。有人从东北某县抽取 36 名儿童,得前囟 门闭合月龄均值为 14.3 月,标准差为 5.08 月。 问该县儿童前囟门闭合月龄是否不同于一般儿童 闭合的月龄?
1. 建立检验假设,确定检验水准
H0 : =14.1, H1 : ≠14.1(双侧)
解读 新英格兰医学杂志最新统计学指南
---- P 值的恰当应用
Ji-Qian Fang School of Public Health Sun Yat-Sen 格兰医学杂志编辑部署名文章
2019年7月18日,新英格兰医学杂志登载了一篇编辑部 署名文章,着重解释了该杂志新的统计学指南中关于正确使 用P 值的规定,有助于广大作者和读者深刻理解、使用和解 释 P 值。
• 例如,若进行 10 个检验,当关于无差异的假设均为真时, 至少有一个假阳性的概率高达 40%。
当零假设成立时, P(1个检验犯假阳性错误)= 0.05 P(1个检验不犯假阳性错误)=1 - 0.05 = 0.95 P(10个检验都不犯假阳性错误) = 0.9510 = 0.5987 P(10个检验犯假阳性错误) = 1 - 0.5987 = 0.4013
(2) 没有足够理由质疑 H0 —— 尚不能拒绝 H0 !
13
P-值的定义
统计量数值以外 的小尾巴就是P值
0.025
0.025
临界值
统计量 数值
关于统计量数值是否“靠谱”的两种说法:
(1) 统计量数值 > 临界值 或 (2) 统计量数值以外的“尾巴”较小
14
Statistical Reporting Guidelines
34
小结
3. 新英格兰医学杂志“坚信 P 值和统计意义检验不会被淘汰”, “坚信 P 值将在医学研究中继续发挥重要作用”。
4
P 值并不 ……
• P<0.05 并不意味:“零假设成立的概率小于0.05” • P 值并不提供:所估计效应变异方面的信息(标准误) • P 值并不提供:效应 大小的信息 • 医学界一种简化的观点:如果 P<0.05,则认为处理有效,
否则认为无效 ---- 有时并不反映实际情况 !
5
P 值在医学研究中继续发挥重要作用
22
若事先没有规定
• 当临床试验的方案或 SAP 没有规定校正多重比较或控制 错误发现率的方法时,所有次要终点和探索性终点的报告必 须限于处理效应的点估计和 95% 置信区间。 • 此时,必须在手稿的方法部分注明,置信区间的宽度并没 有校正多重比较,据此所作推断可能不可重复。这些分析无 需报告 P 值。
(2) 把“不大可能”当作“不可能”: H0 成立时“不可能”
出现目前状况” ——故拒绝 H0 !
11
统计量数值
0.025 拒绝域
0.025 拒绝域
若统计量的数值落入中间区域, (1) 表明 H0 成立时,出现目前状况的可能性不小
—— 颇有可能出现目前状况; (2) 没有足够理由质疑 H0
—— 尚不能拒绝 H0 !
• 森林图常用来反映关于处理效应的分析结果在某些感兴趣 因素的亚组中具有一致性(同质性)。
• 这类图可用于显示亚组中处理的效应,编辑们建议只纳入 重要的亚组。
• 然而,如果亚组很小,关于处理效应同质性的正式推断就 不可行了。
• 亚组交互效应属于多重比较,众多 P 值 没什麽用处; 因此,多数情形下,森林图不需要提供交互效应的P 值。