临床试验中的统计学讲解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

小胖说统计之一:认识α,β

要了解生物统计在临床试验中的应用,首先需从认识α,β开始,就是这两个不起眼的符号贯穿了临床试验生物统计的始终。α和β的定义是比较拗口的,特别是对于那些没学过统计的人来说,这两个东西是怎么也搞不明白具体是怎么回事。虽然比较拗口,但咱还得在这里重复一下α和β的科学定义:α又称第I类错误或显著性水平,指拒绝了实际上成立的H0,β又称第II类错误,指不拒绝实际上不成立的H0。对应β的还有一个概念叫power,国内翻译为把握度,它等于1-β,指拒绝实际上不成立的H0的概率。

说得通俗一点,临床试验中你会犯俩错误,一种错误就是两种药本来没啥区别,却说

成您的药优于人家的药,这就是α;另一种错误就是你的药的确优于人家的药,却说成两

种药没啥区别,这就是β。那1-β呢,就是咱的优秀药物被发现的概率啊。

不知道,上边的解释,您听明白了吗?如果听明白了,小胖要问您了,谁应该最关心

α啊,那又谁应该最关心β啊?

最关心α的当然是我们伟大的SFDA以及诸如FDA之类的药品审批机构啊,为啥?他们当然不希望一种药明明和别的药没啥区别,却被药厂说成疗效更好,换言之,他们可不希

望审批无效的药物进入市场。所以啊,它们要限定这种错误发生的概率,也就是我们的α了,一般情况下,α被限定为0.05。

最关心β的当然是我们的药厂了,为啥?为钱,哈哈!药厂当然不希望明明他的药优

于别人的药,却被说成两种药没啥区别吧,所以它们希望降低这种错误发生的概率,也就

是降低β了。换言之,他希望提高把握度(1-β),使自己的药能有更高的概率作出来优于别的药物,从而进入市场,赚取钞票。。。一般情况下,β应小于0.2,甚至0.1,对应的把握度为80%或90%。

当然药厂降低β,也就是提高把握度,会提高你试验成功的概率,但这也同时意味着

同等条件下样本量的增加,样本量的增加就意味着money的增加,这些都是矛盾的,没办法,谁让这世界本来就是一个矛盾的世界呢,你只好去权衡利弊,找个平衡点呗。。。

今天就到这里吧,休息,休息。。。

小胖说统计之二:怎样认识Non-positive 试验

在上一博认识完α和β后,我们继续深入探讨一下β。。。

在很多情况下,我们会经常遇到临床试验的结果是Non-positivie(P>0.05),此时你会怎么解释呢?有的同学比较干脆,看到p>0.05,就立马认为两种药无差别,更有甚者,如果对照组是安慰剂的话,那这个药就被判定为无效,彻底over了。当然这些同学未免有点武断了,其实大多数情况下,这是由于under-powered造成的,下边小胖就给大家举个例子看看吧。。。咱保护人家的知识产权,先说明这个例子的referencnce为: Arch Pediatr Adolesc Med. 2006;160(11):1126-1129, 仅供咱参考学习之用。

试验是这样的:

本试验比较Duct Tape和placebo治疗小学儿童人乳头瘤病毒(疣)的疗效,主要疗效指标是6周后的wart resolution,最后的试验结果是Duct Tape组16%,placebo组6%,p=0.12。

看到这个结果,你会得出啥结论?别,咱先别急,先看看它的最初的样本含量和把握度设计的叙述:

根据以往综述,placebo治疗10周后约有30%的wart resolution。假设双测检验0.05显著水平,每组需要39例病人才能有80%的把握检验出Duct Tape和placebo组wart resolution30%的的差异。考虑到失访,最终入组100例(每组50例)。

看完这个叙述,你应该会发现点东西了吧,对!研究者过高地估计了placebo的wart resolution,同时也过高地估计了两组之间的差别。研究者那个后悔啊,肠子都悔青了,后来经过反省,他发现了俩估计上的问题:

(1)人家以前的综述,是说10周后的wart resolution是30%,本试验主要指标是6周后的wart resolution,当然这个率应该低一些;

(2)与placebo30%的差别,也太过于自信了吧,人家临床上觉得你的药有15%的提高就有临床意义了,你把标准提得这么高,不是自找麻烦吗。

根据试验结果,我们可以推算出本试验的把握度只有26%, 这么低的把握度就怪不得没做出啥来了。。。

这样吧,小胖替研究者重新设计一下,咱假设plcebo组30%wart resolution不变,把两组差异降为15%,这样算出来,每组做175例,总共350例。

假设同样的wart resolution结果,Duct Tape组16%,placebo组6%,你猜咋得?把握度大于80%,P<0.05了!!!咱的Duct Tape有救了!!!

说了这么半天,大家可能也闹胡涂了,算了,记住以下几点吧,随便锻炼一下英文,权当这次没白来看小胖的blog。

1. Non-positive ONLY not conclusive

2. Not be able to detect a difference does NOT mean there is no difference

3. The predominant reason of Non-positive trials is mostly “under-powered”, rather than ineffectiveness of the test therapy

小胖说统计之三:优效、等效和非劣效试验(一)

小胖在论坛上转悠了一阵子了,发现有很多同学对优效、等效和非劣效试验都做过一些讨论,小胖不才,在这里再给大家解释一下,权当班门弄斧,如有偏颇,大家尽管拍砖,就算小胖来找残吧,所谓小胖不入地狱,谁入地狱,小胖开博开讲了。。。

先从优效性试验开讲吧。顾名思义,优效性试验的目的是显示试验药物的疗效优于对照药。优效性检验的第一步往往是对两组进行统计学检验,看看有没有显著性差异。当两组有显著性差异后,下一步就得判断两组之间的差异是否有临床意义。这里小胖需要强调的是,统计学显著性差异并不意味着差异有临床意义。举个极端的例子,只要样本量足够大,10000甚至100000,哪怕是0.01的差异都能有统计学意义,但这个0.01的差异当然在临床上是不会被认可的。考虑到这一点,当计算优效性试验的样本量时,你假设的两组差异必须在临床上是有意义的。

关于优效性试验还有一个大家常碰到的问题是,究竟是单侧检验还是双侧检验呢?其实这个问题统计学界本身存在着争议,至于具体争议,小胖就不在此赘述了,小胖想让大家知道的是,现在通常优效性试验取的都是双侧0.05显著水平。

至于具体的统计检验,可通过双侧0.05显著水平或双侧95%可信区间两种方法来实现,当然了优效性试验要求p<0.05,或两组疗效(治疗-对照)之差的95%可信区间的下限大于0。今天小胖就罗唆到此,下次继续。。。休息。。。

小胖说统计之四:优效、等效和非劣效试验(二)

在上篇博客中,小胖给大家简单地介绍了一下优效性试验,不知大家明白一点没有,如大家有何问题,尽可拍砖。。。

相关文档
最新文档