从临床试验实例看优效、等效和非劣效试验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从临床试验实例看优效、等效和非劣效试验
-
结合一些临床试验的例子对优效、等效和非劣效试验再做一点阐述,权当加深理解吧。
让我们先看一个简单的例子(J Am Acad Dermatol 2003;48:535-41):
为了证实地氯雷他定对慢性荨麻疹的疗效和安全性,研究者设计了一项地氯雷他定对比安慰剂治疗慢性荨麻疹的随机对照双盲试验。本试验选择的主要终点是与基线相比搔痒评分的变化。假设标准差为 1.0分,每组需要100例病人在0.05的显著性水平上有90%的把握能检验出两组0.5分或更多的差别。最后结果地氯雷他定与基线相比搔痒评分的变化为 1.05,安慰剂组为0.52,p<0.001. 结论地氯雷他定可以有效治疗慢性荨麻疹。
以上这个例子就是一个最经典的优效性试验的例子,即通过安慰剂对照试验显示试验药物优于安慰剂,从而证实试验药物的疗效。这种安慰对照的优效性试验在临床试验的发展进程中起到了鼻祖的作用,以前对于某种疾病还没有治疗药物的时候,一种新药物的出现,往往会选择安慰剂对照来证实疗效,当然随着越来越多标准药物的出现,以及出于伦理等方面的考虑,现在安慰剂对照的试验也开始变少,但它在药物研发中的地位是决不能抹杀的。
随着医学的发展,现在各个疾病基本上都有自己有效的治疗药物,这时我们推出一种新药,往往在选择对照时,不得不选择那些已有的有效治疗药物,所以相比较安慰剂对照试验,阳性对照试验越来越多,而阳性对照试验最理想的情况是,你的药物优于阳性对照药物,这和上文中提及的安慰剂对照试验一样,是证实你的药物的疗效的最好的也是最有力的方法。这种阳性对照的优效性试验在现在我们的临床试验中发挥了很重要的作用,怎么说呢,一种新药的出现,如果它有突破性的进展,最大的证明就是你的疗效优于现在这种疾病的标准治疗药物,而此时阳性对照的优效性试验就是你证明你疗效的最理想的选择。
给大家介绍一个药物研发历史上一个很著名的阳性对照优效性试验的例子-EVIDENCE研究。
2003年3月8日,美国FDA正式批准瑞士雪兰诺公司的Rebif(干扰素beta-1a)治疗复发性多发性硬化。此次FDA批准Rebif上市,打破了另外一种干扰素类药物Avonex的市场专有状态,Avonex在1996年被批准用于多发性硬化的治疗。那么FDA为什么批准呢,其中最重要的依据就是一项Rebif与Avonex直接比较的研究-EVIDENCE研究,而Rebif的批准则说明了如果有另外一种药物比原有药物更有效或者更安全的话,那么就可以打破原有药物的市场专有状态。
那么现在我们来看一下EVIDENCE的研究设计和结果吧。EVIDENCE研究是一项比较Rebif与Avonex两种药物治疗复发性多发性硬化效果的大规模的研究,在美国、加拿大以及欧洲的多个中心进行。677名复发性多发性硬化病人被随机分配到Rebif和Avonex
组,其中Rebif组339例,Avonex组338例。主要疗效终点为治疗24周后的无复发率。研究者把本试验设计为优效性试验,即证明Rebif 优于Avonex,而在进行样本量计算时,则假定Rebif组和Avonex组治疗24周后的无复发率分别为65%和50%。研究结果显示,治疗24周后,Rebif组和Avonex组无复发率分别为74.9%和63.3%,p= 0.0005,而在其他的次要终点方面,Rebif组也显著优于Avonex组。最后研究结果证明,Rebif在治疗复发性多发性硬化方面比Avonex 更有效。
关于阳性对照的试验,能作出优效来当然是最理想的结果,但研究者在设计这种试验时,往往会遇到一个难题,一是对照药物的选择,另一个就是你有没有把握作出优效来,如果你设计成优效试验,结果作出来确实优势,当然是皆大欢喜,但如果作不出来,两种药物没有统计学差异呢,这时对结果的解释和结论的得出往往就会变得比较复杂,最重要的一点是你不能因为两者没有统计学差异而得出两种药物疗效相当或者非劣效之类的结论,而造成结果无统计学差异的原因则有很多,并不是一句两种药物疗效相等所能解释的。
首先让我们来看两个例子:
研究1:随机、双盲、对照试验
(1)比较两种溶栓药:SK和rt-PA
(2)主要终点:30天死亡率(两分类变量)
(3)SK: 10370 例病人rt-PA: 10348例病人
(4)SK: 7.4% rt-PA: 6.3%
(5)卡方检验:p=0.0028
研究2:随机、双盲、对照试验
(1)比较两种溶栓药:A和B
(2)主要终点:30天死亡率(两分类变量)
(3)A: 1000 例病人B: 1000例病人
(4)A: 7.4% B: 6.3%
(5)卡方检验:p=0.37
从研究1和研究2,我们能得出什么结论?
研究1:差异有统计学意义,SK的疗效优于rt-PA
研究2:差异无统计学意义,能否得出A和B的疗效相同?
从上边的例子,我们可以看出,同样的30天死亡率,结果却大不相同。这里就涉及到一个对p值的正确认识的问题,这种问题在设计为优效性的试验中尤为常见。当p>0.05时,统计上说是无统计学意义,它的含义是根据当前数据,尚不足以认为两组间疗效差异具有统计学意义。
换句话说,p>0.05是一个不是结论的结论,从统计学上说它是结论,表示无统计学意义;从临床上说,它不是结论,既不能说两药有差别,
也不能说两药无差别,可能例数过少或误差过大,增大例数或减少误差就可能达到p<0.05。就如上面的例子,当每组样本量从1000增加到10000时,同样的30天死亡率的比较就能达到p<0.05。因此,我们必须在这里强调的一点就是,不能仅仅从p>0.05就得出两药疗效相等的结论。
在优效性试验中,还会涉及到一个统计学差异与临床差异的问题。统计学差异很好理解,就是两组的差别有统计学意义,这个一般是由我们的p值或95%可信区间来判断的,而临床差异呢,就是从临床角度考虑两组的差别是具有临床意义的,举个例子来说,两种降压药降压差别在3mmHg以上才具有临床意义。
在考察差异的临床试验中,两组差异无外乎会出现下列4种结果:(1)统计学和临床都有意义
(2)统计学和临床都无意义
(3)统计学有意义,临床无意义
(4)统计学无意义,临床有意义
上边的四种情况中,出现第一种和第二种,那么结论比较明确。然而,当统计学和临床不一致时,即出现上边的第三和第四种情况时,则需要进行具体分析:
(1)当出现第三种情况时,即统计学有意义,临床无意义;这时我们不能以统计学上的意义来取代临床上的意义,为什么呢?很简单,不管真实差异多么小,当样本量足够大时,总会检验出两组具有统计学差异。例如,上边提及的降压药,如果两组实际差别也就是1mmHg,只要你的样本量足够大,上万,上十万,总能检验出统计学差异来,但这种差异无临床意义,如果是一种新药,那么这种药物本身也就失去了批准上市的意义。因此,这里小胖要特别提到的就是,考虑到这一点,当计算优效性试验的样本量时,你假设的两组差异必须在临床上是有意义的。
(2)当出现第四种情况时,即统计学无意义,临床有意义;为什么会出现这种情况呢?很好理解,如果两组真实差异确实很大,但样本量太小,也会出现差异无统计学意义的结果。比如我们在上篇博文中提及的那个例子的研究2中,A组和B组30天死亡率分别为7.4%和6.3%,两者的差异是具有临床意义的,但由于样本量不够,差异无统计学意义;而当样本量增大时,同样的情况到了研究1中两组的差异就具有统计学意义了。
首先,给大家说一个非劣效试验的例子-Moxatag注册临床试验
2008年1月24日,Middlebrook制药有限公司宣布FDA已批准其开发的阿莫西林(amoxacillin)775mg缓释片Moxatag,用于每日一次口服治疗12岁及以上青少年和成人的继发于酿脓链球菌感染的咽炎和(或)扁桃体炎,而Moxatag则成为在美获得批准的第一个每日一次用阿莫西林缓释制剂。
而这次FDA批准的主要依据则正是一项随机双盲平行对照的非劣效试验。在这项试验中,对Moxatag每日一次和penicillin每日四次进行了比较,主要终点为细菌清除率。本试验设计为非劣效试验,即Moxatag在细菌清除率方面不劣于penicillin,非劣效界值为10%,