EMEA优效性与非劣效性之间转换的考虑要点
非劣效界值的确定
1)非劣效性界值为15%的确定依据非劣效性界值可理解为在非劣效性试验中,试验组与对照组疗效差别的临床上可接受的最大值,通常用Δ来表示。
界值的确定需要由主要研究者从临床意义上和统计学专业人员从统计学意义上共同审慎的商定,要考虑到临床特性、同类产品的临床疗效、安全性、安慰剂效应等因素。
欧洲药物评审组织(EMEA)发布的《非劣效界值选择的指导原则》1(索引号:EMEA/CPMP/EWP/2158/99),以及人用药品注册技术要求国际协调会(ICH)发布的E9、E10指导原则对非劣效性界值的设置提供了基本的指导,但因该值的确定需建立在具体疾病特征、临床意义、风险/效益分析等要素基础上,所以一直缺乏具体的方法和标准。
我国学者发表的文章、著作中对该问题的阐释极少,基本为对上面两个指导原则的理解,无具体方法及实例。
而对于无法实施安慰剂效应的医疗器械产品,该如何采用以上两指导原则,仍然是临床研究中的盲区。
由于EMEA和ICH指导原则强调确定非劣效界值时不能忽略安慰剂效应,难以适用无“安慰器械”的医疗器械产品。
故本临床试验采用美国FDA对抗感染药物临床试验推荐的递减方程(Step-down function)的方法,当同类产品疗效反应率(有效率)分别为90%、<90%但≥80%、<80%但≥70%时,推荐Δ值分别为10%、15%、20%。
查询近年来椎间融合术临床疗效相关文献,得到:结合调查数据可知,我国近年来应用椎间融合器治疗脊柱损伤、退行性病变类手术的有效率能达到80%以上,未见有效率低于80%的报道。
本临床试验相关研究者认为,学术研究更多关注于某一集中症状人群的术后疗效评价,从而在研究样本中剔除了复杂的危重病例样本。
而鉴于我国实际国情,就诊患者大多为危重病例,故将实际临床中的同类产品的临床有效率定为80%~90%之间更为保守稳妥,可一定程度消除研究者的偏倚性认识。
根据以上结论,北京大学人民医院、中国人民解放军总医院第一附属医院主要研究者以及相关统计人员研究后认为将该项目的非劣效界值定为15%比较恰当,该值所体现的临床意义及统计学意义都比较明显。
EMEA优效性与非劣效性之间转换的考虑要点
EMEA《优效性与非劣效性之间转换的考虑要点》审评四部审评八室黄钦审校伦敦,2000年7月27日 CPMP/EWP/482/99I.前言许多近期的申报导致CPMP就优效性、非劣效性和等效性试验的解释进行讨论。
ICH E9(临床试验的统计学原则)中包含了这些问题。
ICH E10(对照组的选择)的第2步草案以及CPMP有关生物利用度和生物等效性研究指南的注释中也有进一步的相关材料。
但指南未说明实践中生物利用度的某些具体困难。
从更广的角度来说,这些困难与分析时从一个设计目的向另一个目标转换相关。
所讨论的试验的类型是那些设计用于比较新产品与活性对照药的试验。
目的可以是证明:l 新产品的优效性l 新产品的非劣效性或l 两种产品等效当获得试验结果时,它们可以提出另外的解释。
因此优效性试验的结果可能仅足以支持非劣效性,而非劣效性试验的结果可能显示出支持优效性。
另外,等效性试验的结果可以显示出支持更小范围内的等效性。
这一专题满意的方法需要理解可信区间以及得到试验结果和从这些结果中得出结论的方式。
这一理解还有助于我们认识到为什么试验结束后对把握度的计算意义不大。
为简便起见,本文从单个主要变量疗效研究的角度来说明优效性、非劣效性和等效性问题。
在VI节还对其他情况进行了评论。
整个本文件中假定临床目的的转换不会导致主要变量的选择或定义发生任何变化。
II.试验目的II.1优效性试验设计优效性试验是为了检出治疗间的差异。
分析的第一步通常是检验统计学意义,以评价试验结果是否与两种治疗的临床效果无差异的假设相符。
在质量好的试验中,统计学意义的程度(p值)提示观察到的差异(或较大的值)是偶然产生的,假定事实上并无差异。
概率越小,则假定治疗间真正无差异的可能性越小。
一旦认为“无差异”的假设不可靠,那么一定要估计差异的大小,以评价作用是否有临床意义。
这包括两个方面。
首先,有治疗间差异大小的最佳估计值(点估计)。
对于正态分布的数据,这通常是被看作每个组平均值间观察到的差异。
欧盟EMEA关于变更的要求PPT课件
22
欧盟EMEA关于变更的要求
2012.8
.
1
一、定义 二、相关法规 三、API相关的通知型变更 四、变更的通知和执行
.
2
一、定义
EMEA将上市后产品变更分为4种情况: IA型微小变更:对相关医药产品的质量、安全或有效性的最低影响,
或没有影响的变更。无需进行任何评价,也被称为“告知并实施” 的变更 II型重大变更:对相关医药产品的质量、安全或有效性可能会有重 大影响的变更。需要经药品主管当局事先批准后方可实施的变更。 IB型微小变更:既不是IA的微小变更,也不是II型的重大变更。需 要进行简单的评价,属于“告知,等待,并实施”的变更。 紧急安全性限制:主要适用于药品标签的即刻变化,指药品申请人 对威胁公众健康的事件采取的变更程序。
性研究的合理性说明。 API提供6项,其它提供前4项。
.
10
4. API检测程序的变动,或者生产API的工艺中使用的起始 物料、中间体或试剂的检测程序的变动
批准的检测程序的微小变动—IA 条件:1)分析方法本身不变(如:柱长或温度改变,但是
柱子类别或方法不变);没有新的杂质被检出。 2)已按有关指南要求进行适当的(再)验证。 3)方法验证结果证明:新检验方法至少等同于原方
2. Guideline on dossier requirements for Type IA and IB notifications IA和IB通知型变更的文件要求指南
.
4
三、API相关的通知型变更
1. API生产工艺的微小变更—IB 条件:1) 杂质状况没有定性和定量上的变化,或者API的理化性质
结果。
.
6
规模减小------IA 条件:1)生产方法所有变动只与批量放大有关,如,使用了不同大
emea生物利用度和生物等效性研究指导原则问答》
审评四部审评七室陈俊春??高晨燕EMEA自2002年对《生物利用度和生物等效性研究指导原则》(以下简称EMEA指导原则)修订后,于2006年7月发布了《生物利用度和生物等效性研究指导原则问答》(以下简称EMEA指导原则问答)对该原则的一些重要部分作出解释。
以下就其问答全文结合我国的《化学药物制剂人体生物利用度和生物等效性研究技术指导原则》(以下简称我国指导原则)与EMEA指导原则做一简介。
1.、生物等效判定时对Cmax的要求EMEA指导原则的生物利用度等效评价要求Cmax比值的90%置信区间在0.80 –1.25范围内。
特殊情况下,如药物治疗窗窄,则可接受的区间范围应更窄。
仅在特定情况下,才可接受更宽的区间范围,如0.75-1.33;而且该区间应事先确定,即在试验设计时应考虑到接受大于常规区间范围的情况,事后扩大原方案中确定的可接受区间的做法不可取;并应证明该范围对于病人更换制剂时在安全和有效性方面的合理性。
EMEA指导原则在此提及的增加Cmax比值(非AUC)可接受区间范围的情况并不多见,并且仅扩大了一点 (0.75 ? 1.33),仍窄于我国指导原则中规定的范围0.70-1.43。
扩大时仅限于以下情况:1)该药物安全性和有效性的PK/PD相关性资料足以显示Cmax可接受区间的扩大不会显着影响其临床药效。
2)如PK/PD资料不充分,临床安全性和有效性资料可以作为替代,但这些资料仅限于该研究药物。
3)药物在个体内的生物利用度具有高变异性。
EMEA和我国的指导原则都对高变异性药物做了定义(即:个体内变异系数大于30%),但是要评价其个体内变异性需要设计重复试验。
2. 关于离群值EMEA指导原则要求试验方案中应详细说明判定生物学上不合理的离群值方法。
数据或个体的排除仅限于违反方案的情况,如呕吐、腹泻,分析失败等。
这些情况应在所有受试者中排查,而与药代动力学参数数值大小或其偏离的程度无关。
不能仅因统计分析或药代动力学的原因排除数据,因为无法区分制剂影响因素和药代动力学影响因素。
非劣效等效性优效性修订稿
非劣效等效性优效性集团文件发布号:(9816-UATWW-MWUB-WUNN-INNUL-DQQTY-非劣效、等效和优效性检验及其适用范围摘要:在对国内临床研究报告的审评中我们经常遇到以传统的显着性检验代替非劣效等设计的检验的情况,下文探讨了二者的区别及适用范围。
关键词:非劣效试验等效性试验优效性试验一、传统检验和区间检验药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究,以判断和区别其实际的疗效如何,审评中我们常见到的错误是采用如下传统的假设检验:无效假设H0:A药的疗效-B药的疗效=0 备择假设H1:A药的疗效≠B药的疗效结论:如P>0.05,按α=0.05的检验水准不能拒绝H0假设,如P≤0.05,则接受H1假设。
目前已经公认这种传统的假设检验(又称显着性检验)用于临床试验判断药物的疗效是不合理的,它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义,因此国际普遍采用非劣效、等效或优效性假设检验。
传统的假设检验之所以不合理,在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等,是纯粹的统计学意义,而未体现实际的临床意义,虽然有单双侧之分,如单侧为H0:μ1-μ2=0,H1:μ1-μ2>0(或μ1-μ2<0),但它检验的依然是样本所代表的总体均数的统计学含义,而未将实际临床意义包含进来考虑。
另一方面,对于传统检验的结论,如P>0.05,表示两药疗效的差别无统计学意义,不拒绝H0假设,说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论,并不是当然的接受H0假设,并非认为H0假设必然成立而两药疗效的总体均数一定相等,此时有可能两药疗效的总体均数确实相似,也有可能是检验效能(把握度)不够,尚需更大样本量进行检验;如P≤0.05,两药疗效的差别有统计学意义,也就是说,两药疗效的总体均数确实不相等,但这种统计学意义的差异不一定具有实际的临床意义,也可能其临床意义却是优效、等效或非劣效的。
差异性、优效性、等效性和非劣效性检验的区别
差异性、优效性、等效性和非劣效性检验的区别在临床研究工作中,我想大部分临床研究者都听说过优效性、等效性和非劣效性检验等,有很多人也很明白,但也有人尚不太清楚它们之间的区别,本期我们将和大家一起来讨论这一问题。
1、什么是差异性检验?差异性检验,大家天天都在用,其实大家的论文里大部分用的都是差异性检验。
比如独立样本t检验,两个可选的假设分别是A=B 和A≠B。
这就是差异性检验,或者叫不等的检验,意思就是A和B 两组有差异、不相等。
什么意思呢?就是检验A-B=0这一公式成立与否。
比如同一批病人,我们随机分成A和B组,然后检验A组和B组患者血红蛋白水平的高低,这就是差异性检验。
即A组和B组之间有差异,什么叫有差异,就是两组间的差异不等于0。
跟上述内容相反的是,当我们将A组和B组之间的差异跟一个既定的值(Δ)比较时,就产生了一系列的检验,如优效性、等效性和非劣效性检验。
下面这个图可以先看一下:2、什么是优效性、等效性和非劣效性检验?上述三种检验在临床药物试验中应用最多,当我们研制一种新药物的时候我们总是盼着新药的疗效比较好,或者跟旧药差不多。
我想没有人会盼着研制的新药的疗效差于旧的药物,那么还研制它干嘛啊。
基于上述三种情况,就提出了三个用于新药临床试验的检验思路,分别是优效性、等效性和非劣效性检验。
下面分别说明,先假设一个例子,某研究者要研究A药与B药的关系,他能够接受的差值是Δ。
2.1 优效性检验研究目的:A药的效果好于B药。
研究假设:(1)无效假设:A-B≤Δ;(2)备择假设:A-B>Δ。
备注:用来证实新药A的效果好于旧药B,来判断新药A上市的情况。
它是一个单侧的检验。
2.2 等效性检验研究目的:A药的效果等于B药。
研究假设:(1)无效假设:A-B≤-Δ或A-B≥Δ;(2)备择假设:-Δ<A-B<Δ。
备注:常用于同一活性成分的药物之间的疗效比较,证实的是A 药和B药的疗效相当。
它可以是单侧也可以是双侧的检验。
(完整版)EMEA发布的《非劣效性界值选择的指导原则》
EMEA发布的《非劣效性界值选择的指导原则》部门正文内容审评四部审评八室黄钦审校伦敦,2005年7月27日索引:EMEA/CPMP/EWP/2158/99人用药品委员会(CHMP)生效日期2006年1月目录前言 (2)1.背景 (3)2.一般考虑 (4)3.证明疗效 (5)3.1 三个组的试验:试验产品、参照品和安慰剂 (5)3.2 两个组的试验:试验产品和对照产品 (6)3.3 不能肯定优于安慰剂的情况 (7)4.确定与活性对照药相比可接受的疗效 (8)5. 难以证明有合理大小的非劣效性界值的情况 (9)5.1使用升高显著性水平的优效性 (9)5.2在另一方面有优势的产品 (11)6.结论 (11)前言许多将一种试验产品与一种活性对照药物进行比较的临床试验被设计为非劣效性试验。
目前“非劣效性”这一术语已得到普遍认可,但如果从字面上来理解可能会产生误导。
非劣效性试验的目的往往声明为了证实试验产品不亚于对照药物。
但只有优效性试验才能证实这一点。
事实上非劣效性试验的目的是为了证实试验产品不如对照产品的程度,不超过事先指定的一个较小的量。
这个量被称为非劣效性界值(non-inferiority margin),或称为Δ。
在许多情况下,可能进行非劣效性试验而不做优效性试验,或者除了做优效性试验,另外再做劣效性试验。
这些情况包括:➢在某些情况下不可能进行生物等效性研究时(例如缓释产品或局部用制剂),根据基本上相似的情况提出的申请;➢与标准治疗相比安全性方面可能有优势的产品需要与标准治疗进行疗效比较,以便进行风险-受益评价;➢需要直接与活性对照进行比较以协助风险受益评价的情况;➢与活性对照相比疗效没有显著降低可以接受的情况;➢不能用安慰剂组,要用活性对照试验以证实试验产品疗效的某些疾病。
在以上最后4种情况下,如果能显示优于参照产品则不一定要做非劣效性试验。
为证实非劣效性,推荐的方法是在方案中事先指定一个非劣效性的界值。
[2016最新精品]差异性、优效性、等效性和非劣效性检验的区别
差异性、优效性、等效性和非劣效性检验的区别在临床研究工作中,我想大部分临床研究者都听说过优效性、等效性和非劣效性检验等,有很多人也很明白,但也有人尚不太清楚它们之间的区别,本期我们将和大家一起来讨论这一问题。
1、什么是差异性检验?差异性检验,大家天天都在用,其实大家的论文里大部分用的都是差异性检验。
比如独立样本t检验,两个可选的假设分别是A=B和A≠B。
这就是差异性检验,或者叫不等的检验,意思就是A和B两组有差异、不相等。
什么意思呢?就是检验A-B=0这一公式成立与否。
比如同一批病人,我们随机分成A和B组,然后检验A组和B组患者血红蛋白水平的高低,这就是差异性检验。
即A组和B组之间有差异,什么叫有差异,就是两组间的差异不等于0。
跟上述内容相反的是,当我们将A组和B组之间的差异跟一个既定的值(Δ)比较时,就产生了一系列的检验,如优效性、等效性和非劣效性检验。
下面这个图可以先看一下:2、什么是优效性、等效性和非劣效性检验?上述三种检验在临床药物试验中应用最多,当我们研制一种新药物的时候我们总是盼着新药的疗效比较好,或者跟旧药差不多。
我想没有人会盼着研制的新药的疗效差于旧的药物,那么还研制它干嘛啊。
基于上述三种情况,就提出了三个用于新药临床试验的检验思路,分别是优效性、等效性和非劣效性检验。
下面分别说明,先假设一个例子,某研究者要研究A药与B药的关系,他能够接受的差值是Δ。
2.1 优效性检验研究目的:A药的效果好于B药。
研究假设:(1)无效假设:A-B≤Δ;(2)备择假设:A-B>Δ。
备注:用来证实新药A的效果好于旧药B,来判断新药A上市的情况。
它是一个单侧的检验。
2.2 等效性检验研究目的:A药的效果等于B药。
研究假设:(1)无效假设:A-B≤-Δ或A-B≥Δ;(2)备择假设:-Δ<A-B <Δ。
备注:常用于同一活性成分的药物之间的疗效比较,证实的是A药和B药的疗效相当。
它可以是单侧也可以是双侧的检验。
EMEA发布的《非劣效性界值选择的指导原则》之欧阳家百创编
发布日期欧阳家百(2021.03.07)20070405化药药物评价>>临床安全性和有效性评价栏目EMEA发布的《非劣效性界值选择的指导原则》标题黄钦作者部门正文内容审评四部审评八室黄钦审校伦敦,2005年7月27日索引:EMEA/CPMP/EWP/2158/99 人用药品委员会(CHMP)生效日期 2006年1月目录前言1.背景2.一般考虑3.证明疗效 3.1 三个组的试验:试验产品、参照品和安慰剂3.2 两个组的试验:试验产品和对照产品3.3 不能肯定优于安慰剂的情况4.确定与活性对照药相比可接受的疗效5. 难以证明有合理非劣效性界值的情况5.1使用显著性水平升高的优效性5.2在另一方面有优势的产品6.结论前言许多将一种试验产品与一种活性对照药物进行比较的临床试验被设计为非劣效性试验。
目前“非劣效性”这一术语已得到普遍认可,但如果从字面上来理解可能会产生误导。
非劣效性试验的目的往往声明为了证实试验产品不亚于对照药物。
但只有优效性试验才能证实这一点。
事实上非劣效性试验的目的是为了证实试验产品不如对照产品的程度,不超过事先指定的一个较小的量。
这个量被称为非劣效性界值(non-inferiority margin),或称为Δ。
在许多情况下,可能进行非劣效性试验而不做优效性试验,或者除了做优效性试验,另外再做劣效性试验。
这些情况包括:l 在某些情况下不可能进行生物等效性研究时(例如缓释产品或局部用制剂),根据基本上相似的情况提出的申请;l 与标准治疗相比安全性方面可能有优势的产品需要与标准治疗进行疗效比较,以便进行风险-受益评价;l 需要直接与活性对照进行比较以协助风险受益评价的情况;l 与活性对照相比疗效没有显著降低可以接受的情况;l 不能用安慰剂组,要用活性对照试验以证实试验产品疗效的某些疾病。
在以上最后4种情况下,如果能显示优于参照产品则不一定要做非劣效性试验。
为证实非劣效性,推荐的方法是在方案中事先指定一个非劣效性的界值。
EMEA治疗抑郁药物临床研究指南说明
EMEA “治疗抑郁药物临床研究指南说明”--关于抗抑郁药物临床研究一般要求审评四部王水强赵建中摘要:本文较为全面地介绍了抗抑郁药物临床研究的基本内容,包括临床试验的设计、疗效评价方法和评价标准等。
关键词:抑郁症药物治疗临床试验一、引言一种药品,只有当其用于治疗重性抑郁发作(major depressive episodes)有效时,才能考虑作为抗抑郁药物。
重性抑郁发作为抑郁综合征,与单纯的抑郁症状可以鉴别。
在不同的分类系统中,对抑郁症(Depressive disorders)进行了分类,如DSM-IV、ICD-10。
依照DSM-IV,抑郁症可分为重性抑郁症(Major Depressive Disorder)、心境恶劣(Dysthemic Disorder)和非特异性抑郁症(Depressive Disorder Not Otherwise Specified)。
该指南仅涉及重性抑郁症,其临床特征为一次或多次重性抑郁发作。
重性抑郁症是一种常见病,人群的终生患病率约为15 %,在女性中可能高达25 %。
重性抑郁症并非良性疾病(benign disorder),自杀的危险性大,并有慢性化趋势,经常会出现复发(relapse)和再发(recurrence)。
治疗重性抑郁的关键在于控制急性症状和维持发作后缓解期的疗效(the index episode)的;其次是预防新的发作(new episodes)或再发(recurrence)。
在双向障碍的病程中可见重性抑郁发作,这时应称作“双向抑郁”。
二、临床研究(一)药效学研究可采用多种试验进行药效学研究,但目前还没有专门的人类抑郁症模型。
认知、反应时间或睡眠结构研究,可能会为药物不良反应提供一些资料。
(二)药代动力学研究应当进行常规的药代动力学研究(参见人体药代动力学研究指南),尤其是在量-效关系研究中,可探讨个体的血浆药物浓度。
(三)药物相互作用研究在研究可能的药代动力学和药效动力学相互作用时,一般要遵循药物相互作用指南。
临床试验中的统计学讲解
小胖说统计之一:认识α,β要了解生物统计在临床试验中的应用,首先需从认识α,β开始,就是这两个不起眼的符号贯穿了临床试验生物统计的始终。
α和β的定义是比较拗口的,特别是对于那些没学过统计的人来说,这两个东西是怎么也搞不明白具体是怎么回事。
虽然比较拗口,但咱还得在这里重复一下α和β的科学定义:α又称第I类错误或显著性水平,指拒绝了实际上成立的H0,β又称第II类错误,指不拒绝实际上不成立的H0。
对应β的还有一个概念叫power,国内翻译为把握度,它等于1-β,指拒绝实际上不成立的H0的概率。
说得通俗一点,临床试验中你会犯俩错误,一种错误就是两种药本来没啥区别,却说成您的药优于人家的药,这就是α;另一种错误就是你的药的确优于人家的药,却说成两种药没啥区别,这就是β。
那1-β呢,就是咱的优秀药物被发现的概率啊。
不知道,上边的解释,您听明白了吗?如果听明白了,小胖要问您了,谁应该最关心α啊,那又谁应该最关心β啊?最关心α的当然是我们伟大的SFDA以及诸如FDA之类的药品审批机构啊,为啥?他们当然不希望一种药明明和别的药没啥区别,却被药厂说成疗效更好,换言之,他们可不希望审批无效的药物进入市场。
所以啊,它们要限定这种错误发生的概率,也就是我们的α了,一般情况下,α被限定为0.05。
最关心β的当然是我们的药厂了,为啥?为钱,哈哈!药厂当然不希望明明他的药优于别人的药,却被说成两种药没啥区别吧,所以它们希望降低这种错误发生的概率,也就是降低β了。
换言之,他希望提高把握度(1-β),使自己的药能有更高的概率作出来优于别的药物,从而进入市场,赚取钞票。
一般情况下,β应小于0.2,甚至0.1,对应的把握度为80%或90%。
当然药厂降低β,也就是提高把握度,会提高你试验成功的概率,但这也同时意味着同等条件下样本量的增加,样本量的增加就意味着money的增加,这些都是矛盾的,没办法,谁让这世界本来就是一个矛盾的世界呢,你只好去权衡利弊,找个平衡点呗。
如何确定非劣效试验的判断界值
发布日期20061120栏目化药药物评价>>临床安全性和有效性评价标题如何确定非劣效试验的判断界值作者黄钦部门正文内容审评四部审评八室黄钦摘要:非劣效试验中判断试验药和阳性对照药疗效相当的疗效差异至关重要,也比较复杂,下文探讨了非劣效性试验界值确定的考虑要点及审评中的主要关注点。
关键词:非劣效性试验判断界值(margin)非劣效、等效和优效性试验的区间检验与传统假设检验最大的不同是考虑了临床意义,以临床意义的差异Δ来进行假设检验,那么,如何确定这个疗效差异的判断界值至关重要,若Δ太大,将把疗效远不如对照药的药物判断为有效或等效;若Δ太小,则可能将本来可以推广应用的有效药物误判为无效而得不到及时上市,并且所需的样本含量可能会大的不切实际,因此Δ的确定应当合适,理论上应该是药效间具有临床意义的最大允许差异值。
但实际确定起来往往较为困难和复杂,需要根据已有的文献数据,设计类型及数据的分布类型,临床认识水平及成本效益来综合考虑,是统计学推理和临床判断相结合的结果。
没有哪本书或指导原则能够给出一个精确无疑的算法。
非劣效试验的Δ值的确定最为复杂,通常参考阳性对照药与安慰剂间的疗效差异即阳性对照药的绝对疗效来判定,需要达到两个目标(满足两个条件)才是适合的判断界值:使试验药物(A)的疗效既要优于安慰剂(P)以保证药物的有效性(A-P>0),又要好到不差于阳性对照药(B)(A-B>-Δ)。
因此,ICH及EMEA等均推荐同时包括安慰剂对照和阳性对照药的三个试验组设计的研究,试验药必须证明在统计学意义上优于安慰剂(试验产品与安慰剂差异的双侧95%可信区间的下限必须大于0,如果试验药和参照药均未能显示在统计学意义上优于安慰剂,可能提示试验不灵敏或者是测定方法不灵敏),然后要用临床判断来评价所观察到的与安慰剂的差异是否具有临床意义。
因为有阳性药参照组,可有助于做出这一判断,如果参照药是经注册管理部门批准的药物,并且已知在同类型的试验中通常能得到具有临床意义的效果,那么这一试验中所见的参照药与安慰剂之间的差异有助于评价安慰剂与试验药品之间差异的临床意义。
EMEA优效性与非劣效性之间转换的考虑要点
EMEA《优效性与非劣效性之间转换的考虑要点》审评四部审评八室黄钦审校伦敦,2000年7月27日 CPMP/EWP/482/99I.前言许多近期的申报导致CPMP就优效性、非劣效性和等效性试验的解释进行讨论。
ICH E9(临床试验的统计学原则)中包含了这些问题。
ICH E10(对照组的选择)的第2步草案以及CPMP有关生物利用度和生物等效性研究指南的注释中也有进一步的相关材料。
但指南未说明实践中生物利用度的某些具体困难。
从更广的角度来说,这些困难与分析时从一个设计目的向另一个目标转换相关。
所讨论的试验的类型是那些设计用于比较新产品与活性对照药的试验。
目的可以是证明:l 新产品的优效性l 新产品的非劣效性或l 两种产品等效当获得试验结果时,它们可以提出另外的解释。
因此优效性试验的结果可能仅足以支持非劣效性,而非劣效性试验的结果可能显示出支持优效性。
另外,等效性试验的结果可以显示出支持更小范围内的等效性。
这一专题满意的方法需要理解可信区间以及得到试验结果和从这些结果中得出结论的方式。
这一理解还有助于我们认识到为什么试验结束后对把握度的计算意义不大。
为简便起见,本文从单个主要变量疗效研究的角度来说明优效性、非劣效性和等效性问题。
在VI节还对其他情况进行了评论。
整个本文件中假定临床目的的转换不会导致主要变量的选择或定义发生任何变化。
II.试验目的II.1优效性试验设计优效性试验是为了检出治疗间的差异。
分析的第一步通常是检验统计学意义,以评价试验结果是否与两种治疗的临床效果无差异的假设相符。
在质量好的试验中,统计学意义的程度(p值)提示观察到的差异(或较大的值)是偶然产生的,假定事实上并无差异。
概率越小,则假定治疗间真正无差异的可能性越小。
一旦认为“无差异”的假设不可靠,那么一定要估计差异的大小,以评价作用是否有临床意义。
这包括两个方面。
首先,有治疗间差异大小的最佳估计值(点估计)。
对于正态分布的数据,这通常是被看作每个组平均值间观察到的差异。
非劣效界值的确定
1)非劣效性界值为15%的确定依据非劣效性界值可理解为在非劣效性试验中,试验组与对照组疗效差别的临床上可接受的最大值,通常用Δ来表示。
界值的确定需要由主要研究者从临床意义上和统计学专业人员从统计学意义上共同审慎的商定,要考虑到临床特性、同类产品的临床疗效、安全性、安慰剂效应等因素。
欧洲药物评审组织(EMEA)发布的《非劣效界值选择的指导原则》1(索引号:EMEA/CPMP/EWP/2158/99),以及人用药品注册技术要求国际协调会(ICH)发布的E9、E10指导原则对非劣效性界值的设置提供了基本的指导,但因该值的确定需建立在具体疾病特征、临床意义、风险/效益分析等要素基础上,所以一直缺乏具体的方法和标准。
我国学者发表的文章、著作中对该问题的阐释极少,基本为对上面两个指导原则的理解,无具体方法及实例。
而对于无法实施安慰剂效应的医疗器械产品,该如何采用以上两指导原则,仍然是临床研究中的盲区。
由于EMEA和ICH指导原则强调确定非劣效界值时不能忽略安慰剂效应,难以适用无“安慰器械”的医疗器械产品。
故本临床试验采用美国FDA对抗感染药物临床试验推荐的递减方程(Step-down function)的方法,当同类产品疗效反应率(有效率)分别为90%、<90%但≥80%、<80%但≥70%时,推荐Δ值分别为10%、15%、20%。
查询近年来椎间融合术临床疗效相关文献,得到:结合调查数据可知,我国近年来应用椎间融合器治疗脊柱损伤、退行性病变类手术的有效率能达到80%以上,未见有效率低于80%的报道。
本临床试验相关研究者认为,学术研究更多关注于某一集中症状人群的术后疗效评价,从而在研究样本中剔除了复杂的危重病例样本。
而鉴于我国实际国情,就诊患者大多为危重病例,故将实际临床中的同类产品的临床有效率定为80%~90%之间更为保守稳妥,可一定程度消除研究者的偏倚性认识。
根据以上结论,北京大学人民医院、中国人民解放军总医院第一附属医院主要研究者以及相关统计人员研究后认为将该项目的非劣效界值定为15%比较恰当,该值所体现的临床意义及统计学意义都比较明显。
非劣效等效性优效性
非劣效、等效和优效性检验及其适用范围摘要:在对国内临床研究报告的审评中我们经常遇到以传统的显着性检验代替非劣效等设计的检验的情况,下文探讨了二者的区别及适用范围;关键词:非劣效试验等效性试验优效性试验一、传统检验和区间检验药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究,以判断和区别其实际的疗效如何,审评中我们常见到的错误是采用如下传统的假设检验:无效假设H0:A药的疗效-B药的疗效=0备择假设H1:A药的疗效≠B药的疗效结论:如P>,按α=的检验水准不能拒绝H0假设,如P≤,则接受H1假设;目前已经公认这种传统的假设检验又称显着性检验用于临床试验判断药物的疗效是不合理的,它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义,因此国际普遍采用非劣效、等效或优效性假设检验;传统的假设检验之所以不合理,在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等,是纯粹的统计学意义,而未体现实际的临床意义,虽然有单双侧之分,如单侧为H0:μ1-μ2=0,H1:μ1-μ2>0或μ1-μ2<0,但它检验的依然是样本所代表的总体均数的统计学含义,而未将实际临床意义包含进来考虑;另一方面,对于传统检验的结论,如P>,表示两药疗效的差别无统计学意义,不拒绝H0假设,说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论,并不是当然的接受H0假设,并非认为H0假设必然成立而两药疗效的总体均数一定相等,此时有可能两药疗效的总体均数确实相似,也有可能是检验效能把握度不够,尚需更大样本量进行检验;如P≤,两药疗效的差别有统计学意义,也就是说,两药疗效的总体均数确实不相等,但这种统计学意义的差异不一定具有实际的临床意义,也可能其临床意义却是优效、等效或非劣效的;因此,临床试验的统计学家们提出了区间假设检验的方法,提出以临床意义的差异Δ来进行假设检验,这就是非劣效、等效和优效性检验的概念和方法;非劣效性试验指主要研究目的是显示对试验药的反应在临床意义上不差于非劣于对照药的试验ICH-E9的定义;如果治疗差异A药的疗效-B药的疗效>0,则试验药的疗效较好;治疗差异<0,则对照药疗效较好;如果我们允许A药疗效比B药疗效低一定范围,仍然认为两药疗效相当,即确定Δ表示临床意义上判断疗效不差所允许的最大差异值,则如果治疗差异>-Δ,便是试验药非劣效于对照药,此处的Δ称为非劣效试验的判断界值margin;非劣效试验的假设检验是无效假设H0:A药的疗效-B药的疗效≤-Δ备择假设H1:A药的疗效-B药的疗效>-Δ结论:如P>,按单侧α=的检验水准不能拒绝H0假设,即无法判断A药不差于B药;如P≤,则接受H1假设,可以认为A药不差于B药;等效性试验指主要研究目的是要显示两种或多种处理的反应间差异的大小在临床上并无重要性的试验,通常通过显示真正的差异在临床上可以接受的等效的上下界值之间来证实ICH -E9的定义;等效性试验的假设检验是无效假设H0:A药的疗效-B药的疗效≤-Δ,或A药的疗效-B药的疗效≥Δ备择假设H1:-Δ<A药的疗效-B药的疗效<Δ结论:如P1>或P2>,按2α=的检验水准不能拒绝H0假设,即无法判断A药等效于B药;如P1≤且P2≤,则接受H1假设,可以认为A药等效于B药;优效性试验指主要研究目的是显示所研究的药物的反应优于对比制剂阳性或安慰剂对照的试验ICH-E9的定义;优效性试验的假设检验是无效假设H0:A药的疗效-B药的疗效≤Δ备择假设H1:A药的疗效-B药的疗效>Δ结论:如P>,按单侧α=的检验水准不能拒绝H0假设,即无法判断A药优于B药;如P≤,则接受H1假设,可以认为A药优于B药;实际应用中,更多采用的是可信区间法检验,它是分析时最直接的方法,而且比假设检验提供更多的信息;非劣效性试验中我们仅关注一个方向的可能差异,因此试验药与对照药的疗效差异的单侧%或双侧95%可信区间应当完全在-Δ值的右侧,即其单侧%或双侧95%可信区间的下限应该大于设定的判断界值-Δ,即单侧%CIA-B的下限>-Δ或双侧95%CIA-B下限>-Δ,类似道理,等效性试验中等效的结果应该是其95%可信区间范围包括在-Δ与Δ之间,即-Δ<95%CIA-B<Δ,而优效性试验的结果则应该是其单侧%或双侧95%可信区间的下限大于Δ值,即单侧%CIA-B下限>Δ或双侧95%CIA-B下限>Δ;二、非劣效、等效和优效检验的适用范围对于一个新研发的试验药,通常具有某方面的优势,如给药方便、耐受性较好,毒性较低或价格便宜等等,一般需要与安慰剂进行优效性试验以比较其真正的疗效和安全性,来判断其上市的利益风险;如果当前已有曾经优效性试验证实的有效药物的话,还常常与其进行比较,并判定待验证药物的疗效至少不差于非劣于已有有效药物作为其上市的最低标准;而等效性试验的应用多见于对同一活性成分的生物等效性以及血浆无法测定时的临床等效验证; 非劣效性试验通常用于与已上市的有效药物或标准治疗方案进行比较以求能提供一个新的治疗选择,少数情况下当安慰剂对照不被允许或违反伦理时,用以间接证明试验药优于安慰剂;我国的研发情况是自主创新药品较少,而仿制国外已上市药品占多数,对于国内尚未上市的药品,无论是创新药还是仿制药,如选安慰剂为对照则应证实其优效性,如选国内已上市的同一治疗领域的药物作为阳性对照药,则应至少验证其具有非劣效性;与已上市药物相同活性成分的药品应进行生物等效性或临床等效性验证;。
临床试验中的统计学讲解
小胖说统计之一:认识α,β要了解生物统计在临床试验中的应用,首先需从认识α,β开始,就是这两个不起眼的符号贯穿了临床试验生物统计的始终。
α和β的定义是比较拗口的,特别是对于那些没学过统计的人来说,这两个东西是怎么也搞不明白具体是怎么回事。
虽然比较拗口,但咱还得在这里重复一下α和β的科学定义:α又称第I类错误或显著性水平,指拒绝了实际上成立的H0,β又称第II类错误,指不拒绝实际上不成立的H0。
对应β的还有一个概念叫power,国内翻译为把握度,它等于1-β,指拒绝实际上不成立的H0的概率。
说得通俗一点,临床试验中你会犯俩错误,一种错误就是两种药本来没啥区别,却说成您的药优于人家的药,这就是α;另一种错误就是你的药的确优于人家的药,却说成两种药没啥区别,这就是β。
那1-β呢,就是咱的优秀药物被发现的概率啊。
不知道,上边的解释,您听明白了吗?如果听明白了,小胖要问您了,谁应该最关心α啊,那又谁应该最关心β啊?最关心α的当然是我们伟大的SFDA以及诸如FDA之类的药品审批机构啊,为啥?他们当然不希望一种药明明和别的药没啥区别,却被药厂说成疗效更好,换言之,他们可不希望审批无效的药物进入市场。
所以啊,它们要限定这种错误发生的概率,也就是我们的α了,一般情况下,α被限定为0.05。
最关心β的当然是我们的药厂了,为啥?为钱,哈哈!药厂当然不希望明明他的药优于别人的药,却被说成两种药没啥区别吧,所以它们希望降低这种错误发生的概率,也就是降低β了。
换言之,他希望提高把握度(1-β),使自己的药能有更高的概率作出来优于别的药物,从而进入市场,赚取钞票。
一般情况下,β应小于0.2,甚至0.1,对应的把握度为80%或90%。
当然药厂降低β,也就是提高把握度,会提高你试验成功的概率,但这也同时意味着同等条件下样本量的增加,样本量的增加就意味着money的增加,这些都是矛盾的,没办法,谁让这世界本来就是一个矛盾的世界呢,你只好去权衡利弊,找个平衡点呗。
非劣效等效性优效性
非劣效等效性优效性标准化管理处编码[BBX968T-XBB8968-NNJ668-MM9N]非劣效、等效和优效性检验及其适用范围??摘要:在对国内临床研究报告的审评中我们经常遇到以传统的显着性检验代替非劣效等设计的检验的情况,下文探讨了二者的区别及适用范围。
关键词:非劣效试验等效性试验优效性试验一、传统检验和区间检验药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究,以判断和区别其实际的疗效如何,审评中我们常见到的错误是采用如下传统的假设检验:无效假设H0:A药的疗效-B药的疗效=0备择假设H1:A药的疗效≠B药的疗效结论:如P>,按α=的检验水准不能拒绝H0假设,如P≤,则接受H1假设。
目前已经公认这种传统的假设检验(又称显着性检验)用于临床试验判断药物的疗效是不合理的,它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义,因此国际普遍采用非劣效、等效或优效性假设检验。
传统的假设检验之所以不合理,在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等,是纯粹的统计学意义,而未体现实际的临床意义,虽然有单双侧之分,如单侧为H0:μ1-μ2=0,H1:μ1-μ2>0(或μ1-μ2<0),但它检验的依然是样本所代表的总体均数的统计学含义,而未将实际临床意义包含进来考虑。
另一方面,对于传统检验的结论,如P>,表示两药疗效的差别无统计学意义,不拒绝H0假设,说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论,并不是当然的接受H0假设,并非认为H0假设必然成立而两药疗效的总体均数一定相等,此时有可能两药疗效的总体均数确实相似,也有可能是检验效能(把握度)不够,尚需更大样本量进行检验;如P≤,两药疗效的差别有统计学意义,也就是说,两药疗效的总体均数确实不相等,但这种统计学意义的差异不一定具有实际的临床意义,也可能其临床意义却是优效、等效或非劣效的。
非劣效界值的确定
1)非劣效性界值为15%的确定依据非劣效性界值可理解为在非劣效性试验中,试验组与对照组疗效差别的临床上可接受的最大值,通常用Δ来表示。
界值的确定需要由主要研究者从临床意义上和统计学专业人员从统计学意义上共同审慎的商定,要考虑到临床特性、同类产品的临床疗效、安全性、安慰剂效应等因素。
欧洲药物评审组织(EMEA)发布的《非劣效界值选择的指导原则》1(索引号:EMEA/CPMP/EWP/2158/99),以及人用药品注册技术要求国际协调会(ICH)发布的E9、E10指导原则对非劣效性界值的设置提供了基本的指导,但因该值的确定需建立在具体疾病特征、临床意义、风险/效益分析等要素基础上,所以一直缺乏具体的方法和标准。
我国学者发表的文章、著作中对该问题的阐释极少,基本为对上面两个指导原则的理解,无具体方法及实例。
而对于无法实施安慰剂效应的医疗器械产品,该如何采用以上两指导原则,仍然是临床研究中的盲区。
由于EMEA和ICH指导原则强调确定非劣效界值时不能忽略安慰剂效应,难以适用无“安慰器械”的医疗器械产品。
故本临床试验采用美国FDA对抗感染药物临床试验推荐的递减方程(Step-down function)的方法,当同类产品疗效反应率(有效率)分别为90%、<90%但≥80%、<80%但≥70%时,推荐Δ值分别为10%、15%、20%。
查询近年来椎间融合术临床疗效相关文献,得到:结合调查数据可知,我国近年来应用椎间融合器治疗脊柱损伤、退行性病变类手术的有效率能达到80%以上,未见有效率低于80%的报道。
本临床试验相关研究者认为,学术研究更多关注于某一集中症状人群的术后疗效评价,从而在研究样本中剔除了复杂的危重病例样本。
而鉴于我国实际国情,就诊患者大多为危重病例,故将实际临床中的同类产品的临床有效率定为80%~90%之间更为保守稳妥,可一定程度消除研究者的偏倚性认识。
根据以上结论,北京大学人民医院、中国人民解放军总医院第一附属医院主要研究者以及相关统计人员研究后认为将该项目的非劣效界值定为15%比较恰当,该值所体现的临床意义及统计学意义都比较明显。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
EMEA 《优效性与非劣效性之间转换的考虑要点》审评四部审评八室黄钦审校伦敦,2000 年7 月27 日CPMP/EWP/482/99I. 前言许多近期的申报导致CPMP就优效性、非劣效性和等效性试验的解释进行讨论。
ICH E9(临床试验的统计学原则)中包含了这些问题。
ICH E10 (对照组的选择)的第2步草案以及CPMP有关生物利用度和生物等效性研究指南的注释中也有进一步的相关材料。
但指南未说明实践中生物利用度的某些具体困难。
从更广的角度来说,这些困难与分析时从一个设计目的向另一个目标转换相关。
所讨论的试验的类型是那些设计用于比较新产品与活性对照药的试验。
目的可以是证明:l 新产品的优效性l 新产品的非劣效性或l 两种产品等效当获得试验结果时,它们可以提出另外的解释。
因此优效性试验的结果可能仅足以支持非劣效性,而非劣效性试验的结果可能显示出支持优效性。
另外,等效性试验的结果可以显示出支持更小范围内的等效性。
这一专题满意的方法需要理解可信区间以及得到试验结果和从这些结果中得出结论的方式。
这一理解还有助于我们认识到为什么试验结束后对把握度的计算意义不大。
为简便起见,本文从单个主要变量疗效研究的角度来说明优效性、非劣效性和等效性问题。
在VI 节还对其他情况进行了评论。
整个本文件中假定临床目的的转换不会导致主要变量的选择或定义发生任何变化。
II. 试验目的II.1 优效性试验设计优效性试验是为了检出治疗间的差异。
分析的第一步通常是检验统计学意义,以评价试验结果是否与两种治疗的临床效果无差异的假设相符。
在质量好的试验中,统计学意义的程度(p 值)提示观察到的差异(或较大的值)是偶然产生的,假定事实上并无差异。
概率越小,则假定治疗间真正无差异的可能性越小。
一旦认为“无差异”的假设不可靠,那么一定要估计差异的大小,以评价作用是否有临床意义。
这包括两个方面。
首先,有治疗间差异大小的最佳估计值(点估计)。
对于正态分布的数据,这通常是被看作每个组平均值间观察到的差异。
其次, 根据临床试验的结果,真正差异有一个合理的值的范围(可信区间)。
很明显这一范围不能包含 0,因为差异为0的概率已经因不合理而被拒绝。
建立可信区间的方法一般要确保做到这一点, 前提是它对应于显著性检验的选择。
因此以下两种说法通常意义相同: I 均数间差异的双侧 95%可信区间不包括0。
I 两个均数在双侧5%水平有显著性差异(p<0.05 )。
以上的文字说明的情况是, 两个均数之间的差异是所关注的统计量, 而0差异代表无作 用。
在实际应用过程中, 许多其他概括性统计量用于评价治疗间的差异, 例如生物等效性研究中比例的比值比或几何均数的比值。
(后者来源于用于生物利用度数据的对数转换。
)在 这种情况下,适用同样的原则,但“差异”可用值 0以外的值来表示一一这里举的2个例子中均为1。
这些情况下,所关注的是,相对于这一 “无差异”值而言,检验统计量的可信区 间所处的位置。
当实践中进行显著性检验时,常常引用概率的精确值,例如p=0.032,因为这比p<0.05可提供更多的信息。
这样可以根据无效假设与观察到的数据之间不一致的程度来进行更精确 的判断,而不是使用临界值0.05、0.01和0.001得出近似值。
但可信区间必须与具体的概率值(概率范围)相关,这几乎总是使用 95%( 0.95 )。
当差异在较极端的水平例如 p=0.002具有统计学意义时,那么双侧95涮信区间应当不包括0,并有较宽的余地。
图1描述了这 些要点。
J显乐较强的优效性显亦优效性新药治疗间的差界图1显著性检验与可信区间之间的关系观察到的差异是否真正具有临床意义需要判断。
等效性或非劣效性试验的临床意义通过p=0.002p=0.05研究前选择的△来解释(见11.2和11.3节),而优效性试验的临床意义判断与之不同,需要另外考虑:差异有统计学意义不一定有临床意义。
在优效性试验中作为把握度计算依据的差异,不能假定是合适的值。
请注意图1以及本文的其他部分中,假定0右侧的值对应的是新疗法的效果好,因此左侧的值对应的是新疗法的效果差,即对照治疗较好。
11.2等效性试验设计等效性试验是为了证明治疗间的差异没有意义。
在这种情况下,使用可信区间的计算和考查进行分析可以得到更多的信息,尽管有使用显著性检验方法的密切相关的方法(见II.3节)。
通过定义临床上可以接受的最大差异来选择临床等效的边界(△),因此差异比这个边界大时才有意义。
与这一分析相关的众所周知的困难在这里不作更详细的介绍。
如果要声明两种治疗等效,那么双侧95%丁信区间(确定两种治疗间可信的差异范围)应当完全在-△至+△之间。
见图2。
有时选择的等效边界在0两侧可以不对称。
・城丞等效对照较好0 新药较好治疗差昴图2:等效性试验分析的可信区间方法在生物等效性研究中,当评价两种剂型的药代动力学参数平均值是否足够接近时,可信区间覆盖90%勺概率已经成为可以接受的标准。
当不可能开展常规生物等效性试验时(例如非专利的吸入药或外用药),可以进行临床等效性试验得出双侧95%可信区间。
II.3非劣效性试验在III期药物开发中,非劣效性试验比等效性试验更常用。
在这些试验中我们希望新治疗的效果不比现有治疗差一一效果可能更好或者相似。
同样,可信区间是分析时最直接的方法,但此时我们仅关注一个方向的可能差异。
因此双侧95%可信区间应当完全在-△值的右侧。
见图3。
非劣效性试验有时会被误认为和设计为等效性试验。
这一区别很重要,并有可能因此而产生混淆。
对照较好0 新药较好治疗基异图3:非劣效性试验分析的可信区间方法还应注意到通过使用11.2所指的密切相关的显著性检验方法,有可能计算出与优效性无效假设相关的p值。
这也有助于评价有利于非劣效性证据的强度。
11.4 一侧和双侧可信区间这份文件全文中假定所有临床试验使用双侧95%可信区间,而不论其目的是什么。
除其他益处以外,使用双侧95%可信区间可以保持显著性检验及随后估计的一致性。
并且它还与ICH E9指南注释提出的指南一致。
如果使用单侧可信区间,那么它们应当与97.5%的概率范围一起使用。
在生物等效性研究的特殊情况下,例如按照生物利用度和生物等效性研究指南的CPMPi释推荐的标准,建立双侧90%可信区间。
III. 事先定义的意义等效性或非劣效性的结论明显依赖于作为最大可接受差异所选择的△值。
如果在审查数据后选择△,那么总是可以选择出一个△值从而得出等效性或非劣效性的结论。
由于△的选择一般很困难,所以不论研究者计划得如何好,都有产生偏倚的很大空间。
对于回顾性选择△,常常要事先有令人信服的论据。
在设计等效性和非劣效性试验时,这一原因(还有其他原因)使得研究者在研究方案中有必要事先选择△,并说明作出这一选择的理由。
此时还应当选择相应的可信区间概率范围(通常95%)。
(当目的改变时这些要求如何应用见IV.2节)。
如何选择恰当的△将在随后CPMP考虑要点中说明。
鉴于以下多种原因,有必要事先把试验指定为优效性试验、等效性试验或非劣效性试验:l 确保对照治疗、剂量、患者人群和终点合理(见ICH E10)l 可以根据正确的把握度计算来估计样本量l 确保事先指定等效性和非劣效性标准l 可以在方案中描述恰当的分析计划l 确保试验有足够的灵敏度达到其目标(见ICH E10)如果试验的目的由优效性向非劣效性转换,或由非劣效性向优效性转换,那么这些方面产生的困难可能会大于显著性检验和可信区间的解释。
IV. 比较目的的转换唯一可能有实际意义的转换是优效性和非劣效性之间的转换。
等效性试验太特殊,因此必须专门进行。
IV.1 把非劣效性试验作为优效性试验来解释如果治疗作用的95%可信区间不仅都大于-△,而且也大于0,那么就统计学意义而言在5%水平(p<0.05 )有优效性的证据。
见图4。
在这种情况下,可以计算与优效性检验相关的p 值,并评价这一p 值是否足够小,从而令人信服地拒绝无差异的假设。
不存在影响这一解释的多重性论据, 因为就统计学而言, 它对应的是单个闭合的检验程序。
只要新药与对照药的安全性特点相似, 通常这一受益的证明本身就足够。
但当不良事件增加时, 一定要估计作用的大小,以评价临床上受益是否足以超越不良反应。
治疗茁异图4:非劣效性转换为优效性有许多其他因素受这一目的改变的影响。
IV.1.1对照药的恰当性如果对照药适合于证明非劣效性,那么应当有良好对照数据显示它是有效的治疗。
因此, 对于证明疗效,在统计学意义方面清楚地证明优于对照药是可以接受的。
IV.1.2把握度计算非劣效性试验一般规模较大,因为它们需要排除新药相对于活性对照而言较小程度的劣效性。
但如果新药实际上稍微优于对照药时,那么把握度显示其非劣效性增加。
证明较小程度地优于对照药在理论上需要计划规模更大的试验。
但当试验结束时,可信区间提供的结果可以对实际所获得的精确度进行具体的评估,从而替代试验前所进行的各种把握度计算。
IV.1.3其他临床受益的大小由于非劣效性试验中对照药一定是有效的药物,只要优于这种对照药物即说明优于不治疗(安慰剂)。
由于这一原因,除了不良反应增加而影响相对风险/受益以外,所证明的其他临床受益的大小可能与疗效的主张不相关。
但如果计划的注册申报包括优于对照药的主张时,应当在临床上讨论其他受益的大小。
IV.1.4分析集的选择在优效性试验中,根据ITT (意向治疗)原理的全分析集是首选的分析集,PP (符合方案)分析集可以提供相应的支持。
在非劣效性试验中,全分析集和PP分析集同等重要,对于稳健的解释,使用这些数据集时应当得出类似的结论。
目的的转换需要认识到这一侧重点的差异。
优效性试验和非劣效性试验中这两种分析集的相对重要性的详细情况见ICH E9 指南的注释。
IV.1.5 试验质量显示等效性或非劣效性的试验必须显示与方案中的计划高度一致才可靠。
偏离入选标准、计划的治疗方案、程序和采取措施的方式和准确性等等,都会降低试验的灵敏度,从而得出“无差异”结论的可能性较大,即使偏离在性质上是非系统性的或随机的。
与这些方案偏离和其他方案偏离相关的偏倚的大小一般是未知的,可能会使得这一试验无法解释。
当两种治疗都无效时(可能由于给药不当所致),也不能显示治疗组间的差异。
这一问题对优效性试验的影响程度不同,因为证明差异本身就是证明试验的灵敏度。
但作用大小的估计也同样受影响。
由于这些原因,从非劣效性向优效性转换在结论中的可信性更大。
IV.1.6 结论从非劣效性试验向优效性试验转换是可行的,前提是:l 试验要按照非劣效性试验的严格要求正确地设计和执行。
l 提出优效性的实际p 值以独立评价证据的力度。
l 最大限度地强调按照意向治疗原理的分析。