非劣效性试验

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

临床非劣效性与等效性评价的统计学方法

以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准，它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。然而，如果有现成的疗效肯定的药物，仍用安慰剂对照做临床试验，会面临伦理上的困难。随着愈来愈多可供应用的有效药物的出现，疗效有突破的新药愈来愈少，因而药物临床研究的目的发生了转变。在阳性对照试验中，更多的情形是探求新药与标准的有效药物相比其疗效是否不差或疗效相等(严格地说，疗效相等应该是既不比标准药差，也不比标准药好)，而并不一定要知道新药是否优于标准药，由此而提出了非劣效性/等效性试验（noninfer_iority/equivalencetrials）。

非劣效性/等效性试验与通常意义下的优效性试验（superioritytrials）在设计和统计分析上是有区别的。近年来，尽管对设计和分析该类试验已给予强调，但遗憾的是，许多非劣效性/等效性临床试验的评价缺少针对性，仍仿照安慰剂对照试验的方式进行，因而导致了非劣效性/等效性试验的样本含量估计、无效假设和备选假设确定、统计学分析和结论推断等方面的不够合理，难以达到设想的目的。

本文拟主要介绍有关非劣效性/等效性试验中涉及的统计学分析方面的一些具体问题，至于在设计时还必须考虑的有关对照的选定等问题可参考文献及ICH文件E10：“临床试验对照的选择”。

1非劣效性/等效性界值

从临床上讲，一种新药的药效不比标准对照药差，到底临床上可接受的最大允许的范围是多少呢？或者说，新药比对照药最低到多大程度才能算“非劣效（noninferiority）”呢？类似地，新药和对照药的疗效相比，最低不能低于多少以及最高不能超过多少才可认为是“等效（equivalence)”呢？这就涉及到临床非劣效性/等效性界值（nonferiority/equivalencemargin）的问题。为叙述方便，我们统一用δ表示界值，并以-δ表示劣侧界值，以δ表示优侧界值。显然，非劣效性试验仅用-δ一个界值，而等效性试验要用-δ和δ两个界值。δ是一个有临床意义的值，该值的选定至关重要。若δ选大了，将把药效达不到要求的药物判断为非劣效或等效而推向市场；若δ选小了，则可能会埋没一些本可推广使用的药物。这一数值不应大于安慰剂对照的优效性试验确认有效的效应差值△。一般来说，δ的决定应该由临床学家和统计学家商讨联合做出，而不是单独地依赖统计学家。注意，选定δ时一定要从临床药效角度，结合以往的试验结果，必要时进行成本效益分析等诸多方面反复论证。δ界值必须在试验的设计阶段决定并在试验方案中阐明，一旦确定，事后不得随意更改。除非发现新的δ界值比原先选定的δ界值更合理，在揭盲之前可作更正，并在修订方案中

陈述理由。一旦揭盲，不得更改。

根据既往的经验，对有些临床定量指标的等效界值，有学者提供了可供参考的建议标准，例如血压可取为0.67kPa（5mmHg），胆固醇可取为0.52mmol.L-1（20mg.dl-1），白细胞可取为0.5×109.L-1（500个/mm3）；当难以确定时，可酌取1/5～1/2个标准差或参比组均数的1/10～1/5。对两组率而言，有人建议δ最大不应超过对照组样本率的1/5。有作者指出，δ不能过小，否则，所需的样本含量可能会不切实际。

尽管δ值的选定并不容易，但若试验的目的就是为了确认非劣效性/等效性，人们也不得不面对这些困难并解决之。

药理试验设计与统计

例1：为了显示一种新药血管紧张素Ⅱ拮抗剂（AⅡantagonist）治疗轻中度原发性高血压的降压效果是否不差于标准药血管紧张素转换酶抑制剂（ACEinhibitor），请按照非劣效性试验的要求制定非劣效界值δ。

该试验以药物ACE作为阳性对照，试验的主要终点指标取仰卧舒张压（SDBP,单位为mmHg）。既往的许多ACE与安慰剂的对照试验显示，两组SDBP与基线相比平均舒张压下降值的差值至少达到10mmHg才能认可药物的疗效，即最小的药物效应差值△=10mmHg。基于临床和统计学的综合考虑，经讨论认为用

δ=3mmHg（约为△的30％）作为非劣效性试验的界值是合理的。

2判定非劣效性/等效性的假设检验方法

假设检验（hypothesestesting）是基于一定的检验假设进行推断的一类方法。我们平时所做的绝大多数检验假设为两组相等的零假设，其统计推断往往仅限于两者的差别有无统计学意义，若P>α，意味着统计上“不能拒绝零假设”，但并非说明零假设成立，更没有理由说两组相等，因为检验的效能（poweroftest）未知；如P≤α，虽然可“拒绝零假设”，但也只能推断两者在统计上有差别，而不能评价差别的大小。这难以满足临床实际中需要评价疗效差别的要求。为了能对非劣效性/等效性进行推断，需要建立有别于传统的检验假设。为方便叙述，统一用如下符号作为组别或参数：

T=试验治疗组，也泛指相应组效应的参数（均数或率）

S=标准治疗组，即阳性对照组，也泛指相应组效应的参数（均数或率）

δ=非劣效/等效界值。非劣效性试验用-δ，等效性试验用-δ和δ

2.1检验假设的构建和检验用统计量无效假设（nullhypotheses）和备选假设（alternativehypotheses）分别用H0和Ha表示。以α作为总的检验水准。表1列举了几种不同情形下的检验假设和检验统计量计算的通用公式。

表1不同试验类型的检验假设

本表所示的检验统计量假设数据来自大样本，数据分布正常。其中d为T组样本效应值减去S组样本效应

值的差值，即d=T-S，sd为d的标准误。z为检验统计量，服从标准正态分布。

2.2结论的推断

2.2.1非劣效性试验由于只进行一次单侧检验（one_sidedtest），若P≤α,则H0被拒绝，可推论T非劣效于S；若P>α，则还不能下非劣效的结论。这里的α含义是，当T比S疗效差，其效应差值实际上超过δ时，错误地下T非劣效于S结论的概率。

2.2.2等效性试验由于需要在两个方向上同时进行两次单侧检验（twoone_sidedtests），故亦需分别推断。若P1≤α/2和P2≤α/2同时成立（注意每次检验的水准只用总的检验水准α的一半），则两个无效假设均被拒绝，前者推论T不比S差，后者推论T不比S好，因此综合的推断是T和S具有等效性；若P1和P2中的任何一个大于α/2，则不可下等效的结论。这里的α含义是，当T与S的疗效差值实际超过δ（包括差-δ以下或好δ以上两种情况）时，错误地下T和S等效结论的概率。

2.2.3优效性试验有两种不同的情形。一种是严格意义上的，从统计学的角度考虑的优效性，这时所用的假设为通常的零假设，为单侧检验。目前临床试验中一般用此概念。如果能拒绝无效假设，可下统计学意义上优效的结论。当然这种优效性较弱，有时可看作是边缘优效性。

另一种是从临床意义上提出的优出一定量的优效性，姑且也用δ表示该量。此时若拒绝无效假设，可下临床优效性的结论。

3判定非劣效性/等效性的可信区间方法

可信区间方法亦可用于非劣效性/等效性的判定，该方法通过构建有关参数差别的可信区间（confidenceinterval,缩写为CI）作为评价的决策准则。CI方法在ICH的指导原则中曾予以推荐，指出：对非劣效性或等效性试验安全性与耐受性的评价，应用可信区间比用假设检验更佳。一些具体的方法，可参见文献。

假定总的可信度取100(1-α)％，以CL表示可信区间的下限，以CU表示可信区间的上限。

3.1非劣效性试验按单侧100(1-α)％可信度，计算出T-S可信区间的下限CL，若[CL,∞)完全在[-δ,∞)范围内，或者CL>-δ，可下非劣效性的结论。

3.2等效性试验按双侧100(1-α)％可信度，计算出T-S可信区间的下限CL和上限CU，若完全在[-δ,δ]范围内，或者-δ

3.3优效性试验按单侧100(1-α)％可信度，计算出T-S可信区间的下限CL。若完全超出(-∞,δ)范围，或者CL>δ，可下临床优效性的结论。

例2：继续上例。假使：δ=3mm Hg，两组合并标准差s=8mmHg，两组样本含量均为120，取单侧α=0.05，方案规定可用两步法（见后）。主要指标结果：SDBP与基线相比平均下降值，T=14mmHg，S=12mmHg。