非劣效性/等效性检验的样本含量估计及软件实现
临床试验中的非劣效性、优效性和等效性检验
临床试验中的非劣效性、优效性和等效性检验来源:医药魔方在评价临床试验的疗效时,常用的假设检验有非劣效性试验(non-inferiority trial)、等效性试验(equivalence trial)和优效性试验(superiority trial)。
非劣效性试验是检验一种药物是否不劣于另一种药物的试验,多用于有客观疗效指标的临床研究中,如抗菌药物的临床终点、心血管治疗中的不良事件、肿瘤治疗中的死亡或进展等。
非劣效性试验的原假设为试验药(T)总体疗效比对照药(C)总体疗效要差,且差值是-(非劣效性界值)或更小的负值;而备择假设为试验药总体疗效要比对照药好,或者虽然比对照药差,但其差值比-大。
拒绝了原假设即可得出试验药比对照药非劣效的结论。
等效性试验是检验一种药物是否与另一种药物疗效“相等”的试验(实际为相差不超过一个指定的界值)。
例如研究仿制药与原药的疗效是否“相等”、小剂量来替代大剂量的疗效是否“相等”、短疗程药物来替代长疗程药物的疗效是否“相等”。
其原假设为总体参数间差别超过或等于一个研究者规定的等效性界值,而备择假设为总体参数间差别小于研究者规定的等效性界值。
为了说明“等效”,需要同时进行两次非劣效检验,分别推断。
仅当既说明试验药非劣效于对照药,又说明对照药非劣效于试验药时,才能得出两药“等效”的结论。
优效性试验是检验一种药物是否优于另一种药物的试验,一般对于以安慰剂作为对照的试验常用优效性试验。
优效性试验的原假设为试验药(T)总体疗效等于对照药(C)的总体疗效,或试验药劣于对照药;而备择假设为试验药总体疗效优于对照药。
拒绝了原假设即可得出试验药比对照药优效的结论。
优效性、等效性和非劣效性试验示意图以上三种试验都是临床研究常见的研究假设,其中以非劣效性试验应用最为广泛。
在临床研究的具体应用中,研究者要明确三种试验的不同之处,并结合自身的研究设计和研究目的来选择正确的试验方法以及相对应的统计分析技术,以期得到合理的统计推断与研究结论。
对临床试验统计学假设检验中非劣效_等效和优效性设计的认识
药政管理对临床试验统计学假设检验中非劣效、等效和优效性设计的认识Considerations on the statistical hypothesis of noninferiority,equi valence and superiority design i n clinical tri al黄钦,赵明(国家食品药品监督管理局药品审评中心,北京100038)HUANG Q i n,Z HAO M i n g(C enter for Drug Evaluation,State Food and D rug Adm inistration,Beijing 100038,China)收稿日期:2006-09-12修回日期:2006-12-14作者简介:黄钦(1969-),男,博士,主管药师,主要从事药品审评工作通讯作者:黄钦Te:l(010)-68585566E-ma il:huangq@ 摘要:在对国内药物注册临床试验报告的审评中,常遇到以传统显著性检验代替非劣效、等效和优效性检验的错误,就它们的区别及适用范围,本文对判断界值的确定、样本含量、推断结论及审评中的主要关注点进行了阐释。
关键词:非劣效检验;等效性检验;优效性检验;显著性检验中图分类号:R954文献标识码:C文章编号:1001-6821(2007)01-0063-05药品临床试验设计要求随机、盲法和对照药物比较,以判断和区别其实际的疗效。
我国药品研发,以仿制国外已上市药品为主;基于临床认识和伦理学因素,临床研究也多选择针对目标适应症的已有治疗药物为对照,即所谓的阳性对照药。
目前,已公认的传统假设检验(又称显著性检验)在临床试验中用于判断药物的疗效是不合理的,它不能准确区分2药疗效差异的方向性和体现差异大小所揭示的临床实际意义。
因此,国际上根据研究目的不同,普遍用非劣效、等效或优效性假设检验。
1显著性检验无效假设H0:A药疗效-B药疗效=0备择假设H1:A药疗效X B药疗效结论:如P>0.05,按A=0.05的检验水准,不能拒绝H0假设;如P[0.05,则接受H1假设。
基于PASS及SAS软件的常用样本含量估计方法实现及部分方法比较研究
基于PASS及SAS软件的常用样本含量估计方法实现及部分方法比较研究一、本文概述本文旨在深入探讨和分析基于PASS(Power Analysis and Sample Size)及SAS(Statistical Analysis System)软件的常用样本含量估计方法的实现,并对部分方法进行比较研究。
样本含量估计是统计学研究中的重要环节,对于保证研究结果的准确性和可靠性具有至关重要的作用。
本文将首先概述样本含量估计的基本概念和研究背景,然后详细介绍PASS和SAS两款软件在样本含量估计方面的应用,并通过案例分析和实证研究,对两种软件中的常用方法进行比较研究,以期为研究者在实际应用中提供参考和借鉴。
具体来说,本文将分为以下几个部分:阐述样本含量估计的基本原理和重要性,以及在不同研究领域中的应用情况;详细介绍PASS和SAS两款软件的基本功能和特点,以及它们在样本含量估计方面的具体实现方法;接着,通过案例分析和实证研究,对两种软件中的常用方法进行比较研究,分析各方法的优缺点和适用范围;总结本文的研究结果,提出在实际应用中应注意的问题和建议。
本文的研究不仅有助于提高样本含量估计的准确性和可靠性,还为研究者在不同软件和方法之间进行选择提供了有益的参考。
本文的研究也有助于推动统计学和相关领域的研究发展,为实际应用提供更加科学、有效的支持。
二、样本含量估计的基本理论样本含量估计,也称为样本量计算,是统计学中一个至关重要的环节。
它涉及到如何根据研究目的、设计类型、预期效应大小、统计显著性水平以及其它相关因素,确定进行一项研究所需的最少样本数量。
样本含量的大小直接影响到研究结果的精确性、可靠性和推广性。
因此,在进行科学研究时,合理估计样本含量至关重要。
样本含量估计的基本理论主要基于概率论和数理统计的原理。
其中,概率论提供了事件发生的可能性度量,而数理统计则通过收集和分析数据来推断总体的特征。
在样本含量估计中,常用的统计量包括均值、比例、差异等,这些统计量可以帮助我们了解总体特征并构建相应的假设检验。
非劣效临床试验样本量计算
计算非劣效性试验样本量需预先指定的参数:
实验组率:0.650注:率不可随意指定,应当:1,根据文献回顾获得;2,根据对照组率:0.650注:率不可随意指定,应当:1,根据文献回顾获得;2,根据非劣效性界值:0.150注:即实验组比对照组差多少可以接受。
α(I类错误):0.025注:通常取单侧0.025
检验效能:0.800注:通常取β(II类错误)单侧0.20,此空为1-β
实验组与对照组例数比: 2.000注:通常令两组例数相同
单组样本量:119.0413注:该公式已锁定,如需修改,请先解除锁定。
总样本量:238.0827注:最终样本量可能还需考虑研究过程中剔除病例的一个率,参考文献:
1. 邓伟,贺佳. 临床试验设计与统计分析. 201
2.9.
2. BJ Kullberg,JD Sobel,et al. Voriconazole versus a regimen of amphotericin B followed by
回顾获得;2,根据切实的临床资料。
根据文献回顾获得;2,根据切实的临床资料。
20,此空为1-β
先解除锁定。
过程中剔除病例的一个率,例如,需多招募10%等。
photericin B followed by fluconazole for candidaemia in non-neutropenic patients: a randomised non-inferiorit
mised non-inferiority trial. October 2005.。
率的非劣效试验中样本含量的估计——SAS和PASS实现
— —
李吉杰 , 侯利 莎 , 陈卫 中 , 朱萍 , 杜旭 东 , 闫沛静 , 朱彩蓉
1 . 四J I I J E  ̄华 西公共卫生学 院( 华西第 四医院 ) , 四川 成都 6 1 0 0 4 1 ; 2 . 成都 医学 院公共卫生系 , 流行病与卫生统计学教研 室, 四川 成都 6 1 0 5 0 0 摘要 : 目的 提供二分类定性资料平行设计非劣效临床试验样本含量最 常用的计算公式及其 S A S和 P A S S过程 , 并 为 相关参数的设 置提供参考 。方法 基 于二项分布 的正态近似理论推导样本含量 的估计公式 , 通过 S A S程序和 P A S S过 程探讨各重要参数( 样本率 、 非劣效界值) 变化时样本含量及 检验效能 的变化情况 。结果 对率的非劣效试验样本含量 的计算 , 公式 、 S A S 程序 和 P A S S过程能得到一致结果 ; 当检验水准 和对 照组样本率确定 时 , 试验组样本率越大 、 检验效 能越小 、 界值越大 , 所需样本含量越小。结论 利用本文提供的公 式、 S A S程序和 P A S S过程 , 可 以帮助研究者系统快速 得到二分类资料 2 组平行非劣效设计 时的样本含量 。试验组样本率 、 检验效能和非 劣效界值是非 劣效 临床试验估计样
S a mp l e s i z e c a l c u l a t i o n o f d i c h o t o mo u s v a r i a b l e s i n n o n . . i n f e r i o r i t y di n i c a l t r i a l s — S AS a n d P AS S r e a l i z a t i 【 o n
新药临床非劣及等效性试验中的例数估计和等效标准
此文发表于:中国新药杂志2003;12(5): 368-371新药临床非劣及等效性试验中的例数估计和等效标准郑青山1,孙瑞元1,陈志扬2(1安徽省药物临床评价中心、皖南医学院弋矶山医院,芜湖 241001;2华中科技大学同济医学院,武汉 430030)[摘要] 本文根据新药临床研究的要求和特点,提出临床非劣及等效性试验例数估计的简算法和查表法,并探讨确定等效标准(δ)的几种方法,可供例数估算时参考。
[关键词] 临床试验;非劣性试验;等效性试验;样本含量;等效标准Sample size estimation and equivalence margin in noninferiority and equivalence trialsZHENG Qing-shan1, SUN Rui-yuan1, CHEN Zhi-yang2(1 Anhui Provincial Center for Drug Clinical Evaluation & Yijishan Hospital of Wannan Medical College, Wuhu 241001,China; 2 Tongji Medical College, Huazhong University of Science and Technology, Wuhan 430030,China)[Abstract] Based on the character and requirements of new drug clinical trials, a simple algorithm for estimating sample size and some methods for determination of equivalence margin (δ) in noninferiority and equivalence clinical trials were provided in this paper.[Key words] noninferiority trial; equivalence trial; sample size; equivalence margin临床试验中作两药等效判别,不能依据“显著性检验P>0.05”,而应采用“非劣或等效性试验(noninferiority or equivalence trials) 的P<0.05” [1-3]。
非劣效临床试验的统计学考虑
非劣效临床试验的统计学考虑在医学研究和药物开发领域,临床试验是至关重要的环节,用于评估新疗法或新设备的有效性和安全性。
其中,非劣效临床试验旨在验证新疗法或新设备与现有标准疗法或设备的比较效果,本文将详细介绍非劣效临床试验中的统计学考虑。
非劣效临床试验是指通过比较新疗法或新设备与现有标准疗法或设备的疗效,来评估新疗法或新设备是否非劣于现有疗法或设备。
非劣效临床试验通常采用双盲、随机、对照的设计,以消除偏倚和增加试验的可靠性。
在非劣效临床试验中,统计学原理是试验设计和数据分析的基础。
通过运用随机化和对照原则,能够减少偏倚、提高试验的内部效度和外部效度,并最终得出可靠的结果。
在非劣效临床试验中,样本的选取是至关重要的。
通常,研究人员会根据研究目的、研究假设、研究人群和研究资源等因素来制定样本的选取原则。
在确定样本的选取原则后,研究人员需要选择适当的试验组和对照组。
试验组为接受新疗法或新设备的患者,对照组为接受现有标准疗法或设备的患者。
在选择试验组和对照组时,研究人员需要考虑匹配和随机化的原则,以减少偏倚对试验结果的影响。
研究人员还需要评估试验结果的置信区间。
置信区间是用于描述试验结果不确定性的指标,通常是指从样本统计量加减一定比例的抽样误差所得到的一个范围。
在非劣效临床试验中,置信区间的评估对于判断新疗法或新设备的非劣效性具有重要意义。
在非劣效临床试验中,常用的统计学方法包括但不限于以下几种:意向性分析:这是非劣效临床试验中最重要的统计学方法之一。
它按照患者的原始分组进行统计分析,从而能够充分利用所有收集到的数据。
随机化分组和盲法:这些技术有助于减少偏倚,提高试验的内部效度和外部效度。
参数估计和假设检验:这些技术用于描述和解释试验结果,以及推断新疗法或新设备是否非劣于现有疗法或设备。
结论与启示非劣效临床试验在评估新疗法或新设备的疗效方面具有重要意义。
通过运用统计学原理和方法对试验结果进行分析,研究人员可以得出可靠的结论,从而为临床医生和患者提供更多有效的治疗选择。
临床非劣效性与等效性评价的统计学方法一
临床非劣效性与等效性评价的统计学方法一以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准,它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。
然而,如果有现成的疗效肯定的药物,仍用安慰剂对照做临床试验,会面临伦理上的困难。
随着愈来愈多可供应用的有效药物的出现,疗效有突破的新药愈来愈少,因而药物临床研究的目的发生了转变。
在阳性对照试验中,更多的情形是探求新药与标准的有效药物相比其疗效是否不差或疗效相等(严格地说,疗效相等应该是既不比标准药差,也不比标准药好),而并不一定要知道新药是否优于标准药,由此而提出了非劣效性/等效性试验(noninfer_iority/equivalencetrials)[1]。
非劣效性/等效性试验与通常意义下的优效性试验(superioritytrials)在设计和统计分析上是有区别的。
近年来,尽管对设计和分析该类试验已给予强调,但遗憾的是,许多非劣效性/等效性临床试验的评价缺少针对性,仍仿照安慰剂对照试验的方式进行,因而导致了非劣效性/等效性试验的样本含量估计、无效假设和备选假设确定、统计学分析和结论推断等方面的不够合理,难以达到设想的目的[2]。
本文拟主要介绍有关非劣效性/等效性试验中涉及的统计学分析方面的一些具体问题,至于在设计时还必须考虑的有关对照的选定等问题可参考文献[2]及ICH 文件E10:“临床试验对照的选择”[3]。
1 非劣效性/等效性界值从临床上讲,一种新药的药效不比标准对照药差,到底临床上可接受的最大允许的范围是多少呢?或者说,新药比对照药最低到多大程度才能算“非劣效(noninferiority)”呢?类似地,新药和对照药的疗效相比,最低不能低于多少以及最高不能超过多少才可认为是“等效(equivalence)”呢?这就涉及到临床非劣效性/等效性界值(nonferiority/equivalencemargin)的问题。
为叙述方便,我们统一用δ表示界值,并以-δ表示劣侧界值,以δ表示优侧界值。
临床试验中生存分析的非劣效研究设计及R软件实现
Байду номын сангаас
临床 试 验 中生存分 析 的非 劣效 研 究设 计 及 R软件 实现
哈尔滨医科大学卫生统计教研室( 1 5 0 0 8 1 ) 吴 莹 侯 艳 李 康 近年 , 非劣效性 临床试验在药 品开发 中已有广泛
的应 用 , 统 计 学上关 于试 验 药 物 相对 于 阳性 对 照药 物
表示正确接受 的概率 即检验效能。受疾病发病率 及试验设计等因素影响, 不同生存分析研究 的单位 时
间 内入组 人数 A 不 同 , 因此 其样 本 含 量 大小 取 决 于 纳 入患 者 的时 间长度 , 即人 组 时间 丁 , 当要 求 检验 效 能达 到 1一 / 3 时, B i r s t o l 提 出所需入 组 时间 应 满 足
l n p2一l n p2= Zl
一
( 3 )病例从人组到失访 , 即产生截尾值 ( c e n s o r e d
v a l u e ) 所 经 历 的 时 间相 互 独 立 并 服 从 指 数 分 布 , 其 中 阳性 对 照组 的失访 率记 为 q b o , 试验 组 的记为 咖 。
检 验效 能与 入组 时 间
假设 研究 计划 用 年 时 间纳 入 病 例 , 每 位 病 例 入 组后 均进 行 年 的随访 观察 , 则基 于指 数分 布 的生存 分 析模 型需作 以下 假 定 J : ( 1 )单 位 时间 内患 者 的入组 人 数 服 从 泊 松 分 布 , 年 人组 率记 为 A人/ 年; ( 2 )病 例 从 入 组 到 发 生 失 效 事 件 ( f a i l u r e e v e n t )
非劣效临床试验样本量计算
非劣效临床试验样本量计算非劣效临床试验(Non-inferiority clinical trial)是指在对比两种治疗方案时,试验者预先设定了一定的非劣效边界(non-inferiority margin),试验的目的是证明新的治疗方案与对照方案之间的差异小于这个非劣效边界,从而能够判断新的治疗方案的有效性。
样本量计算通常依赖于以下几个因素:1. 非劣效边界(non-inferiority margin):非劣效边界的设定应该根据临床经验和先前的研究结果来确定。
非劣效边界越小,要求的样本量越大。
因此,在样本量计算中非劣效边界的选择非常重要。
2. 预计的事件率(event rate):试验中需要估计两种治疗方案的事件发生率,即对照方案的事件发生率和新方案的事件发生率。
这可以根据先前的研究结果或者临床经验来估计。
3. 验证所需的统计功效(statistical power):试验者需要设定试验的统计功效,即试验能够检测到非劣效边界之内的差异的概率。
通常情况下,统计功效的设定为80%或90%。
4. 显著性水平(significance level):显著性水平是指试验中拒绝原假设的概率。
常用的显著性水平是0.05根据上述因素,样本量计算可以使用统计学方法,如Z检验、F检验或卡方检验。
在非劣效非劣效临床试验中,样本量计算通常使用Z检验。
样本量计算的公式可以如下表示:n=[(Z1-α/2+Z1-β)×(p1×(1-p1)+p2×(1-p2))]/(p2-p1)²其中n为总样本量,Z1-α/2为1-α/2分位数的Z值,Z1-β为1-β分位数的Z值,p1为对照方案的事件率,p2为新方案的事件率。
通过样本量计算,试验者可以得到所需的总样本量,从而招募足够的患者参与试验。
然而,样本量计算只是试验设计的一部分,还有其他的因素也需要考虑,如试验的可行性、临床实际情况等。
总之,非劣效临床试验样本量计算是一个重要的步骤,它可以帮助试验者确定所需的总样本量,从而保证试验结果的可靠性和准确性。
临床非劣效性_等效性评价的统计学方法_刘玉秀
3. 2 等效性试验 按双侧 100( 1- A) % 可信度, 计算出 T - S 可信区间的下限 CL 和上限 CU, 若 [ CL, CU ] 完全在 [ - D, D] 范围内, 或者- D< C L < CU < D, 可下等效性的结论。 3. 3 优效性试验 按单侧 100( 1- A) % 可信度, 计算出 T - S 可信区间的下限 C L。若[ C L, ] ) 不包
非劣效性/ 等效性试验与通常意义下的优效性 试验 ( superior it y t rials) 在设计和统计分析上是有 区别的。近年来, 尽管对设计和分析该类试验已给予 强调, 但遗憾的是, 许多非劣效性/ 等效性临床试验 的评价缺少针对性, 仍仿照安慰剂对照试验的方式 进行, 因而导致了非劣效性/ 等效性试验的样本含量 估计、无效假设和备选假设确定、统计学分析和结论 推断等方面的不够合理, 难以达到设想的目的[ 2]。
根据既往的经验 [4 ], 对有些临床定量指标的等 效界值, 有学者提供了可供参考的建议标准, 例如 血压可取为 0. 67 kPa( 5 mmH g) , 胆固醇可取为 0. 52 m mo l # L - 1( 20 mg # dl - 1) , 白细 胞可取为 0. 5 @ 109 # L - 1( 500 个/ mm 3) ; 当难以确定时, 可酌 取 1/ 5~ 1/ 2 个标准差或参比组均数的 1/ 10~ 1/ 5。对两组率而言, 有人建议 D最大不应超过对照组 样本率的 1/ 5。有作者指出, D不能过小, 否则, 所需 的样本含量可能会不切实际。
非劣性等效性试验的样本含量估计及统计推断
非劣性等效性试验的样本含量估计及统计推断一、本文概述Overview of this article本文将详细探讨非劣效性试验的样本含量估计及统计推断。
非劣效性试验是一种在医药、生物统计等领域广泛应用的研究方法,主要用于评估新药物或新疗法与已有疗法相比是否非劣效,即是否至少与已有疗法一样有效。
此类试验的关键在于如何合理估计样本含量,以及如何基于样本数据做出准确的统计推断。
This article will explore in detail the sample size estimation and statistical inference of non inferiority experiments. Non inferiority testing is a widely used research method in fields such as medicine and biostatistics, mainly used to evaluate whether new drugs or therapies are non inferiority compared to existing therapies, that is, whether they are at least as effective as existing therapies. The key to such experiments lies in how to reasonably estimate the sample size and how to make accurate statistical inferences based on sample data.本文将首先介绍非劣效性试验的基本概念及其在医药等领域的应用背景。
随后,我们将重点讨论样本含量的估计方法,包括基于假设检验和置信区间的不同方法,并探讨各种方法的优缺点及适用条件。
新药临床非劣性及等效性试验中的例数估计和等效标准
临床试验与生物统计新药临床非劣性及等效性试验中的例数估计和等效标准郑青山1,孙瑞元1,陈志扬2(1安徽省药物临床评价中心、皖南医学院弋矶山医院,芜湖241001;2华中科技大学同济医学院,武汉430030) [摘要] 根据新药临床研究的要求和特点,提出临床非劣性及等效性试验例数估计的简算法和查表法,并探讨确定等效标准(δ)的几种方法,可供例数估算时参考。
[关键词] 非劣性试验;等效性试验;样本含量;等效标准[中图分类号]R969.4 [文献标识码]B [文章编号]1003-3734(2003)05-0368-04Sample size estimation and equivalence margin innoninferiority and equivalence trialsZHEN G Qing2shan1,SUN Rui2yuan1,CHEN Zhi2yang2(1A nhui Provi ncial Center f or Drug Cli nical Eval uation&Yijishan Hospital ofW annan Medical College,W uhu241001,Chi na;2Tongji Medical College,Huaz hongU niversity of Science and Technology,W uhan430030,Chi na)[Abstract] Based on the character and requirement of new drug clinical trials,a simple algorithm for sample size estimation and some methods for determination of equivalence margin(δ)in noninferi2 ority and equivalence clinical trials were provided in this paper.[K ey w ords] noninferiority trial;equivalence trial;sample size;equivalence margin 临床试验中作两药等效判别,不能依据“显著性检验P>0.05”,而应采用“非劣性或等效性试验(noninferiority or equivalence trials)的P<0.05”[1~3]。
非劣效性/等效性检验的样本含量估计及软件实现
非劣效性/等效性检验的样本含量估计及软件实现【摘要】目的:以标准治疗为对照的非劣性/等效性检验中样本含量估计及软件实现。
方法:采用PASS 11软件和相关计算公式,并通过实例分析计算两样本均数和两样本率比较时所需样本含量。
结果:应用软件PASS 11和所给的公式计算中,两样本均数比较时结果相等,两样本率比较时非劣效性检验所需样本含量为111例,等效性检验所需样本含量为154例,与软件结果【Abstract】Objective:To realize sample size estimation and software implementation in non-inferiority/ equivalence tests with standard therapy for comparison. Methods:Using PASS 11 and related calculation formula calculate sample size of two sample means and two sample proportions by CaseStudy.Results: The two sample means were equal by using PASS 11 and the formula given. Comparing the two sample proportions, sample size required for non-inferiority tests was 111 cases, and sample size required for equivalence tests was 154 cases, which the result was very close to software等效性检验:其中为样本含量,、为单侧标准正态临界值,双侧标准正态临界值,是估计的共同标准差,是等效标准(界值) 。
新药临床试验设计中的比较类型
新药临床试验设计中的比较类型谷恒明;胡良平【摘要】本文目的是介绍新药临床试验设计中的四种比较类型,即一般差异性检验、非劣效性检验、优效性检验和等效性检验.通过讲解与假设检验有关的概念,总结了假设检验的种类,推理出广义差异性检验的概念;着重论述了四种比较类型和合理选用的要领;从临床试验设计角度出发,详细给出了成组设计四种比较类型下一元定量资料假设检验时样本含量估计所需要的SAS程序和应用实例,并提供了与"成组设计四种比较类型有关的其他内容的解决方案"的参考文献.【期刊名称】《四川精神卫生》【年(卷),期】2017(030)004【总页数】6页(P317-322)【关键词】统计假设;假设检验;差异性检验;非劣效性检验;优效性检验;等效性检验;样本含量【作者】谷恒明;胡良平【作者单位】军事医学科学院生物医学统计学咨询中心,北京 100850;军事医学科学院生物医学统计学咨询中心,北京 100850;世界中医药学会联合会临床科研统计学专业委员会,北京 100029【正文语种】中文【中图分类】R195.11.1 假设检验的定义基于某种统计假设(包括原假设与备择假设),依据样本资料所提供的信息,在一定可靠程度(1-α)上对原假设作出统计推断:是否拒绝原假设。
若拒绝原假设,则选择备择假设;反之,则认为尚无充足的证据拒绝原假设,暂时只能保留原假设(注意:这并不意味着原假设一定成立)。
这种统计判决的方法被称为“假设检验”[1]。
统计假设中的“原假设或零假设或无效假设(简记为H0)”通常为研究问题的“一种可能的结果”,数理统计学家据此构造出一个计算公式,即检验统计量(它是无中生有的产物);再设法“顺藤寻根”,找出理由或证据,从而依据此检验统计量作出接受或拒绝“原假设”的统计推断。
一旦拒绝了原假设,自然也就接受了备择假设(简记为H1)。
换句话说,备择假设实际上就成了研究问题的“另一种可能的结果”。
样本量计算教程:非劣效性试验+生存分析
样本量计算教程:非劣效性试验+生存分析医咖会之前推送过的“非劣效性试验的样本量计算”教程中,研究结局是连续变量或者分类变量,那如果是生存数据,又该如何计算样本量呢?一、研究问题与数据某研究者拟开展一项非劣效的随机对照试验,探讨某免疫抑制剂对肺癌的疗效。
估计对照组的中位生存时间(mOS)为8月,假设试验组相对于对照组的HR的非劣效性界值为1.3。
研究的入组时间预计为T1=10月,随访时间计划为T2=12月。
试验组对照组比例1:1。
取α=0.025(单侧),把握度1-β=0.8。
则需要多少样本量?二、对问题的分析在介绍样本量计算之前,首先介绍几个参数的概念。
1. 中位生存时间mOS:即50%的患者死亡时所对应的时间。
如果将所有患者生存时间按从小到大排序,中位生存时间即顺序处于中间的患者的生存时间。
2. 入组时间:入组患者很难瞬间完成,尤其对于发病率比较低的肿瘤,因此患者入组往往要经过相对较长的时间。
入组时间为第1例患者入组到最后一例患者入组所经历的时间。
3. 随访时间:在最后一例患者入组完成后,还需对所有患者随访一段时间。
从最后一例患者入组,到试验截止日期的间隔称为随访时间。
注意,这里的随访时间,跟患者的观察时间意义不同。
如果一个临床试验入组时间为12个月,随访时间为24个月,那么对于第一例入组的患者,其观察时间最长为12+24=36个月(尽管该患者可能在试验截止前就已死亡)。
而对于最后一例入组的患者,其最长观察时间为24个月,即各个患者观察时间不同。
观察时间越长,观察到结局发生的可能性越大。
如图1的3号患者,其观察时间(33个月)大于研究的随访时间(24个月)。
图1. 入组时间、随访时间和观察时间示意图4. 入组模式是指研究对象入组的速度是匀速(等比例)还是非匀速。
常见的入组模式是匀速入组,即单位时间内,研究对象入组的数量相等(图2)。
图2. 匀速入组示意图5. HR:风险比,是两组患者瞬时死亡概率之比,是衡量干预效果最常用的参数。
样本含量估算方法及其软件实现(SAS软件)
样本含量估算方法及其软件实现(一)样本含量(sample size)即观察例数的多少,又称样本大小。
在保证研究结论具有一定的可靠性(精度和检验功效)的前提下,常需要在设计阶段就人估计最少的受试对象。
在医学科研中,只要是抽样研究,就要考虑样本含量的估计。
样本含量估计充分反映了科研设计中“重复”的基本原则,过小过大都有其弊端。
样本含量过小,所得指标不稳定,用于推断总体的精密度和准确度差;检验的功效性低,应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的证据;样本含量过大,会整加实际工作的困难,浪费人力、物力、财力和时间。
由于过分追求数量,可能会引起更多的混杂因素,从而影响数据的质量。
影响假设检验时样本含量估计的因素有四个:1.第一类错误概率的大小α也称检验水准。
α越小所需样本含量越多,对于相同α,双侧检验比单侧检验所需要的样本含量更多。
2.检验功效(1-β)或第二类错误概率的大小β检验功效越大,第二类错误的概率愈小,所需要样本含量愈多。
3.容许误差δ容许误差δ愈大,所需的样本含量愈小。
4.总体标准差ζ或总体概率ζ愈大,所需样本含量自然愈多。
总体概率越接近0.5,则所需样本含量愈多。
样本含量的估算方法有查表法和计算法两种。
随着计算机的普遍使用,统计学家也开发了一些专门的样本含量估算软件。
其算法都是根据上述影响因素结合统计学原理求得。
我就通过实例的样本含量的计算过程,使大家对样本含量有一个更加直观的认识。
1 计量资料单组设计基于t检验的差异性检验举例:已知中国50-70岁男性的平均收缩压为158 mmHg,标准差为18,用药物AAA干预,平均收缩压下降10 mmHg 则认为有临床意义,α=0.05, Power=90%,Power =1-β, 双侧检验,需要多少病例数。
启动医学研究样本含量估算系统SASA1.0,在桌面上双击SASA1.0快捷方式或点击开始\ 所有程序\ Sample Size Adviser \ Sample Size Adviser,进入SASA1.0主窗口。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非劣效性/等效性检验的样本含量估计及软件实现
【摘要】目的:以标准治疗为对照的非劣性/等效性检验中样本含量估计及软件实现。
方法:采用PASS 11软件和相关计算公式,并通过实例分析计算两样本均数和两样本率比较时所需样本含量。
结果:应用软件PASS 11和所给的公式计算中,两样本均数比较时结果相等,两样本率比较时非劣效性检验所需样本含量为111例,等效性检验所需样本含量为154例,与软件结果【Abstract】Objective:To realize sample size estimation and software implementation in non-inferiority/ equivalence tests with standard therapy for comparison. Methods:Using PASS 11 and related calculation formula calculate sample size of two sample means and two sample proportions by CaseStudy.Results: The two sample means were equal by using PASS 11 and the formula given. Comparing the two sample proportions, sample size required for non-inferiority tests was 111 cases, and sample size required for equivalence tests was 154 cases, which the result was very close to software等效性检验:其中为样本含量,、为单侧标准正态临界值,双侧标准正态临界值,是估计的共同标准差,是等效标准(界值) 。
非劣性检验为单侧检验,因此为β单侧概率,等效性检验为双侧检验,因此β为双侧概率之和[2]。
1.2两样本率比较时,样本含量估算公式为:
非劣性检验:等效性检验:其中是平均有效率,其余指标含义同前。
2软件实现
2.1两样本均数比较时样本含量估算的PASS软件实现
【例1】一个新药AAA与对照药进行Ⅱ期临床检验,确认该新药不差于阳性药。
根据以往的疗效和统计学的一般要求,取, ,等效标准,已知两组共同标准差,每组需要多少病例?
2.1.1非劣性检验参数设置,见图一。
图一非劣性检验参数设置
结果显示非劣效性检验所需样本含量为112例,见图二。
图二非劣效性检验样本含量估算结果
2.1.2等效性检验参数设置,见图三。
图三等效性检验参数设置
结果显示等效性检验所需样本含量为155例,见图四。
图四等效性检验样本含量估算结果
若按照公式(1)和(2)计算:非劣效性检验所需样本含量为111例,等效性检验所需样本含量为154例,与软件结果非常接近。
2.2两样本率比较时,样本含量估算的PASS软件实现
【例2】一个新药AAA与对照药进行Ⅱ期临床检验,两组按照1:1设计,确认该新药不比对照药差。
假设两药的疗效相同,采用临床治愈率作为终极标准。
根据以往的疗效和统计学的一般要求, 取,功效():,等效标准,治愈率。
每组需要多少病例?
将上述参数带入计算得到:非劣效性检验所需样本含量为88例,等效性检验所需样本含量为122例。
3讨论
PASS是Jerry开发的专业用于样本含量估计和效能分析软件,该软件内容丰富,专业性很强,能对数十种统计学检验条件下的检验效能和样本含量进行估计,且软件界面友好,操作简单,只需要输入相应的参数,即可实现对样本含量及检验效能的预测[3]。
该研究利用PASS,进行了非劣效性/等效性检验中样本含量的计算,结果表明,当其它参数一样时,不管是两独立样本均数还是率比较时,采用非劣效性检验比等效性检验更节省样本含量。
因此,在研究设计当初必须确定假设检验的类型。
如果确认新药不会比标准药效果差,则采用非劣性检验;如果不确定新药的效果是否比标准药好,则采用等效性检验[4]。
一般认为等效性检验更为稳妥,因此也更为常用。
影响样本含量的主要因素有[5]:(1)第一类错误的概率,值越小,所需样本含量越多,通常取单侧0.05。
(2)检验功效(1-β),(1-β)取值越大,所需样本含量就越多,把握度(1-β)在0.8以上为宜。
(3)等效标准(界值),越大,所需样本含量越小。
(4)总体标准差,越大,所需的样本含量就越大。
参考文献
[1] 袁小红,庄严,陈平雁.两均数比较的优效性/等效性和非劣效性验证的样本量估计[J]. 中国新药杂志,2009,18(23):2205-2209.
[2] 孙振球,徐勇勇,等.医学卫生统计[M].北京:人民卫生出版社,2010.564-568.
[3] 吴圣贤,王成祥,林炳辉,等.临床研究样本含量估算[M].北京:人民卫生出版社,2008.1-2.
[4] 刘玉秀,姚晨,陈峰,等.非劣效性/等效性试验的样本含量估计及把握度分析[J].中国卫生统计,2004.21(1):31-35.
[5] 郑青山、孙瑞元、陈志扬,等.新药临床非劣性及等效性试验中的例数估计和等效标准[J].中国新药杂志,2003.12(5):368-370.。