临床试验中样本量确定的统计学考虑_陈平雁
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 - β = probt t1 - α + 1) - 2, -2,
槡
rn A δ2 ( r + 1 ) σ2 ( 8)
)
生存分析的样本量估计虽然有其特殊之处 , 但上 述原理同样适用。以基于指数分布假设的生存分析数 据为例, 令病例入组时间 ( accrual period ) 为 AT, 试验 up peri时间全长 ( total time ) 为 TT, 随访时间 ( followod) 为 TTAT。假设第 i 组第 j 个病人生存时间 t ij 服从 风险率 ( hazard rate ) 为 λ i 的指数分布, 第 i 组的失访 率服从风险率为 η i 的指数分布, 入组时间 z ij 服从在 AT 处截 断 的 指 数 分 布, 其概率 密 度 函 数 为 g ( z) =
· 728·
Chinese Journal of Health Statistics, Aug. 2015 , Vol. 32 , No. 4
临床试验的样本量通常依据对主要指标做出相应 III 期临床试验中主要指 的假定后进行估计的。在 II、 标一般是有效性评价指标, 上市后的 IV 期临床试验主 要指标可以是有效性评价指标, 也可以是安全性评价 或兼而有之。 如果样本量估计应同时依据主要 指标, 有效性指标和主要安全性指标, 在设计时应针对有效 性和安全性分别提出统计假设, 逐一计算样本量, 最终 样本量取其中最大者。主要指标应在研究方案中明确 定义, 通常需根据专业知识确定, 应是专业领域具有共 识的或认可程度较高的指标, 一般源于某一标准或指 南, 或源于专业领域公开发表的权威论著或专家共识 等。主要指标不宜太多, 一般只有一个。 当主要指标 有多个时, 样本量估计要考虑假设检验的多重性问题 。 在定义主要指标过程中, 不仅要说明指标的含义, 其测量时点、 测量手段以及计算方法都应注明。 指标 的类型要明确, 这一点非常重要, 因为样本量估计和数 据分析都需要依此进行。例如, 某些指标可以有定量、 定性( 如有效和无效 ) 、 等级 ( 如痊愈、 显效、 有效、 无 效) 、 生存时间等不同类型。 对应于指标的不同类型, 样本量估计方法亦不相同。 所以, 方案中对主要指标 的定义要具体到指标类型上。 3. 效应量 效应量是样本量估计所需的最重要参数之一 , 根 据不同的指标类型, 常见的效应量有: 均数的组间差值 HR ) 、 OR , 或标准化差值, 率的组间差值或比值( RR 、 或 相关系数、 回归系数等。 效应量参数的确定主要基于下述三种途径 : ( 1 ) 本项目的任何既往研究结果。即源于同一项 目的预试验、 探索性试验( I 期或 II 期临床试验) 、 单中 心试验的结果等作为确定参数的依据 。由于此类研究 结果属于内部证据, 因此是首选途径。 ( 2 ) 基于他人的研究结果。当本项目的先前研究 无法提供确切的参数数据, 或尚未开展研究时, 参数的 确定可以以公开发表的研究结果作为依据 。由于此类 研究结果属外部证据, 因此是次选途径。 若公开发表 最好是经 meta 分析所得合 的同类研究报道不止一个, 并效应量作为样本量估计的参数 。 ( 3 ) 基于本试验的预期结果。如果本试验没有任 何之前的研究结果可以借鉴 ( 无论是自己的还是他人 或以往的研究数据不能得到本试验设计所需的 的) , 参数( 如本试验采用交叉设计, 而以往研究数据均来 ) , 自两平行组设计的研究 可以用预期的形式进行预 设, 通常以广义效应量表达。 若对试验药物或器械有 充足信心, 则预期效应量较大( 如设为 0. 8 ) , 此时所需 样本量较小。若对试验药物或器械信心不足, 则预期 效应量较小 ( 如设为 0. 2 ) , 此时所需样本量较大。 若 对试验药物或器械的信心尚可, 则预期效应量为中等
中国卫生统计 2015 年 8 月第 32 卷第 4 期
· 727·
· 专家共识 ·
临床试验中样本量确定的统计学考虑
CCTS 工作组 陈平雁( 执笔)
样本量确定( sample size determination ) , 又称样本 量估计( sample size estimation ) , 是指为满足统计的准 确性和可靠性 ( I 类错误的控制和检验效能的保证 ) 计 算出所需的样本量, 它是临床试验设计中一个极为重 要的环节, 直接关系到研究结论的可靠性、 可重复性, 以及研究效率的高低。 样本量估计也是一个成本效 果和检验效能的权衡过程。 ICH E9 ( 1998 ) 指出, 临 床试验的样本量必须足够大, 以可靠地回答研究假设 ; 所提出的相关问题 同时又不至于太大而造成浪费。 样本量的估计方法应该在研究方案中详细阐述 , 包括 计算样本量所依据的参数, 如方差、 均数、 反应率、 阳性 事件发生率、 差值等。本文适用于确证性试验。 样本量估计需考虑的主要因素 在确定临床研究的目的之后, 首先考虑试验设计, 包括对照的选择 ( 如 标 准 对 照、 阳 性 对 照、 安慰剂对 照、 剂量对照等) 、 比较类型 ( 如优效性试验、 非劣效性 试验、 等效性试验 ) 、 设计类型 ( 如平行设计、 交叉设 计、 析因设计、 成组序贯设计等 ) 、 主要指标 ( 定量、 定 生存时间 ) 等; 其次考虑统计分析方法, 并提出效 性、 应量( effect size ) 的假定; 然后根据试验特点定义统计 特征, 如统计分布、 检验水准( significant level ) 、 检验效 能( power) 、 单双侧和分配比例等; 再应用正确的样本 试验中的 量估计方法计算出样本量; 最后根据协变量、 脱落率、 剔除率和依从性等具体情况进行适当调整 。 1. 研究目的与试验设计 ( 1 ) 研究目的 就临床试验而言, 在确证性研究中研究目的主要 体现在有效性评价和安全性评价两个方面 。样本量估 计常用于有效性评价。 ( 2 ) 比较类型及其检验假设 临床试验常用的比较类型有优效性试验 ( superiority trial) 、 等效性试验( 包括生物等效性试验) ( equivalence trial ) 、 inferiority trial ) 等。 非 劣 效 性 试 验 ( non下面以两组效应量为均数的正向指标比较为例 , 设定
水平( 如设为 0. 5 ) , 此时所需样本量也是中等大小。 此外, 对于单臂设计或配对双臂设计, 若涉及标准 其途径的优先顺序大致 对照参数( 或目标值) 的确定, 为国际标准、 国家标准、 行业标准 ( 含指南等 ) 、 被权威 机构认可的企业标准、 外部证据 ( 同类研究的综合结 果, 如 meta 分析结果) 。 4. 统计特征 样本量估计需要考虑的统计特征主要有统计分 布、 检验水准、 检验效能、 单双侧和平衡与否等。 统计分布: 样本量估计方法的选择与主要指标的 统计分布假定密切相关, 基于正态分布的假定会选择 参数方法, 基于非正态分布的假定会选择非参数方法 。 同样, 生存分析的样本量估计方法会因 Weibull 分布 族的假定有所不同。 检验水准: 检验水准也就是 I 类错误概率, 用α表 示, 以双侧 0. 05 的水准最为常用。对于优效性检验设 以及等效性或非劣效性检验 定单侧 α = 0. 025 的情形, 设定双单侧的 α = 0. 025 的情形, 其本质仍然是双侧 0. 05 的检验水准。 但在某些情况下检验水准的设定 会有所不同。例如, 为控制整体 I 类错误概率 α, 涉及 每次检验的名义 多重检验时( 如定义多个主要指标 ) ,
*
中国卫生统计 2015 年 8 月第 32 卷第 4 期
· 729·
样本量估计原理和方法 1. 样本量估计原理 样本量估计的方法通常是从检验统计量计算公式 反推而来。一般地, 统计推断的效应量可认为是给定 模型参数 θ 的函数 f( θ) , 用 T 表示 f( θ) 的一个无偏估 若数据来自正态分布, 或根据中心极限定 计统计量, 理, 有 T - f( θ) Var( T) 槡 N( 0 , 1) ( 1)
中国临床试验生物统计学组成员 ( 按姓名拼音排序 ) : 陈峰、 陈平雁、 陈 启光、 贺佳、 黄钦、 金丕焕、 李康、 李宁、 李卫、 李晓松、 凌莉、 刘玉秀、 苏炳 华、 孙高、 王武保、 王彤、 魏朝晖、 夏结来、 姚晨、 易东、 尹平、 于 浩、 张罗 漫、 赵耐青。
优效、 等效和非劣效的界值为 Δ , 说明它们的检验假设 与推断结论。 优效性试验: 试验的目的是验证试验组效应是否 优于对照组, 如果研究不设定优效界值, 其检验假设 为: H0 : μ T = μ C ; H1 : μ T ≠ μ C 。 珔 珔 可推断试验组疗效优于对照 若 P ≤α, 且X T > XC , μ T 和 μ C 分别代表试验组和对照组的总体 组。这里, 珔 珔 X 均数, T 和 X C 分别代表试验组和对照组的样本均数 。 如果研究设定优效界值为 Δ ( Δ > 0 , 下同 ) , 即强 优效, 则检验假设为: H0 : μ T - μ C ≤ Δ ; H1 : μ T - μ C > Δ 。 此时, 若 P ≤α, 则可推断试验组疗效优于对照组 。 : 等效性试验 试验的目的是验证试验组效应是否 与对照组相当。 如果研究设定等效界值 Δ , 其检验假 设为: H0 : μ T - μ C ≤ - Δ 或 μ T - μ C ≥ Δ ; H1 : - Δ < μ T - μ C < Δ 。 这是上下限相同的情况。如果下限 Δ1 与上限 Δ2 不同, 则检验假设为: H0 : μ T - μ C ≤ - Δ 1 或 μ T - μ C ≥ Δ 2 ; H1 : - Δ 1 < μ T - μ C < Δ 2 。 此时, 若 P ≤ α, 则可推断试验组疗效等效于对照 组。 非劣性试验: 试验的目的是验证试验组效应是否 非劣于对照组。 如果研究设定非劣效界值 Δ , 其检验 假设为: H0 : μ T - μ C ≤ - Δ ; H1 : μ T - μ C > - Δ 。 此时, 若 P ≤ α, 则可推断试验组疗效非劣于对照 组。 ( 3 ) 设计类型 临床试验的设计模型相对比较简单, 常用的有平 行设计、 交叉设计、 析因设计、 序贯设计、 群随机设计和 适应性设计等。有关这些设计的详细介绍可参考相关 文献。 2. 主要指标
* 检验水准 α 将小于或等于 α; 涉及期中分析时, 考虑
α 消耗, 每次检验的 α 将小于 α。 此外, 对于生物等 效性检验, 习惯取双侧 α 为 0. 1 。 检验效能: 用 1β 表示, β 代表 II 类错误概率。 检 验效能是指在设定的 α 基础上, 原假设 H0 为假且检 验结果拒绝了 H0 的概率。检验效能越高, 发现差别的 可能性越大, 但同时所需样本量也越大。临床试验中, 检验效能通常不得低于 80% 。 在样本量估计过程中, 可通过对检验效能的敏感性分析提供不同的样本量方 案, 供研究人员选择。 单侧和双侧检验: 单侧检验的样本量会明显小于 双侧检验的样本量。 一般而言, 医学研究领域的统计 检验约定俗成地使用双侧检验, 如果采用单侧检验, 需 要给出充足的理由。 需要指出, 对于一般意义的检验 水准 0. 05 而言, 如果取单侧水准为 0. 025 的话, 其实 质仍然是双侧 0. 05 水平。 平衡或非平衡设计: 所谓平衡设计, 即每组的样本 量相同。在其他条件不变时, 各组样本量相同时平衡 设计效率最高, 即试验所需总样本量最小。因此, 研究 设计应尽可能采用平衡设计。非平衡设计是指比较组 间的样本量有明显差别, 习惯上这种差别成倍数关系, 例如, 新药 III 期临床试验, 因为安慰剂对照的疗效相 对可以确定, 同时出于伦理考虑, 安慰剂对照组的样本 量会安排的少一些, 而试验组的样本量相对要大一些 , 比如是对照组的 2 倍或 3 倍。