统计学的基本概念–样本量与检验效能

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

试验 药物 价格
1
A 便宜
2
A 便宜
3
B 便宜
4
B 便宜
5
C 昂贵
每组的 一年内血脂均值
病人数
(mg/dl)
待测 安慰剂 药
药物引起的下降值
估计 值
95% CI P值
30 140
180 -40 (-118,+38) 0.32
3000 140
180 -40 (-48,-32) <0.001
40 160 4000 178
12
适用于我们的例子的S.E.和CI公式
S.E.
2 n
10
2 100

1.41
95% CI : x2 x1 1.96 S.E. 4.6 1.961.41 Interval [7.4,1.8]
99% CI : x2 x1 2.58 S.E. 4.6 2.581.41 Interval [8.2,1.0]
– α =0.05, β=0.20 (z1-α/2+z1- β)2= 7.85 – α =0.05, β=0.10 (z1-α/2+z1- β)2=10.51
2/n
32
简化的样本量计算公式 (连续性结果)
• 显著性水平为5%, 检验效能为80% 每组样本量n 为
n

16 2
• 显著性水平为5%,检验效能为90% 每组样本量n为
降值(δ=5) α=5% (双侧), β=10% (90% 检测效能)
ຫໍສະໝຸດ Baidu要多少病人?
根据公式得出:Δ=0.5 n = 84 (每组) 共需要168位患者以供随机分配。
34
各组总样本量不同时的样本量
• 假设不需要1:1随机配对, 而是1:2. 这对样本量有什么影响?
• 理论上的结果:如果随机分配到一个组的病人比率是π,我
?
干预组
结果
时间
目标人群
研究对象
对照组
结果
4
统计学的一些基本问题
• 对真实的(总体)疗效最可靠的估计是怎样的? 估计 • 从中得出的总体疗效在什么范围内是可信的? 可信区间 • 治疗是否有效?也就是说, 我们是否能得出真实疗效不等于
0的结论? 假设检验
5
在同样的目标人群中 50个随机对照临床试验的观测值
31
适合连续性结果的样本量公式
• 当试验采用统计意义水平α和检验效能 1-β时,
0 z1 / 2 2 / n z1

n

2( z1 / 2 z1
( / )2
)2
• 备注
– n是组样本量; 总的来说, N=2n的病人量是必须的 – 样本量与δ/σ(标准化的效应大小)的平方成反比.
统计学的基本概念 – 样本量与检验效能
临床试验课程 汕头大学医学院 2011年10月28~29日
Marcel Wolbers 越南牛津大学临床研究中心
1
重温统计学的基本概念(针对连续性变量)
- 点估计
- 标准误和可信区间 - 假设检验, p值, 显著性水平和效能
2
例子
• 随机对照临床试验
– 一种降压药与安慰剂的比较 – 主要指标:随机分配后一个月时病人收缩压与之前基础水平的差值 – 随机分配病人到每个组,每组 n=100 (总数为:N=200)
• 在设计随机对照临床试验时,设定样本量是一个 严肃的问题! – 伦理学方面
• 样本量过大 太多的病人暴露在RCT的危险中 • 样本量过小 尽管病人暴露在RCT的危险中,但试
验却无法说明重要的临床差异。
– 经济方面
• 以上两种情况都会导致资源和时间的浪费
25
样本量计算基本原理
•在RCT中,通常根据试验的主要检测指标计算样本量, 还根据: – 选定的显著性水平和检验效能 – 两个治疗组之间的预期差异
们需要考虑多一个因素 1/(4 (1 )) 来增加样本量,从
而保持相同的检验效能 (相对于1:1 随机配对) 1:1 随机配对是最佳的 对于1:2随机配对(π=0.333)来说,总样本量必须增加
12.5%.
35
样本量计算需要用到的参数 (双重结果)
• 对(情照境组依结赖果) 的可能性:p1 • 干预组结果的可能性: p2
4. 简要判断 以P值与事先设定的显著性水平 α 作比较(通常 α=5%)
a) p ≤ α (通常: p ≤0.05) “有统计意义” “拒绝零假设” 那就意味着两组间的差别有统计意义
b) p> α (通常: p >0.05) “无统计意义” “零假设成立” 但是,并不说明两组一样! – 有可能是因为: - 两组间确实无差别 - 无法测出存在的差别
True (population) effect
-12
-10
-8
-6
-4
-2
Observed treatment effect
0
11
计算CI几个类似的公式
90% CI : x2 x1 1.64 S.E. 95% CI : x2 x1 1.96 S.E. 99% CI : x2 x1 2.58 S.E.
需要多少病人?
根据公式得出 n=109 (每组) 总病人数:N=218
38
研究标书中样本量的标准说明
• 这个试验中衡量效能的主要指标是,每组中出现完全肿瘤反应的病人 的比例。
• 最小的临床相关性差异 • 预期的差异(根据之前的试验
和/或专家的判断) – 个值和总体均值之间的差异
26
选择 接受 H0 拒绝 H0
显著性检验的选择
H0 成立
正确接受
结果 HA 成立
错误接受(第二类错误, β)
错误拒绝(第一类错误,
α)
正确拒绝
显著性水平: 犯第一类错误的可能性. (一般取: α=5% or 1%.) 检验效能: 1- 犯第二类错误的可能性. (一般取: 1-β=80% or 90%.)
n

21 2
Δ 指的是标准化的目标效应大小:

33
例子
• RCT
– 比较降压药与安慰剂的试验 – 主要指标: 随机分配后一个月时血压下降值 (= 服药的日期) – 假定:
• 两组数据接近正态分布,并且差值已知σ=10 mm Hg • 需要有有效的检验效能来检测干预组中比安慰剂组大于5 mm Hg的下
- 差别很小 - 样本量不够
16
统计检验和可信区之间的对偶性
• 95% CI包括 0 ↔ p>0.05
• 95% CI不包括0 ↔ p≤0.05
17
假设检验中的第一类和第二类错误
• 第一类: 零假设 (α)为真,拒绝零假设, 也就是说,错误地认 为有差别. – 提前设定的一类错误的概率– 通常 α=5% (显著性水平)
α)
正确拒绝
显著性水平: 犯第一类错误的可能性. (一般取: α=5% or 1%.) 检验效能: 1- 犯第二类错误的可能性. (一般取: 1-β=80% or 90%.)
19
p值和可信区间的解释– 实例
20
* Kirkwood&Sterne, p.76 f
例子
• 有3种针对心脏病发作高危的中年人群的降血脂新药(A, B,C)
S.E.= 2 n 2.5%
1.96 S.E. 2.5%
9
可信区间 (CI)
• 量化试验结果中可信真实疗效的准确范围 • 通常采用 95% CI
– 我们有95%的把握认为,真实的疗效在95%的可信区 间内。
– 如果进行多次随机对照试验,则95%CI会包含95%的 试验的真实疗效。
10
50次随机对照试验中观察到的药物疗效 (95% CI)
(情境依赖) • 显著性水平: α
(通常: α =5%.) • 检测效应大小的检验效能: 1-β
(通常: 1-β=80%或90%)
36
适用于双重结果的样本量计算公式
• 每组所需的样本量n 为
2
n z1 / 2
2 p(1 p) z1 p1(1 p1) p2 (1 p2 ) ( p2 p1)2
29
H0成立时,观察到的疗效分布
H0: 0 1 0
Critical value
S.E.= 2 n
2
2
0
z1 2 2 n
30
当H0或HA成立时,观察到的疗效分布
H0: 0 1 0
HA: 0 1
Critical value
S.E.= 2 n
S.E.= 2 n
Power 1
2
2
0
z1 2 2 n
z1 2 n
• 量化估计疗效的准确性 • 定义为:当随机对照试验重复很多次时估计疗效的标准差
• 公式: x2 x1 ~ N (true effect, S.E.2 )
• 仅根据一次随机对照试验就可以得出:
数学公式:
S.E.
2 n
8
观察到的疗效分布图
True (population) effect
• 结果
– 使用安慰剂后血压改变的均值: – 使用降压药后血压改变的均值: 观察到的降压药效果:
x1 = -0.8 mmHg x2 = -5.4 mmHg x2 - x1 = -4.6 mmHg
– 个值偏离平均值的距离的平均数(标准差): σ = 10 mmHg
• 我们可以从中学到什么?
3
观测效应是否反映了真实的总体效应?
True (population) effect
-12
-10
-8
-6
-4
-2
Observed treatment effect
0
6
参数估计与不确定性
• 最可靠的真实疗效的参数估计: x2 - x1 = -4.6 mm Hg • 我们如何量化这种评估方法的不确定性?
– 标准误 – 可信区间
7
标准误
• 第二类: 零假设 ( β)不真 ,接受零假设,也就是说,无法测 出真实的差别。 – 犯二类错误的可能性(即 β), 取决于效应的大小和样 本量 – 检验效能= 1- β
18
选择 接受 H0 拒绝 H0
显著性检验的选择
H0 成立
正确接受
结果 HA 成立
错误接受(第二类错误, β)
错误拒绝(第一类错误,
• 通常情况下,可信区间比P值更有意义
– 给出数据中可信值的范围 – 即使在相关性检验无统计意义的时候,窄的可信空间也能排除疗
效大的情况。 一般建议:描述数值的时候,通常应该给出数值的95%CI和P值
23
随机对照试验中样本量的计算– 基本概念
24
在随机对照临床试验中 计算样本量的重要性
• 问题: 在随机对照临床试验(RCT)中,需要多少 病人来随机分配?
27
适用于两组间比较的简单样本量公式
28
计算样本量的参数(连续性结果)
• 必须在试验中能测到的效应大小: δ (情境依赖)
• 病人结果的标准差与样本均数的差异: σ (情境依赖)
• 显著性水平: α (一般: α =5%)
• 检验效应大小的检验效能: 1-β (一般: 1-β=80% or 90%)
with p ( p1 p2 ) / 2
• z1-α/2=1.96 时,显著性水平为5%
• z1-β=0.84时,检验效能为80%; z1-β=1.28时,检验效能 为90%
37
例子
• RCT
– 癌症标准疗法和新疗法的比较 – 主要检测指标: 出现完全肿瘤反应的病人比例 – 假设:
• p1=0.6, p2=0.8 • α=5% (双侧), β=10% (90% 检验效能)
– 药A和B 价格低廉 – 药C 价格昂贵
• 进行了5个包含这3种药物和对照(安慰剂)的随机试验 • 主要的检测指标
– 一年内血脂水平 – 临床上确认的血脂下降均值(相对于安慰剂)
• 40 mg/dl或更多 对心脏病发作有重要保护作用 • 20-40 mg/dl 中等保护作用
20
试验结果- 如何分析?
13
假设检验的步骤 I
1. 建立无疗效的零假设
– H0: 干预与对照效果一样 (“无差异”, 真实疗效=0)
– HA: 干预有效果, 真实疗效≠0 (对立的假设, 双侧)
2. 进行随机对照试验和收集数据
– 在H0假设(即“无差异”)的前提下,比较实际疗效与预期疗效
14
假设检验步骤 II
3. 计算试验观察到的样本数据符合“零假设成立” 的可能 性(P值)
180 -20 (-85,+45) 0.54 180 -2 (-8.5,+4.5) 0.54
5000 175
180 -5 (-8.9,-1.1) 0.01
22
重点
• P值大并不代表零假设是正确的
– “没有证据并不证明不存在”
• 统计学意义不完全和临床相关
– 小试验 真实疗效大不一定会有统计学意义 – 大试验 疗效小也可以有统计学意义
– 如果零假设成立,那么
x2 x1 ~ N (true effect 0, S.E.2 )
比如说,如果观察到的疗效值比1.96·S.E. 大,那么意味着 p<0.05
– p=0.003 如果零假设成立,那就出现了1000人中只有3人有疗 效的极端情况 = 概率很低
15
假设检验步骤 III
相关文档
最新文档