样本含量估计56480

合集下载

实验设计样本的含量估计

实验设计样本的含量估计
侧值。自由度=∞,然后查t值表,利用公式再计
算N,N为两样本总例数。
Q1和Q2为样本比例,Q1 =n1/N, Q2 =n2/N,N= n1+n2,
当样本比例不等时: Q1+Q2=1; 当两样本例数相等时:Q1=Q2=0.5。
例8-3 用新药降低高血脂患者的胆固醇,研究者规定试验 组与对照组(安慰剂)相比,平均降低20㎎/L以上,才有实 际推广应用价值。以参考文献中得知胆固醇的标准差为30㎎ /L。规定单侧α=0.05,β=0.10,要求估计样本含量。 (条件是 (1)Q1=0.40,Q2=0.60; (2)Q1=Q2)
解: 规定,Q1=Q2=0.50;单侧α=0.05,β=0.10;
t0.05, 1.645, t0.10, 1.282; S=30㎎/L,δ=20㎎/L。
代入公式
N
Z Z
2
Q11 Q21
1.645 1.28230 2
N
20
0.51 0.51
77
从上述计算可以看出,在其它条件不变的情况 下,若两组含量的比例相同,则所需样本含量最少。
卫生统计学(第五版)
卫生统计学与数学学教研室
总体和样本
总体
对总体规律的推断
样本
基于样本资料 的推论
例:所有高胆固醇患者
例:在一个临床试验中 150例高胆固醇患者
例:试验药物治疗 降低了胆固醇
第四节 样本含量的估计
样本含量即观察例数的多少,又称样本大小。 样本含量的估计原则是指在研究结论具有 一定可靠性(精确度和检验效能)的基础上确 定最少的样本例数。 随着试验设计的类型不同其样本含量估计的 方法也不同
影响假设检验时样本含量估计的因素有四个: (一)检验水准:α (二)检验效能:1-β (三)总体变异度:σ或π (四)容许误差:δ=μ1-μ2或δ=π1-π2

样本含量的估计

样本含量的估计

样本含量的估计在统计学中,样本含量是指用于研究的数据集合的大小。

估计合适的样本含量对于研究的准确性和实用性来说至关重要。

样本含量的估计是一项复杂的任务,需要考虑多个因素,包括研究目的、数据类型、样本分布以及研究假设等。

本文将讨论样本含量的估计方法以及在研究中的应用。

一、估计样本大小的方法确定适当的样本大小可以确保对研究问题的回答具有良好的准确性和统计意义。

下面是一些常用的方法:1. 经验公式法这是一种简单的估计方法,通常用于初步设计和计划阶段。

公式的一般形式如下:n = (Z^2 * σ^2) / e^2其中,n是样本大小,Z是置信水平(通常取1.96),σ是总体标准差,e是误差的允许程度。

这个公式假设样本是从正态分布中随机抽取的,而且总体标准差是已知的。

当总体标准差未知时,可以使用样本标准差作为替代品。

2. 功效分析法功效分析是指确定所需的样本大小,以便在某个置信水平下检测到特定的效应大小或显著水平。

这种方法可以确保研究具有充分的统计功效,从而提高了研究的可靠性。

为进行功效分析,需要首先假定研究设计、所需的显著水平和效应大小,然后使用统计软件进行计算。

3. 模拟方法这种方法是一种计算复杂的方法,通常用于验证功效分析的结果。

这种方法涉及到用计算机程序生成各种可能的数据分布以及样本数量,以确定最佳的样本数量。

通过模拟不同的样本数量,可以确定最佳的样本大小,从而提高实验或研究的有效性和准确性。

二、何时估计样本量估计样本量的最佳时间是在研究设计和计划阶段。

在这个阶段,研究人员需要考虑多个因素,包括研究目的、研究假设、类型和数量的数据,以及可得到的资源和时间。

在确定研究设计,数据采集和分析计划以及时间表之前,应该优先考虑估计样本量的方法和结果。

估计样本量也可以在研究过程中进行。

如果样本量太小,那么结果可能不可靠;如果样本量太大,那么资源和时间将被浪费。

因此,需要及时评估样本大小,并进行必要的调整以确保研究的准确性和实用性。

样本含量估计

样本含量估计
为验证该药疗效,作单侧检验,取=0.05, =0.10,问需纳入多少病例?
要多少病例?若A药组样本含量占整个样本 含量的60%,每组各需多少病例?
1.81012/L = (2 1 ) 1 0 1 2/L = 1 1 0 1 2/L
Z/2=Z0.05/21.96 Z Z0.200.842
n1 n2 2(1.960.1 842)1.8250.951
若要求A药组样本占整个样本含量的60%, 即 Q1 0.6 Q21Q10.4
S群
2
对于定性资料,当总体为无限总体时
S2= (N i/N )(p ip ) 2/(K 1 )
对于定性资料,当总体为有限总体时 S 2 ( 1 k /K ) (N i/N ) (p i p ) 2 /(K 1 )
对于定量资料,无论总体是否有限 S2= (N i/N )(xix) 2/(K 1 )
N (1 .9 6 0 .1 8 4 2 ) 1 .8 2 (0 .6 1 0 .4 1 ) 1 0 6 .0
配对设计均数比较样本含量估计
n
(Z/2
Z
)d
2
例19.5
已知依地酸二钠钙可使铅中毒患者的血红蛋 白升高(30±10)g/L,依据经验,规定治疗 后患者血红蛋白升高值5g/L以上治疗有效。
第19章 样本含量估计
抽样的目的
由样本信息推断总体信息
样本的代表性 抽样时的可行性
样本含量估计的原则
足够的检验效能下的最小样本含量
既能满足医学科研的统计学要求 又能最大限度控制研究成本和研究风险,提高
研究效率
样本含量估计的不同情况
总体参数的估计
常见于调查设计
用样本信息(XS、p)估计总体特征(、)

第19章 样本含量估计

第19章 样本含量估计
Diagnostic accuracy studies)
for the Reporting of
QUality Of
Meta分析QUOROM和MOOSE指南(the
Reporting Of Meta-analyses of randomized controlled Trials & Meta-analysis Of Observational Studies in Epidemiology)
总体均数的估计 总体率的估计

引例

拟采用单纯随机抽样的方法调查某地区男性成年人 群血红蛋白含量 (g/L) 的平均水平。根据文献,中 国男性成人血红蛋白含量为 (140±30)g/L,要求所 获得允许误差不超过5g/L,取=0.05,问需要调查 多少位该地区成年男性?
设血红蛋白服从正态分布 从X~N(140, 302)总体中进行抽样 样本均数在135~145g/L之间的概率为1-0.05
抽样研究的目的

统计推断:在于利用实际观测得到的样本信息推断 未知的总体特征
参数估计:利用样本统计量估计总体参数
• •
X p
假设检验:利用样本信息完成总体间比较,并发现其差
异,从而说明研究因素与所研究事物间的联系
• 利用 X 完成总体均数 之间的比较 • 利用 p 完成总体均数 之间的比较 • 利用回归系数b(或相关系数r)完成 (或)与0的比较
57.3 Z /2 n arcsin( (1 ))
2
例18.2

研究某地菜农钩虫感染率,要求允许误差不 超过2%,取=0.05 ,需调查多少人?
根据题意, =2%=0.02 ; =0.05 , Z0.05/2=1.96 ,

12_第十二讲_样本含量估计

12_第十二讲_样本含量估计

8. 交叉设计样本含量估计 9. 相关分析的样本含量的估算 10. 病例对照研究的样本含量估算(非配对) 11. 病例对照研究(配对/成组) 12. 方差分析的样本含量
14. 卡方检验的样本含量 15. 多元线性回归 16. Logistic 回归 17. Logrank 检验 18. 生存率比较样本含量的计算 19. 两样本比较秩和检验的样本含量
经验估算是否可行?
一、样本含量估计的四基本要素
I型错误概率:即检验水准,越小, 所需样本含量越多, 一般取0.05; II型错误率或检验效能(1-,一般取 0.90,0.95,0.80等); 临床上最小有意义的差值 ; 总体标准差S或总体率。 其它:变量类型,单双侧检验等
失访率5%-10%,校正样本含量 每组n= 1150 5%校正n=1213 10%校正n=1280
5、若有多个重要结局指标,需要重复估算, 取量最大者;
6、组间例数不等时,样本含量需校正
在总例数一定时,组间例数相等时的检验效 能最大 (多组同样)。 若样本例数不等,则样本含量需加以校正。

其中 d为同一对象两阶段差值的标准差, 为临床上认为有意义的均数差值。
6、两样本生存率比较的样本含量
Pe、Pc分别为试验组和对照组的生存率; Qe+Qc=1
实例分析:无截尾值
两种疗法治疗某种癌症,新法的5年生存率为 72.5%,旧法5年生存率为52.5%, 计算样本含量。 两组的研究对象例数相同,各需要170例。
3、约定很关键:在计算样本含量之前, 一定要明确欲检测有临床意义的差值及 其表达方式。
可为可信区间的宽度、检验出有临床意义 的差值。 常用绝对值的形式表示,有时为了更好理 解,也可用相对数形式 不能确定△时,需做敏感性分析,即借助 于Power与样本含量曲线;

样本含量估计

样本含量估计
对照组治疗前后十二指肠愈合率P0=90%。
2024/4/18
试验组-对照组= δ
最终所需样本量
1 =0 =113例
总样本量N=226例
15
三、常见研究设计类型的样本含量的估计
两组平行设计、定量、非劣效
某研究者欲评价试验药物A缓解癌症患者癌因性疲乏症状的有效性。以药物B为阳性
药物,设计了一项随机、双盲双模拟、平行对照、多中心临床试验。

0

0
δ
非劣效性试验:确定非劣效界值-δ !
H0:T-C ≤ - δ ;H1:T-C> - δ ;α=0.025(单侧)
由临床专家与统计学专家商量,最终由临床研究者确定。
2024/4/18
7
二、估计样本含量需要考虑的因素——研究设计
目的
假设检验
设计类型:
平行设计
交叉设计
实验设计
-14d
N1=13例;N2=13例
✓ I类错误:α=0.05
✓ II类错误:β=0.20
N1=17例;N2=17例
✓ 脱失率:20%
✓ 统计分布: 正态分布
✓ 效应量: 文献发现,服用标准药的受试者平均心率为μ1=93 次/分,标准差为σ= 9 次/分,同
2024/4/18
17
一个受试者相邻两次测量值之间相关系数均为ρ=0.7。两组受试者服药后平均心率
病例数
常见ADR概率(%) 一般ADR概率(%)罕见ADR概率(%)
假定总发生率为5%
假定总发生率为1% 假定总发生率为0.1%
100
99.41
63.40
9.52
100+300
>99.99

(完整版)第18章样本含量的估计

(完整版)第18章样本含量的估计

无论是调查研究还是实验性研究,医学研究大都是抽样研究,最终目的在于利用实际观测得到的样本信息推断未知的总体特征,即统计推断。

抽样研究设计时需要回答一个非常关键的问题:样本中包含多少个研究对象(人、动物、生物学材料等)才能既满足统计学要求,完成有效的统计推断,又照顾研究的可行性、伦理学等实际问题,从而最大限度控制研究成本和研究风险,提高研究效率。

这就是样本含量估计(estimation of sample size)。

本章将从统计推断的目的出发,介绍样本含量估计意义及常用的计算公式,并在此基础上介绍检验效能的估计(power analysis)。

第一节样本含量估计的意义及方法一、样本含量估计的意义由于抽样研究中抽样误差不可避免,样本统计量与其所对应的总体参数间总是存在一定差异。

因此,尽量减小抽样误差是提高统计推断精度的必然要求。

在总体变异性确定的条件下,样本中所含的研究对象数越多,抽样误差必然越小,样本统计量的稳定性肯定越高,总体参数的估计精度越好,假设检验中的检验效能(power=1- )亦会越高,从而避免出现假阴性的结论。

同时在实验性研究中,只有在研究对象数量足够大时才能使随机分组更加有效,从而保证组间均衡性。

但在实际研究中,除了要考虑抽样误差外,还需考虑研究的可行性、结论的时效性、医学伦理以及非随机误差的影响等实际问题,并非研究对象数越多越好。

比如在改良肩周炎贴膏临床试验中,如果片面地追求大样本,研究中所需的人力、物力、财力等物质支持必然增大,研究的可行性下降。

由于需纳入更多病例,可能会延长产品研发周期,影响新药投产上市;若增加医院或临床实验中心参与该研究,又增加了组织协调的工作量和工作难度。

同时增加各种混杂、偏倚发生的机会,比如由于肩周炎发病、预后与季节、气候密切相关,临床病例接收时间太长,组内病例同质性差;测量仪器增多导致测量误差增大,观察疗效的医院、医生增多,研究结果的一致性降低等现实问题,使得试验结果难于分析或者难以合理解释,影响研究结论的科学性。

样本含量的估计.

样本含量的估计.

N
Ni pi q i
i
pi qi
ni n
Ni pi qi Ni pi q i
1 35000 2 25000 3 50000 4 10000 5 30000 合计 150000
0.12 0.22 0.36 0.05 0.25 1.00
123 219 358 54 246 1000
第三节 假设检验中样本含量的估计方法 (一)样本均数与总体均数比较

表 18-2 按最优分配抽样各层应抽取的人数 人口数 三年前 qi=1-pi pi q i N i pi q i (Ni) 患病率 pi 0.04 0.40 0.20 0.10 0.30 0.96 0.60 0.80 0.90 0.70 0.20 0.49 0.40 0.30 0.46 6858.57 12247.45 20000.00 3000.00 13747.73 55863.75
调查得的样本率与未知实体率相差不超过10%的可
能性不大于0.05。如果用简单随机抽样,需要多少 调查对象?
1.96 0.8 1 0.8 n 61.47 2 0.1
2
二、分层随机抽样的样本含量的估计
按比例分配:
Ni ni n. N
最优分配:
N i . i ni n. N i . i
二、样本含量估计的影响因素
1.第一类错误概率大小(或置信度1-),越小,
所需要的样本含量越大,根据研究问题的性质和
研究目的决定I型错误的概率值,通常情况下,取
0.05,可取单侧或双侧。
2.第二类错误概率大小,越小,检验效能1-越大,
所需样本量也越大,一般要求检验效能不低于0.80。
t / 2, t , n

样本含量估计

样本含量估计

34.3

35
Copyright 2008 Parenteral Drug Association, Inc.
Page 30
定性资料的样本含量估计 单样本设计的率比较样本含量估计
n


Z /2

Z
2

(1 )
Copyright 2008 Parenteral Drug Association, Inc.
用样本信息(XS、p)估计总体特征(、)
影响因素分析或预测
用样本信息完成总体间的比较 相关(或回归)分析
Copyright 2008 Parenteral Drug Association, Inc.
Page 4
总体参数估计中样本含量的 估计
Copyright 2008 Parenteral Drug Association, Inc.

1.282)
15
2


10


23.6

24
Copyright 2008 Parenteral Drug Association, Inc.
Page 21
独立样本比较的样本含量估计 独立样本均数差的分布
X1 ~ N (1, 2 )
X2 ~ N(2, 2)
X1

X2
~
N (1

2 ,
多少病例?若A药组样本含量占整个样本含量 的60%,每组各需多少病例?
Copyright 2008 Parenteral Drug Association, Inc.
Page 25
1.8 1012 / L =(2 1) 1012/L=11012 /L

样本含量的估计(公卫执业医师《医学统计学》辅导)(精选文档)

样本含量的估计(公卫执业医师《医学统计学》辅导)(精选文档)

样本含量的估计(公卫执业医师《医学统计学》辅导)(精选文档)(文档可以直接使用,也可根据实际需要修改使用,可编辑欢迎下载)公卫执业医师《医学统计学》辅导:样本含量的估计一、估计样本含量的意义及条件我们在第一节里曾提到重复的原则。

所谓重复,是指各处理组(对照在实验研究中也被看作是一种处理,而且是必不可少的)的受试对象都应有一定的数量,例数不能太少,所以在抽样调查、临床观察或实验研究中,首先总要考虑样本含量(或叫样本大小)问题。

样本太小,使应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的依据;但样本太大,会增加实际工作中的困难,对实验条件的严格控制也不易做到,并且造成不必要的浪费。

所以这里所说的样本含量估计,系指在保证研究结论具有一定可靠性的条件下,确定最少的观察或实验例数。

但是,样本含量又是个比较复杂的问题。

要讲清在各种情况下估计样本含量的方法和原理,那是很繁杂的。

而且,不同的参考书上介绍的计算公式和工具表往往不一样,以致同一问题所得的结果也可能有出入。

所以,不论按哪种公式或工具表求得的结果,也只能是个近似的估计数。

估计样本含量,必须事先明确一些条件与要求:(一)根据研究目的与资料性质,要先知道一些数据。

例如要比较几组计数资料,先要知道百分数或率;要比较几组计量资料,先要知道平均数及标准差。

这些数据可从以往的实践,预备试验的结果、兄弟单位的经验或文献资料里得来。

(二)确定容许误差。

由于抽样误差的影响,用样本指标估计总体指标常有一定的误差,因而要确定一个样本指标与总体指标相差所容许的限度。

此值要求越小,所需例数就越多。

(三)确定把握度(1—β)。

β是第二型错误的概率;而1—β的意思是:如果两组确有差别,则在每100次实验中平均能发现出差别来的概率。

把握度可用小数(或百分数)表示,一般取0.99、0.95、0.90、0.80、0.50.要求把握度越高,则所需例数直多。

(四)确定显著性水平,即第一型错误的概率(α)。

估计样本含量

估计样本含量

估计样本含量样本含量估计是指为确保研究结论在一定检验效能基础上的最少观察单位数。

样本含量的大小应根据研究目的、研究设计的类型、研究资料的性质、接受的处理因素、研究对象的种类、研究阶段等因素而决定。

样本含量的估计方法有公式计算法和查表法。

(一)样本含量估计的主要参数1.检验水准αα是第Ⅰ类错误的概率;是指研究希望α取值为0.05时还是0.01时的检验水准上发现组间差别。

α越小,所需样本例数越多,一般α取值为0.05。

同时,应根据专业知识确定用单侧检验还是双侧检验,在α相同的条件下,双侧检验要比单侧检验所需要的样本例数要多些。

2.检验效能1-ββ是第Ⅱ类错误的概率;1-β也称把握度,是指为真时,则在每100次实验中平均能发现出差别来的概率。

1-β越大,所需样本例数越多。

通常取1-β为0.90、0.85或0.80。

3.容许误差δ由于抽样误差的影响,用样本指标估计总体指标常有一定的误差,因而要确定一个样本和总体间或两个样本间某统计量相差所容许的限度,如δ=μ1−μ2,或δ=π1−π2。

δ越小,所需样本含量越多。

通常根据预实验、查阅文献和专业知识估计有意义的差值。

4.总体变异度σσ越大,所需样本含量越多。

通常根据预实验、查阅文献和专业知识判断σ值。

(二)常用统计设计的样本含量估计1.完全随机设计样本均数与总体均数比较的样本含量估计样本均数与总体均数的比较,在确定和后,令,为实验结果的总体标准差,样本含量的计算公式为:式中:有单双侧之分,只取单侧,和为相应的正态分位数。

2. 完全随机设计两样本均数比较的样本含量估计当要求两样本例数相等时,先要求出两个总体参数间的差值,即。

若μ1及μ2未知时,可分别以及估计之;σ未知时,可以合并标准差s估计;α、β分别是对应于α和β的u值,或可由t界值表(附表2)自由度由υ=∞查出,α常取0.05,有单双侧之分;β常取0.20或0.10,只取单侧值。

可按下列公式估算每组需观察的例数n。

《样本含量的估计》课件

《样本含量的估计》课件
正确估计样本含量可以避免样本数量不足或者过多导致的问题,确保研究结果的准确性和可信度, 并最大限度地利用资源。
常见的样本含量估计方法
常见的方法包括参数法、非参数法、经验法和推断法等。根据研究对象、假 设检验的类型和所需的可靠程度,选择合适的方法进行估计。
样本含量估计的影响因素
影响样本含量估计的因素包括研究目的、假设检验的类型、预期效应大小、 显著性水平、统计功效等。
样本含量估计的实际应用
样本含量估计广泛应用于医学研究、社会科学、市场调研等领域,为研究者提供科学依据和决策 支持。
样本含量估计的误差和解释
样本含量估计中存在一定的误差,主要源于样本的变异性和对总体特征的估 计。研究者应当充分理解误差的影响,并对提高研究的科学性和准确性。未来,随着统计方法的不断发展, 样本含量估计将更加精确和可靠。
《样本含量的估计》
在进行实验研究时,样本含量的估计是一项关键任务。本课件将介绍样本含 量估计的定义、重要性、常见的方法、影响因素、实际应用、误差解释,并 给出结论和展望。
样本含量估计的定义
样本含量估计是通过统计方法预测研究中所需的样本数量,以确保研究结果 具有一定的可靠性和代表性。
样本含量估计的重要性

样本含量的估算(共55页)

样本含量的估算(共55页)

2
75
简 历
返回总目录
返回章目录
结束 第14页
统计学讲座 样本含量的估算
5、两样本率的检验
公式(5)为:
( z (1 )( Q Q ) z (1 ) / Q (1 ) / Q c 1 1 1 2 2 2 N c 1 2
1 1 1 2 2
(5)
式中:
c Q11 Q2 2
返回总目录 返回章目录 结束 第15页
简 历
统计学讲座 样本含量的估算
【例5】两样本率的检验
【例5】研究针炙配合心理疗法治疗失眠的效果。预试验中, 针炙和心理联合治疗的有效率为94%,单纯应用针炙治疗的 有效率为85%。若取双侧α=0.05,则z0.05=1.96,β取单侧 0.10,Z0.1=1.282,则检验功效为0.9。若联合治疗的样本 含量占60%(Q1),单纯治疗的样本含量占40%(Q2),则两 组样本含量各为多少? 计算:
简 历
返回总目录
返回章目录
结束 第5页
统计学讲座 样本含量的估算
(二)样本含量估算的方法
样本含量估算的公式:往往是通过假设检验的公式反推而得到。 1、单样本均数的检验或配对样本均数的检验:公式为
( z z ) N
2
(1)
单侧或双侧检验:取决于α的取值。如双侧,单侧。
2
(1.96 0.904(1 0.904)(0.601 0.401 ) 1.282 0.94(1 0.94) / 0.60 0.85(1 0.85) / 0.40 0.94 0.85 495
2
联合治疗组:n1=0.60×495=297 单纯组:n2=0.40×495=198

样本含量的估计

样本含量的估计

大样本得到的结论要比小样本得到的结论 更为精确和可靠, 更为精确和可靠,但大样本意味着研究者要付 出更多的时间、精力、人力和财力,有时还会 出更多的时间、精力、人力和财力, 导致浪费,样本例数太少,就容易把偶然性或 导致浪费,样本例数太少, 巧合的现象当作必然的规律性现象,也不能正 巧合的现象当作必然的规律性现象, 确地估计实验误差, 确地估计实验误差,
194 2.52 × 3 = 102.66 = 8 2
2
n(1)
再以α=0.05, =0.1, =3再以α=0.05,β=0.1,ν1=3-1=2,ν2= k(n(1)-1)=3(103k(n(1)-1)=3(103-1)=306,查ψ表,近似得 =306,查ψ ψ=2.53,代入公式(18-12): ψ=2.53,代入公式(18-12):
层 1 2 3 4 5 合计
表 18-1 按比例分配抽样各层应抽取的人数 人口数( 抽样比例( 样本含量( 人口数(Ni) 抽样比例(Ni/N) ) 样本含量(ni) 35000 0.233 233 25000 0.167 167 50000 0.333 333 10000 0.067 67 30000 0.200 200 150000(N) 1.000 1000(n)
第二节
参数估计中样本含量的估计
(一)估计总体均数时所需的样本大小 一、单纯随机抽样的样本含量估计
tα S n= δ
2
n nc = 1+ n
N
(x ± tα / 2 S / n .., ..δ = tα / 2 S / n )
式中S 为样本标准差,δ为容许误差,δ = x − µ 为样本标准差, 为容许误差,
i
ψ 时 , ν1 ,ν 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
含量越大。
容许误差δ
➢ 即预计样本统计量和相应总体参数的最大相应误差控制在 什么范围。即本研究有研究意义或临床实际意义的最小差 值。计量资料,δ为两均数差值或实验前后差值。计数资 料,δ为具有实际临床意义的有效率或患病率等差值。其 他条件确定的情况下,δ越小,所需样本含量越大。
确定样本量的方法---计算法
临床试验计数资料结局根据假设检验可能出现的结果
➢I类错误的概率:单侧为α,双侧为α/2,α越小所 需样本越大,一般取α≤0.05; ➢检验效能:1-β,β为II类错误,一般β=0.1或 β=0.2,β越大,检验效能越低,样本数量也越小;
总体标准差σ和总体率π
➢ 总体标准差σ反映计量资料总体中各观察单位计量值的变异 程度。如:计量(定量)指标血压、血糖、血清酶等。
1.2 估计总体率所需样本含量
例2:某口腔医院研究青少年龋齿发病情况,拟了解
某市青少年龋齿患病情况,期望误差在平均患龋
齿率30%的1/6范围内,当双侧α=0.05,问需要抽
样调查多少人?Nu2
p1p
2
ua/2=u0.05/2=1.96 p=0.3 δ=0.3/6=0.05 n=(1.96)2(0.30)(1-0.30)/(0.05)2=322.7≈323
➢ 总体率π反映计数资料总体率的变异程度。如:计数(定性 )指标死亡与存活,阳性与阴性,正常与异常等。
➢ 通过以往的实验得出的经验或查阅文献资料作出估计。 ➢ 如无依据,可从研究者所作的预备实验结果中获取的样本的
标准差s或样本率P分别作为σ和π的估计值。 ➢ 在其他条件相同的情况下,σ越大,π越接近0.5,所需样本
u 少人?(双侧α=0.05) 2 2
n
2
uα/2=1.96(查界值表所得) σ=1.5 δ=0.2 n=(1.96)2(1.5)2/(0.2)2=216.1≈217
1. 单纯随机抽样样本含量的估计
率 1.2 估计总体率所需样本含量公式
Nu2
p1p
2
❖ P为总体率π的估计值,若π同时有几个估计值供参考,应 取最接近0.5者;若对总体一无所知,亦可设π=0.5。因为 此时π(1-π)=0.52=0.25为最大,以免样本量n过小。δ为 允许误差,即允许样本率和总体率的最大容许误差为多少。 α取双侧,uα值可以查表。
u 2
2
n
2
❖ σ为总体标准差,一般用样本标准差s表 示;δ为容许误差,即样本均数与总体 均数间的容许差值;α取双侧,u值可以 查表。
1.1估计总体均数所需样本含量
❖ 例1:某医院拟用抽样调查评价本地区健康成人白细胞数
的水平,要求误差不超过0.2*109/L。根据文献报告,健
康成人的白细胞数的标准差约1.5*109/L。问需要调查多
2.实验研究设计样本含量估计
2.1 样本均数与总体均数比较(或配对设计均数比较)公式
u u nຫໍສະໝຸດ 222n 为所需样本含量,如为配对设计时n为对子数。 ua是检验水准a所对应的u值,查表可得。 uβ是第二类错误的概率β相对应u值,查表可得。 δ=µ1-µ0为研究者提出的差值,µ0为已知的总体均数, µ1为估计实验结果的总体均数。 σ用样本标准差s代替。
地区性研究:平均样本人数500-1000人; 全国性研究:1500-2500人 描述性研究:样本最少占总体的10%,如果总体较小,则最
少占总体20% 相关性研究:受试者至少30人以上
确定样本量的方法---计算法和查表法
❖ 样本含量估计常用的两种方法。
❖ 需要提前确定以下参数:
TEXT
α
1-β
σ和π
检验效能(1-β)
又称把握度,为1-β,即在特定的α水准下,若总体参数 之间确实存在着差别,此时该次实验能发现此差别的概率。β 即假设检验第二类错误出现的概率,为假阴性错误出现的概 率。检验效能即避免假阴性的能力,β越小,检验效能越高, 所需的样本量越大,反之就要越小。β水平由研究者具情决定 ,通常取β为0.2,0.1或0.05。即1-β=0.8,0.9或0.95,也 就是说把握度为80%,90%或95%。
2.1.1 样本均数与总体均数比较
例3:已知某地成年男性的血红蛋白含量(135±15)g/L,
拟在当地煤矿工人中对成年男性进行抽样调查,研究
煤矿工人的血红蛋白量水平与当地一般成年男性无差
异。根据专业医学知识,当血红蛋白含量相差10g/L以
增加研究困难 难于控制条件 浪费人力物力
估计样本含量的目的
❖ 在保证某项研究/临床试验的结论具有一定科 学性、真实性和可靠性前提下,确定某研究所 需的最小观察例数。
确定样本量的方法
❖ 经验法 ❖ 查表法 ❖ 计算法 ❖ 计算机软件协助
确定样本量的方法---经验法
❖计量资料:30-40例 ❖计数资料:50-100例 ❖调查研究在100以上:
第五章总体和样本
第一节基本概念 第二节抽样过程及方法 第三节样本含量估计
第三节 样本含量估计
样本含量估计的目的 确定样本量的方法
样本含量估计的注意事项
样本含量(sample size)
按照总体客观存在的性质与特征和 研究者所欲承担的误差风险而决定的最 小样本量。
样本含量过小
样本含量过大
指标不稳定 检验效能低
❖ 通过数学公式估算出所需样本含量。其计 算公式往往是根据检验统计量的公式反推 过来求样本含量。
❖ 研究的性质不同、研究的科研设计不同、 抽样方法不同,估计样本量的计算公式也 不同。
❖ 不同的检验方法都有确定样本含量的方法 计算公式。
1. 单纯随机抽样样本含量的估计
1.1估计总体均数所需样本含量公式
δ


总总



体体



标率






检验水准(a值)
即假设检验第一类错误出现的概率,也称假阳性率,,即检验水 准或显著性。α越小,所需的样本量越大,反之就要越小。α水平由 研究者根据具体情况决定,通常α取0.05或0.01。 ❖ 另外还应明确是单侧或双侧检验。
用统计学检验时,当研究结果高于和低于效应指标的界限均有 意义时,应该选择双侧检验,所需样本量就大;当研究结果仅高于 或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量 就小。当进行双侧检验或单侧检验时,其α或β的U界值通过查标准 正态分布的分位数表可得。
相关文档
最新文档