(完整版)第18章样本含量的估计

合集下载

样本含量的估计(流行病学应用)

样本含量的估计(流行病学应用)

2
212
2211)(])1()1()1(2[p p p p p p Z p p Z N --+-+-=βαN:为计算所得一个组的样本大小
对照组发生率
α水平相
应的标准
正态差试验组发生率
为1-β水平相应
的标准正态差(p1+p2
2
212
2211)(]
)1()1()1(2[p p p p p p Z p p Z N --+-+-=
βαN:为计算所得一个组的样本大小
对照组发生率
α水平相应的标准正态差
试验组发生率
为1-β水平相应的标准正态差
(p1+p2
2
2
2)(2d Z Z N a σβ+=公式适用于N≥30时
估计的标准差
两组连续变量均值之差
α水平相应的
标准正态差为1-β水平相应
的标准正态差

2 =|
1
计量资料
22
2)(2d Z Z N a σ
β+==25, d=15, Z α=1.96,Z β=1.64
随机分组临床试验原理示意图
实验组
(干预措施)
对照组
(对照措施)
样本
病人群体结局+
结局-
视网膜病变的下降比率
糖化血红蛋白降低值
2
2
2
)(2d
Z Z N a σ
β+=
=45, d=25, Z α=1.96,Z β=1.28。

第十八章样本含量的估算

第十八章样本含量的估算
(2.33 1.645) 25 n(1) 2 49.38 50 20
2
n1=50, 1 49
n(2)
t0.05,49 1.677 t0.01,49 2.405
2
(2.405 1.677) 25 2 52.07 53 20
2
(t t ) s 或 n
2
在此基础上,用已求得的样本数n1 再进行 评估。即用=n1 - 1 的tα 和tβ 值再求出n2,再 用v = n2 - 1 的tα 和tβ 值求出n3,直至前后两次 求得的结果趋于稳定为止,
【例8】 正常成年男子脉搏的平均数为 72次/分,标准差为6.0次/分。有某镇静药,服 药后的脉搏数要求降至小于或等于69次/分可认 为有镇静作用,要求=0.05(单侧), =0.10,1- =0.90,问需要试验多少例? u0.05=1.645,u0.10=1.282, =3,=6
三、样本含量的估算
3.样本率和总体率比较时的n估算
u +u n=(1- 0) 0
2
此公式适合大样本的研究。式中π0 为 已知的总体率, δ =π1 - π0,其中π1 为预期试 验结果的总体率。
【例10】用传统的方法治疗运动负胫骨结节骨 骺损伤的有效率约为85%,现采用小钢针做胫 骨结节骨骺穿刺,加上场应理疗的治疗方法, 估计有效率为95%,选定α = 0. 05, β = 0. 1 时至 少观察多少病例?
≠0的指标,必须达到n例观察数才能 满足研究的精度要求。
单、双侧检验

双侧检验所需样本含量n多于单 侧检验。Ⅰ类误差有单、双侧概率 之分,Ⅱ类误差只取单侧概率。
单侧界值小于双侧界值。

样本含量的估计

样本含量的估计
样本含量的估计在实验研究和调查研究中具有重要意义,它关乎研究的精确性和可靠性。足够的样本量能够估计研究中的误差,保证组间均衡性。影响样本含量估计的因素包括第一类错误概率大小、第二类错误概率大小、容许误差以及总体标准差。在参数估计中,如估计总体均数时,可采用单纯随机抽样的样本含量估计方法,具体通过公式计算得出所需样本大小。此外,文中还通过实例演示了如何ห้องสมุดไป่ตู้用这些方法进行样本含量的估算,强调了在实际操作中需综合考虑各种因素,避免样本过大或过小带来的问题。

样本含量估计的方法

样本含量估计的方法

样本含量估计的方法样本含量估计是一个重要的统计学方法,它在研究设计和调查研究中起着关键的作用。

通过样本含量估计,研究者可以确定所需的样本数量,以便能够得出具有统计学意义的结论。

在本文中,我将介绍样本含量估计的概念、方法以及其在研究中的应用。

首先,我们来了解一下什么是样本含量估计。

简而言之,样本含量估计是根据研究者的需求和目标,通过数学和统计分析计算所需的样本数量。

这个过程涉及到多种因素的考虑,例如研究的目的、研究设计、预期效应的大小以及所使用的统计方法等。

通过样本含量估计,研究者能够确保研究的可靠性和可信度。

在样本含量估计中,常用的方法包括功效分析和置信区间分析。

功效分析是根据所期望的研究效应大小和显著水平来确定所需的样本数量。

通过功效分析,研究者可以确定检验假设的能力,即发现真实差异的概率有多高。

置信区间分析是根据所期望的置信水平和误差限来确定样本数量。

置信区间分析能够提供一个居于一定置信水平的真实差异的范围。

在进行样本含量估计时,研究者需要考虑到多个因素。

首先,研究目的和研究问题对样本大小的需求有很大影响。

如果研究目的是描述性的,那么所需的样本大小相对较小;而如果研究目的是推断性的,那么所需的样本大小可能相对较大。

其次,研究设计也是样本含量估计的关键因素。

不同的实验设计和观察研究设计对样本大小的需求有所不同。

此外,预期效应的大小和统计方法的选择也会对样本大小产生影响。

样本含量估计在研究中有着广泛的应用。

在医学研究中,样本含量估计可以确保研究结果的准确性和可靠性。

在教育研究中,样本含量估计可以帮助研究者确定所需的学生样本数量,以进行教育干预的评估研究。

在社会科学研究中,样本含量估计可以帮助研究者确定所需的调查样本数量,以进行民意调查或社会调查研究。

虽然样本含量估计在研究中起着重要的作用,但是也存在一些挑战和限制。

首先,样本含量估计需要基于一定的假设和先验信息。

如果这些假设或先验信息不准确,那么估计的样本大小可能会出现偏差。

样本含量的估计(公卫执业医师《医学统计学》辅导)(精选文档)

样本含量的估计(公卫执业医师《医学统计学》辅导)(精选文档)

样本含量的估计(公卫执业医师《医学统计学》辅导)(精选文档)(文档可以直接使用,也可根据实际需要修改使用,可编辑欢迎下载)公卫执业医师《医学统计学》辅导:样本含量的估计一、估计样本含量的意义及条件我们在第一节里曾提到重复的原则。

所谓重复,是指各处理组(对照在实验研究中也被看作是一种处理,而且是必不可少的)的受试对象都应有一定的数量,例数不能太少,所以在抽样调查、临床观察或实验研究中,首先总要考虑样本含量(或叫样本大小)问题。

样本太小,使应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的依据;但样本太大,会增加实际工作中的困难,对实验条件的严格控制也不易做到,并且造成不必要的浪费。

所以这里所说的样本含量估计,系指在保证研究结论具有一定可靠性的条件下,确定最少的观察或实验例数。

但是,样本含量又是个比较复杂的问题。

要讲清在各种情况下估计样本含量的方法和原理,那是很繁杂的。

而且,不同的参考书上介绍的计算公式和工具表往往不一样,以致同一问题所得的结果也可能有出入。

所以,不论按哪种公式或工具表求得的结果,也只能是个近似的估计数。

估计样本含量,必须事先明确一些条件与要求:(一)根据研究目的与资料性质,要先知道一些数据。

例如要比较几组计数资料,先要知道百分数或率;要比较几组计量资料,先要知道平均数及标准差。

这些数据可从以往的实践,预备试验的结果、兄弟单位的经验或文献资料里得来。

(二)确定容许误差。

由于抽样误差的影响,用样本指标估计总体指标常有一定的误差,因而要确定一个样本指标与总体指标相差所容许的限度。

此值要求越小,所需例数就越多。

(三)确定把握度(1—β)。

β是第二型错误的概率;而1—β的意思是:如果两组确有差别,则在每100次实验中平均能发现出差别来的概率。

把握度可用小数(或百分数)表示,一般取0.99、0.95、0.90、0.80、0.50.要求把握度越高,则所需例数直多。

(四)确定显著性水平,即第一型错误的概率(α)。

样本含量估计

样本含量估计
对照组治疗前后十二指肠愈合率P0=90%。
2024/4/18
试验组-对照组= δ
最终所需样本量
1 =0 =113例
总样本量N=226例
15
三、常见研究设计类型的样本含量的估计
两组平行设计、定量、非劣效
某研究者欲评价试验药物A缓解癌症患者癌因性疲乏症状的有效性。以药物B为阳性
药物,设计了一项随机、双盲双模拟、平行对照、多中心临床试验。

0

0
δ
非劣效性试验:确定非劣效界值-δ !
H0:T-C ≤ - δ ;H1:T-C> - δ ;α=0.025(单侧)
由临床专家与统计学专家商量,最终由临床研究者确定。
2024/4/18
7
二、估计样本含量需要考虑的因素——研究设计
目的
假设检验
设计类型:
平行设计
交叉设计
实验设计
-14d
N1=13例;N2=13例
✓ I类错误:α=0.05
✓ II类错误:β=0.20
N1=17例;N2=17例
✓ 脱失率:20%
✓ 统计分布: 正态分布
✓ 效应量: 文献发现,服用标准药的受试者平均心率为μ1=93 次/分,标准差为σ= 9 次/分,同
2024/4/18
17
一个受试者相邻两次测量值之间相关系数均为ρ=0.7。两组受试者服药后平均心率
病例数
常见ADR概率(%) 一般ADR概率(%)罕见ADR概率(%)
假定总发生率为5%
假定总发生率为1% 假定总发生率为0.1%
100
99.41
63.40
9.52
100+300
>99.99

(完整版)第18章样本含量的估计

(完整版)第18章样本含量的估计

无论是调查研究还是实验性研究,医学研究大都是抽样研究,最终目的在于利用实际观测得到的样本信息推断未知的总体特征,即统计推断。

抽样研究设计时需要回答一个非常关键的问题:样本中包含多少个研究对象(人、动物、生物学材料等)才能既满足统计学要求,完成有效的统计推断,又照顾研究的可行性、伦理学等实际问题,从而最大限度控制研究成本和研究风险,提高研究效率。

这就是样本含量估计(estimation of sample size)。

本章将从统计推断的目的出发,介绍样本含量估计意义及常用的计算公式,并在此基础上介绍检验效能的估计(power analysis)。

第一节样本含量估计的意义及方法一、样本含量估计的意义由于抽样研究中抽样误差不可避免,样本统计量与其所对应的总体参数间总是存在一定差异。

因此,尽量减小抽样误差是提高统计推断精度的必然要求。

在总体变异性确定的条件下,样本中所含的研究对象数越多,抽样误差必然越小,样本统计量的稳定性肯定越高,总体参数的估计精度越好,假设检验中的检验效能(power=1- )亦会越高,从而避免出现假阴性的结论。

同时在实验性研究中,只有在研究对象数量足够大时才能使随机分组更加有效,从而保证组间均衡性。

但在实际研究中,除了要考虑抽样误差外,还需考虑研究的可行性、结论的时效性、医学伦理以及非随机误差的影响等实际问题,并非研究对象数越多越好。

比如在改良肩周炎贴膏临床试验中,如果片面地追求大样本,研究中所需的人力、物力、财力等物质支持必然增大,研究的可行性下降。

由于需纳入更多病例,可能会延长产品研发周期,影响新药投产上市;若增加医院或临床实验中心参与该研究,又增加了组织协调的工作量和工作难度。

同时增加各种混杂、偏倚发生的机会,比如由于肩周炎发病、预后与季节、气候密切相关,临床病例接收时间太长,组内病例同质性差;测量仪器增多导致测量误差增大,观察疗效的医院、医生增多,研究结果的一致性降低等现实问题,使得试验结果难于分析或者难以合理解释,影响研究结论的科学性。

样本含量的估计.

样本含量的估计.

N
Ni pi q i
i
pi qi
ni n
Ni pi qi Ni pi q i
1 35000 2 25000 3 50000 4 10000 5 30000 合计 150000
0.12 0.22 0.36 0.05 0.25 1.00
123 219 358 54 246 1000
第三节 假设检验中样本含量的估计方法 (一)样本均数与总体均数比较

表 18-2 按最优分配抽样各层应抽取的人数 人口数 三年前 qi=1-pi pi q i N i pi q i (Ni) 患病率 pi 0.04 0.40 0.20 0.10 0.30 0.96 0.60 0.80 0.90 0.70 0.20 0.49 0.40 0.30 0.46 6858.57 12247.45 20000.00 3000.00 13747.73 55863.75
调查得的样本率与未知实体率相差不超过10%的可
能性不大于0.05。如果用简单随机抽样,需要多少 调查对象?
1.96 0.8 1 0.8 n 61.47 2 0.1
2
二、分层随机抽样的样本含量的估计
按比例分配:
Ni ni n. N
最优分配:
N i . i ni n. N i . i
二、样本含量估计的影响因素
1.第一类错误概率大小(或置信度1-),越小,
所需要的样本含量越大,根据研究问题的性质和
研究目的决定I型错误的概率值,通常情况下,取
0.05,可取单侧或双侧。
2.第二类错误概率大小,越小,检验效能1-越大,
所需样本量也越大,一般要求检验效能不低于0.80。
t / 2, t , n

样本含量估计讲解

样本含量估计讲解
第 十 七 章
流行病与统计教研室
2019/6/9
1
第一节 样本含量估计的意义及应具备的条件
– 【例17-1】已知糖尿病患病率一般为2%~3%, 现拟采用单纯随机抽样方法从某社区抽取随机 样本,以了解该社区人群中糖尿病患病率。该 社区人口为3000人,希望误差不超过1%,取 a=0.05,需调查多少人?
• 二、其它概率抽样方法的样本含量估计
– (一) 分层抽样所需样本含量估计 – (二) 整群抽样所需样本含量估计
2019/6/9
7
单纯随机抽样的样本含量估计
• 估计总体均数的样本含量

公式:
n


ta,v s

2
• 式中,S 为总体标准差的估计值
为容许误差
ta,v 需要查t界值表,可先用标准正态分 布算初中步的的z自a 代由入度,v,算可出查一表个得初t步a,估v ,计以的此n,带再入计公
则 1 0
2019/6/9
29
– 【例 17-6】 已知健康妇女血清胆固醇平均水平 为4.4mmol/L,现欲研究服用类固醇类避孕药 对血清胆固醇水平的影响(双侧,即不知升高 还是降低)。改变值≤0.2 mmol/L时作为无改变, 改变值≥1.0mmol/L时作为有改变,
S 0.85 0.05 0.10 ,问需研究多少人?
p2 0.1449 m 4180 4970 2 4575
p 1060720 4180 4970 0.1945 K 55
2019/6/9
25
k0
1.962
41822
0.2536 0.19452 49702 0.1449 2 1 45752 0.12

第18章 病例对照研究 (NXPowerLite)(1)

第18章 病例对照研究 (NXPowerLite)(1)

暴露的OR 得病的OR
精品课件
重要定律 2
(2)对于罕见病,患病的优势比 ≈ 患病的相对危险度 RR
P(得病暴露)
OR(得病)
Odds(得病暴露) Odds(得病不暴露)
P(不得病暴露) P(得病不暴露)
P(不得病不暴露)
P(得病暴露)
P(得病1不暴露)
P(得病暴露) P(得病不暴露) RR
1
精品课件
精品以课件社区为基础
设计
(1)成组设计: 两组独立样本 优点:简单易行, 缺点:结果易受混杂因素干扰
(2)匹配设计:病例:对照= 1:1或1:m
优点:节约样本量 缺点:较难实施 注意:要避免匹配过度; 局限: 无法得到疾病的发病概率,只能获得暴露 概率; 不能用相对危险度描述疾病与暴露的关联程 度,只能用优势比来描述与分析。
H0 : OR 1
H1 : OR 1
2 MH
(ah Th )2 Vh
Th
n1h m1h nh
ah
ch ah
nh
bh
第h层对应于 ah 的方差
Vh
n1h n0 h m1h m0 h nh3 nh
对于大样本,
H
0
成立时
2 M
H
近似地服从自由度为1的
2
分布
(3)公共优势比OR的95%CI(Miettinen法)
暴露频率 P
0.48 0.14 0.21
1. 优势比的估计
ad 96 666
OR
5.64
bc 104109
2.优势比的假设检验
H 0 :OR=1,
H1 :OR≠1
2 MH
(N 1)(ad bc)2 (a b)(a c)(c d )(b d )

样本含量的估算(共55页)

样本含量的估算(共55页)

2
75
简 历
返回总目录
返回章目录
结束 第14页
统计学讲座 样本含量的估算
5、两样本率的检验
公式(5)为:
( z (1 )( Q Q ) z (1 ) / Q (1 ) / Q c 1 1 1 2 2 2 N c 1 2
1 1 1 2 2
(5)
式中:
c Q11 Q2 2
返回总目录 返回章目录 结束 第15页
简 历
统计学讲座 样本含量的估算
【例5】两样本率的检验
【例5】研究针炙配合心理疗法治疗失眠的效果。预试验中, 针炙和心理联合治疗的有效率为94%,单纯应用针炙治疗的 有效率为85%。若取双侧α=0.05,则z0.05=1.96,β取单侧 0.10,Z0.1=1.282,则检验功效为0.9。若联合治疗的样本 含量占60%(Q1),单纯治疗的样本含量占40%(Q2),则两 组样本含量各为多少? 计算:
简 历
返回总目录
返回章目录
结束 第5页
统计学讲座 样本含量的估算
(二)样本含量估算的方法
样本含量估算的公式:往往是通过假设检验的公式反推而得到。 1、单样本均数的检验或配对样本均数的检验:公式为
( z z ) N
2
(1)
单侧或双侧检验:取决于α的取值。如双侧,单侧。
2
(1.96 0.904(1 0.904)(0.601 0.401 ) 1.282 0.94(1 0.94) / 0.60 0.85(1 0.85) / 0.40 0.94 0.85 495
2
联合治疗组:n1=0.60×495=297 单纯组:n2=0.40×495=198
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十八章样本含量估计无论是调查研究还是实验性研究,医学研究大都是抽样研究,最终目的在于利用实际观测得到的样本信息推断未知的总体特征,即统计推断。

抽样研究设计时需要回答一个非常关键的问题:样本中包含多少个研究对象(人、动物、生物学材料等)才能既满足统计学要求,完成有效的统计推断,又照顾研究的可行性、伦理学等实际问题,从而最大限度控制研究成本和研究风险,提高研究效率。

这就是样本含量估计(estimation of sample size)。

本章将从统计推断的目的出发,介绍样本含量估计意义及常用的计算公式,并在此基础上介绍检验效能的估计(power analysis)。

第一节样本含量估计的意义及方法一、样本含量估计的意义由于抽样研究中抽样误差不可避免,样本统计量与其所对应的总体参数间总是存在一定差异。

因此,尽量减小抽样误差是提高统计推断精度的必然要求。

在总体变异性确定的条件下,样本中所含的研究对象数越多,抽样误差必然越小,样本统计量的稳定性肯定越高,总体参数的估计精度越好,假设检验中的检验效能(power=1- )亦会越高,从而避免出现假阴性的结论。

同时在实验性研究中,只有在研究对象数量足够大时才能使随机分组更加有效,从而保证组间均衡性。

但在实际研究中,除了要考虑抽样误差外,还需考虑研究的可行性、结论的时效性、医学伦理以及非随机误差的影响等实际问题,并非研究对象数越多越好。

比如在改良肩周炎贴膏临床试验中,如果片面地追求大样本,研究中所需的人力、物力、财力等物质支持必然增大,研究的可行性下降。

由于需纳入更多病例,可能会延长产品研发周期,影响新药投产上市;若增加医院或临床实验中心参与该研究,又增加了组织协调的工作量和工作难度。

同时增加各种混杂、偏倚发生的机会,比如由于肩周炎发病、预后与季节、气候密切相关,临床病例接收时间太长,组内病例同质性差;测量仪器增多导致测量误差增大,观察疗效的医院、医生增多,研究结果的一致性降低等现实问题,使得试验结果难于分析或者难以合理解释,影响研究结论的科学性。

另外,由于所施加干预措施可能存在的不良事件反应尚属未知,让过多的临床病例面临风险,亦有悖医学伦理原则。

因此,恰当的样本含量应该是满足医学科研统计学要求,保证一定推断精度和检验效能的前提下的最少研究对象数。

二、样本含量估计的方法样本含量的估计方法目前主要有两种:一是公式法,可根据研究目的、设计类型、已知条件等选择合适的公式进行估算,是目前使用最广泛的方法。

二是查表法,统计学家利用公式法获得样本含量后编制成工具表,使用者只需根据已知条件查表即可获得相应的样本含量,省去了繁杂的计算过程,但较为局限。

本章将主要介绍公式法样本含量的估计。

第二节 调查设计中样本含量估计调查研究的目的在于描述健康相关状态、事件在研究当时某特定群体中的分布,并在此基础上通过不同群体分布的比较,探索可能的关联或影响因素。

但其主要目的仍在于描述分布,如考察某地菜农钩虫感染率、医学生的吸烟率、某地健康男性居民血红蛋白的含量等。

若研究方式为抽样研究,便需要利用已知的样本信息推断总体参数,如总体均数μ、总体率π 的估计等。

因此本节将根据所估计的参数不同,介绍样本含量估计的基本条件,及总体均数、总体率估计中的样本含量估计方法。

一、样本含量估计的基本条件采用公式计算样本含量,必须有一些先决条件和基本信息,下面以例18.1为例简单介绍总体参数估计中样本含量估计的基本条件。

例18.1 拟采用单纯随机抽样的方法调查某地区男性成年人群血红蛋白含量(g/L)的平均水平。

根据文献,中国男性成人血红蛋白含量为(140±30)g/L ,要求所获得允许误差不超过5g/L ,取05.0=α,问需要调查多少位该地区成年男性? 此研究为调查研究,目的在于利用抽样获得的样本均数X 估计该地区成年男性血红蛋白含量(g/L)的总体均数μ。

假定该地区成年男性血红蛋白含量X 服从正态分布,以文献中中国男性成人的血红蛋白含量信息进行替代(140μ=g/L ,30σ=g/L),则该地区成年男性的血红蛋白含量X ~N (140, 302)。

题意要求允许误差不超过5g/L ,α=0.05,可解释为样本均数X 与总体均数μ之间的差距(X δμ=-)不超过5g/L ,且X 落在135~145g/L 之间的概率为1-α=0.95。

由于总体服从正态分布,样本均数的分布亦服从正态分布,当抽样方式为单纯随机抽样,且总体为无限总体时,标准误X n σσ=,X 的分布记为2~(,)x X N μσ。

可用图18.1表示。

图18.1 样本均数的抽样分布示意图结合图18.1,根据正态分布的原理可得:2X Z nn αμσσ-== (18.1) 上式反推即可获得单纯随机抽样研究中总体均数估计中的样本含量公式:2/2Z n ασδ⎛⎫= ⎪⎝⎭ (18.2) 式中,σ为总体标准差;δ为允许误差;/2Z α为标准正态分布α下双尾Z 值。

如例18.1中 σ=30 g/L ,δ=5 g/L ,/20.05/2 1.96Z Z α==,代入式(18.2)得:21.9630138.35n ⨯⎛⎫== ⎪⎝⎭所以至少需要调查139人才能达到所要求的精度。

由公式(18.2)可知,在总体服从正态分布且为无限总体、抽样方式为单纯随机抽样的前提下,其所需基本信息包括:1. 置信度1-α 置信度越高,需要的样本含量越大,常取0.05α。

2. 允许误差(allowable error) 是指研究者要求的样本统计量与其对应的总体参数之间的最大差距,其既可以用绝对误差δ (X δμ=-或p δπ=-),也可以用相对误差ε来表示,其中X εμμ=-或p εππ=-,则绝对误差δεμ=或δεπ=。

根据前面章节置信区间的估计,δ即区间长度的一半。

允许误差越小,所需样本含量越大。

3. 总体变异度 常用总体标准差σ刻画,总体率估计中的σ=总体的变异程度越高,所需样本含量越大。

二、单纯随机抽样的样本含量估计 (一) 估计总体均数时的样本含量估计调查研究中利用抽样获得的样本均数X 估计总体均数μ。

例18.1即为估计总体均数时的样本含量估计,这里不再赘述。

需指出的是,式(18.2)适用于无限总体抽样时的样本含量估计,对个体数为N 的有限总体中进行单纯随机抽样时,需在式(18.2)计算出样本含量n 的基础上利用式(18.3)进行校正:1c n n n N=+ (18.3) 若抽样比n N 很小,如小于0.05或0.1,这种校正可省略。

同时,实际工作中总体标准差σ常常未知,可首先通过小规模预调查获得的样本标准差S 估计σ。

此时,若继续采用式(18.2)估计样本含量,往往造成样本量的低估,尤其当样本量较小时,实际上难以达到总体均数估计的精度要求。

需用式(18.4)进行校正:2/2t S n αδ⋅⎛⎫= ⎪⎝⎭(18.4) 式(18.4)中/2t α表示自由度1n ν=-时t 分布界值,在估计出样本含量前其未知,可先用/2Z α计算出初步的样本含量(1)n ,并以自由度(1)(1)1v n =-获得(1)/2,t αν,代入式(18.3),求出更近似的(2)n ,依次类推,直至样本例数稳定。

但在实际应用中,如果样本估计量较大(如50n ≥),为方便起见可无需校正。

如例18.1中,若根据前期预调查得该地血红蛋白含量标准差s =30g/L ,其余条件不变,问需要调查多少该地区居民?根据/2Z α计算出的初步样本含量(1)=139n ,0.05/2,138 1.9773t =,带入式(18.4)得: 2(2) 1.977330140.71415⨯⎛⎫==≈ ⎪⎝⎭n 以(2)=141n ,0.05/2,140 1.9771t =,代入式(18.4)得(3)140.7141n =≈,(2)(3)n n =,可停止计算。

故至少需要调查141位成年男性。

(二) 估计总体率时的样本含量估计调查研究中常需利用抽样获得的样本率p 估计总体率π,由第十章的学习可知,当n 较大,π和1π-均不太小,如n π和(1)n π-均大于5时,样本率p 的分布亦近似服从正态分布,记为2~(,)p p N πσ,其中p σ=正态分布原理,由式(18.1)反推可得:2/2(1)Z n αππδ⎛⎫=⋅- ⎪⎝⎭ (18.5) 式中,π为总体率,其它符号含义同前。

总体率未知时,可取50%π,以使(1)ππ-达到最大,算得样本含量也最大,从而保证总体率推断的精确性。

例18.2 研究某地菜农钩虫感染率,要求允许误差不超过2%,取05.0=α,需调查多少人?根据题意,05.0=α,/2Z α=0.05/2Z =1.96,δ=2%=0.02。

总体率未知,取0.50π代入式(18.5)得: 22/2 1.96(1)0.5(10.5)24010.02Z n αππδ⎛⎫⎛⎫=⋅-=⨯⨯-= ⎪ ⎪⎝⎭⎝⎭式(18.5)同样仅适用于无限总体抽样的样本含量估计,对有限总体进行抽样时,仍需按式(18.3)进行校正。

同时,当总体率π接近0或1时,如π>70%或π<30%,应用式(18.5)会有偏差,此时可对π作以弧度为单位的平方根反正弦变换,再利用正态分布原理获得样本含量的估计公式: 2n ⎡⎤= (18.6) 此外,亦可使用基于Poisson 分布的正态近似样本含量估计等,读者可根据上述理论自行推导,或参考其它书籍,这里不再赘述。

三、其它概率抽样方法的样本含量估计概率抽样方法不同,样本含量估计方法各异。

对系统抽样而言,抽样间隔不同,其抽样误差也不同,故系统抽样尚无统一的方法估计样本含量。

但如果研究的变量与总体中个体的编号无确定的上升、下降或周期性变化的关系,系统抽样的抽样误差应小于单纯随机抽样,可参照单纯随机抽样所计算的样本含量。

这里简单介绍分层随机抽样和整群抽样中样本含量的估计。

(一) 分层随机抽样样本含量的估计抽样方式为分层抽样研究中,若总体为无限总体,可在估计各层总体参数2i σ或i π基础上,以各层例数在总体中所占比例i W 为权重进行加权平均,获得总体方差(22i i W σσ=⋅∑)或总体率(i i W ππ=⋅∑),再按式(18.2)或式(18.5)估计调查总例数。

若总体为有限总体,设总体例数为N ,共有L 层,每层例数为N i ,各层总体方差为2i σ(总体率的估计中2(1)i i i σππ=-),则调查总例数的估计公式为:22222222()i i ii i N w n N Z N ασδσ=+∑∑ (18.7)式中i w 为各层样本比例(sample fraction),即i i w n n =,余符号同前。

若按比例分配,则i i i w N N W ==;若进行最优分配,i i ii i w N N σσ=∑。

相关文档
最新文档