样本量的确定

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

样本量的确定

1. 二值分布(估计比例时的样本容量)

这种情况下,表明可能的采样结果只有两种情况,即是与非的问题。比如调查某一批产品的合格率。样本量的确定主要受以下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N ;通过置信水平即可查表确定z 。

通常情况下置信水平选择95%。抽样偏差为±5%,不过也不完全一定,抽样偏差的确定还是要考虑实际情况,比如最小的调查估计值p=5%,此时抽样偏差就应该小于5%。 这时,就可以确定样本量:

22

2

(1)(1)z p p n z p p e N

-=-+

P 值的确定:用以前类似样本得到的结果来近似,如果完全不知道就设p=0.5,因为此时方差最大,可求得一个比较保守的样本容量。

样本容量和在p=0.5时运用简单随机抽样估计p 值得到的抽样偏差e

如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成:

22

(1)z p p n e -=

事实上当总体容量很小时,不会采用抽样调查,而是普查了。

2. 正态分布(估计均值时的样本容量)

在这种情况下,表明采样的结果是具有多样性的,并不局限在0、1上。比如对某一城市老年人的患病年龄进行统计。这个时候,样本量同样受如下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N 。 样本量为:

22

222

z S n z S e N

=

+

S 表明的是总体标准差,这个可以用以前类似样本得到的S 或是实验调查样本的S 来近似。

同样,如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成:

22

2z S n e

=

理论基础:

根据数理统计知识,样本均值对总体均值可构造如下统计量:

x

X u

σ-,他满足标准正态分

布,查表即可得到某一显著性水平下这个统计量的值,这里面的x σ表示总体均值估计量的标准误差。

在无放回简单随机抽样情况下,总体均值估计量的标准误差表达式:

x σ=

如果误差界限设为e,那么:

e=

解得:

22

22

2

z S

n

z S

e

N =

+

对于二值分布,p的总体方差为:

2(1)

S p p

=-

此时:

2

2

2

(1)

(1)

z p p

n

z p p

e

N

-

=

-

+

当然,这里只考虑了简单随机抽样,对于分层抽样和整群抽样,需要再乘以一个设计效应,分层抽样效率高于简单随机抽样,效应因子小于1,整群抽样效率低于简单随机抽样,效应因子大于1.

总体大小对于样本量也是有影响的,当总体个数越小时,影响越明显。

二者之间并不是线性关系,因此样本量并不是越大越好。

相关文档
最新文档