样本量的确定

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

样本量的确定
1. 二值分布(估计比例时的样本容量)
这种情况下，表明可能的采样结果只有两种情况，即是与非的问题。

比如调查某一批产品的合格率。

样本量的确定主要受以下几个因素影响：置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N ；通过置信水平即可查表确定z 。

通常情况下置信水平选择95%。

抽样偏差为±5%，不过也不完全一定，抽样偏差的确定还是要考虑实际情况，比如最小的调查估计值p=5%，此时抽样偏差就应该小于5%。

这时，就可以确定样本量：
22
2(1)(1)z p p n z p p e N
-=-+
P 值的确定：用以前类似样本得到的结果来近似，如果完全不知道就设p=，因为此时方差最大，可求得一个比较保守的样本容量。

样本容量和在p=时运用简单随机抽样估计p 值得到的抽样偏差e
如果总体容量N 非常大，可近似为无穷，那么上面这个公式可简化成：
22
(1)z p p n e -=
事实上当总体容量很小时，不会采用抽样调查，而是普查了。

2. 正态分布(估计均值时的样本容量)
在这种情况下，表明采样的结果是具有多样性的，并不局限在0、1上。

比如对某一城市老年人的患病年龄进行统计。

这个时候，样本量同样受如下几个因素影响：置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N 。

样本量为：
22
22
2
z S n z S e N
=+
S 表明的是总体标准差，这个可以用以前类似样本得到的S 或是实验调查样本的S 来近似。

同样，如果总体容量N 非常大，可近似为无穷，那么上面这个公式可简化成：
22
2
z S n e
=
理论基础：
根据数理统计知识，样本均值对总体均值可构造如下统计量：
x
X u
σ-，他满足标准正态分
布，查表即可得到某一显著性水平下这个统计量的值，这里面的x σ表示总体均值估计量的标准误差。

在无放回简单随机抽样情况下，总体均值估计量的标准误差表达式：
x σ=
如果误差界限设为e ，那么：
(1)
n S
e
z N N
=-
解得：22
22
2
z S n z S e N
=+
对于二值分布，p 的总体方差为：
2(1)S p p =-
此时：2
2
2
(1)(1)z p p n z p p e N
-=-+
当然，这里只考虑了简单随机抽样，对于分层抽样和整群抽样，需要再乘以一个设计效应，分层抽样效率高于简单随机抽样，效应因子小于1，整群抽样效率低于简单随机抽样，效应因子大于1.
总体大小对于样本量也是有影响的，当总体个数越小时，影响越明显。

二者之间并不是线性关系，因此样本量并不是越大越好。