样本量的确定
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
样本量的确定
1. 二值分布(估计比例时的样本容量)
这种情况下,表明可能的采样结果只有两种情况,即是与非的问题。比如调查某一批产品的合格率。样本量的确定主要受以下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N ;通过置信水平即可查表确定z 。
通常情况下置信水平选择95%。抽样偏差为±5%,不过也不完全一定,抽样偏差的确定还是要考虑实际情况,比如最小的调查估计值p=5%,此时抽样偏差就应该小于5%。 这时,就可以确定样本量:
22
2
(1)(1)z p p n z p p e N
-=-+
P 值的确定:用以前类似样本得到的结果来近似,如果完全不知道就设p=0.5,因为此时方差最大,可求得一个比较保守的样本容量。
样本容量和在p=0.5时运用简单随机抽样估计p 值得到的抽样偏差e
如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成:
22
(1)z p p n e -=
事实上当总体容量很小时,不会采用抽样调查,而是普查了。
2. 正态分布(估计均值时的样本容量)
在这种情况下,表明采样的结果是具有多样性的,并不局限在0、1上。比如对某一城市老年人的患病年龄进行统计。这个时候,样本量同样受如下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N 。 样本量为:
22
222
z S n z S e N
=
+
S 表明的是总体标准差,这个可以用以前类似样本得到的S 或是实验调查样本的S 来近似。
同样,如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成:
22
2z S n e
=
理论基础:
根据数理统计知识,样本均值对总体均值可构造如下统计量:
x
X u
σ-,他满足标准正态分
布,查表即可得到某一显著性水平下这个统计量的值,这里面的x σ表示总体均值估计量的标准误差。
在无放回简单随机抽样情况下,总体均值估计量的标准误差表达式:
x σ=
如果误差界限设为e,那么:
e=
解得:
22
22
2
z S
n
z S
e
N =
+
对于二值分布,p的总体方差为:
2(1)
S p p
=-
此时:
2
2
2
(1)
(1)
z p p
n
z p p
e
N
-
=
-
+
当然,这里只考虑了简单随机抽样,对于分层抽样和整群抽样,需要再乘以一个设计效应,分层抽样效率高于简单随机抽样,效应因子小于1,整群抽样效率低于简单随机抽样,效应因子大于1.
总体大小对于样本量也是有影响的,当总体个数越小时,影响越明显。
二者之间并不是线性关系,因此样本量并不是越大越好。