样本量的确定方法 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

样本量的确定方法

(2008-10-14 09:12:34)

一、样本单位数量的确定原则

一般情况下，确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验，市场潜力和推断等涉及量比较严格的调查需要的样本量比较大，而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查，样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题，即要有定性的考虑，也要有定量的考虑；从定性的方面考虑，决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。

从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来，样本量的大小主要取决于：

(1)研究对象的变化程度，即变异程度；

(2)要求和允许的误差大小，即精度要求；

(3)要求推断的置信度，一般情况下，置信度取为95%；

(4)总体的大小；

(5)抽样的方法。

也就是说,研究的问题越复杂,差异越大时,样本量要求越大；要求的精度越高,可推断性要求越高时,样本量也越大；同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系；而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1；分层抽样由于抽样效率高于简单随机抽样，其设计效应的值小于1,合适恰当的分层，将使层内样本差异变小，层内差异越小，设计效应小于1的幅度越大；多阶抽样由于效率低于简单随机抽样，设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,

这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

二、样本量的确定方法

如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便，然后将样本量根据一定方法分配到各个子域中去。所以，区域二相抽样不能计算样本量的说法是不科学的。1．简单随机抽样确定样本量主要有两种类型:

（1）对于平均数类型的变量

对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。已知期望调查结果的精度(E),期望调查结果的置信度(L),以及总体的标准差估计值σ的具体数据，总体单位数N。

计算公式为:n=σ2/(e2/Z2+σ2/N)

特殊情况下,如果是很大总体,计算公式变为:n= Zσ/e

例如希望平均收入的误差在正负人民币30元之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96。根据估计总体的标准差为150元,总体单位数为1000。

样本量:n=150*150/(30*30/(1.96*1.96))+150*150/1000)=88

(2)于百分比类型的变量

对于已知数据为百分比,一般根据下列步骤计算样本量。已知调查结果的精度值百分比(E),以及置信度(L),比例估计(P)的精度,即样本变异程度，总体数为N。

则计算公式为:n=P(1-P)/(e2/Z2+ P(1-P)/N)

同样,特殊情况下如果不考虑总体,公式为:n= Z2P(1-P)/e2

一般情况下,我们不知道P的取值,取其样本变异程度最大时的值为0.5。

例如:希望平均收入的误差在正负0.05之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96，估计P为0.5,总体单位数为1000。样本量

为:n=0.5*0.5/(0.05*0.05/(1.96*1.96)+0.5*0.5/1000)=278

2.样本量分配方法

以上分析我们获得了采用简单随机抽样公式计算得到的样本量，总的样本量需要在此基础上乘以设计效应的值得到。由于样本总量已经确定,我们采用总样本量固定方法分配样本,这种方法包括按照比例分配和不按照比例分配两类。实际工作中首先计算取得区县总的样本量,然后逐级将其分配到各阶分层中,如果不清楚各阶分层的规模和方差等,一般采取比例分配或者比例平方根分配法。如果有一定辅助变量可以使用，可以采用按照规模分配法分配样本量。

3.样本量和总体大小的关系:222

在其它条件一定的情况下，即误差、置信度、抽样比率一定，样本量随总体的大小而变化。但是，总体越大，其变化越不明显；总体较小时，变化明显。其变化趋势如下：

二者之间的变化并非是线性关系。所以，样本量并不是越大越好，应该综合考虑，实际工作中只要达到要求就可以了。

三、抽样调查方案样本量的确定

我们决定首先采取简单随机抽样的方法计算区县的样本量，之所以首先对区县计算样本量,主要是考虑，虽然我们方案中没有要求对区县的估计量，但是区县一级是我们做计划和决策的基础，具有承上启下的作用，如果区县级获得的估计量精度比较高，就可以保证上一级的估计量具有更高的精度，而且各个区县的样本量可以认为是相同的，这主要是因为各个区县的总体数都比较多，而且我们也不清楚；同时也不可能事先进行区县方差估计。没有首先计算区县以下各阶分层的样本量,主要是考虑:

（1）如果计算区县以下某阶分层的样本量,然后再将计算的样本量合并,将显著增加样本量，增加基层的负担。

（2）事实上,对于计算阶可以比较好的得到它的估计量,但我们现在不需要得到区县以下各阶分层的估计量,我们仅仅需要区县的估计量,没有必要计算区县以下阶样本量。

（3）我们直接对整个区县以简单随机抽样进行抽取,然后将其样本量合理分配到各阶分层中,这样可以使用较少样本量得到区县较好的估计量。

以下我们以试点地区批零业为对象进行研究。由于没有误差限以及置信度和抽样比率的值。我们可以采用常用参数:设定区县总体为很大,置信度是95%,抽样比率保守估计是0.5,抽样误差不能大于15%,根据公式计算得到样本量为43个。由于采取多阶分层抽样,我们如何设定抽样设计效应呢?区县及以下是三阶分层抽样,只要在各阶进行合适的分层，其设计效应应该在2-3之间,我们在这里取保守值3,那么得到本区县样本量是129个,这个样本量就可以根据新方案得到区县要求误差内的估计值。

1.确定办事处、居委会、村委会样本量

根据方案,每个居委会抽取样本5-10个,那么这个样本量是否可行呢?这里涉及如何将区县样本分配到街道和居委会中去，根据方案要求，街道抽取采取先分层，后对层内进行PPS抽样；那么分配样本是否也采取同样方法呢？主要看辅助变量与样本量之间的关联程度，方案中提供了两个辅助变量：人口数和个体数，对于辅助变量是个体数的完全可以使用规模分配方法分配样本量，个体数多的分配较多的样本量；对于辅助变量是人口数的如果采取规模分配方法，由于人口数与一个地区的个体单位数没有必然的联系，可能导致某些居委会的个体数比较多，却分配了较少的样本量，使得居委会分层变的困难，同时使居委会方差显著增大。而获得较多样本量的居委会，分层的效果和方差提高幅度有限，故采用比例分配的方法可能更加合适一些。对于居委会村委会的抽取，由于本阶可能存在市场内的抽样，分配复杂一些；如果本阶有市场内抽样，可以适当减少居委会村委会的样本量，但应该大于本阶样本量的80%，由于市场内抽样的特殊性，建议将本阶样本量全部分配给居委会村委会，我们所进行的试点就是将样本全部分配给居委会；至于市场内抽样的具体实施，可以根据方