样本量计算 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

样本量计算

调查研究中样本量的确定

在社会科学研究中，研究者常常会遇到这样得问题：“要掌握总体(population)情况，到底需要多少样本量(sample)？”，或者说“我要求调查精度达到95%，需要多少样本量？”。对此，我往往感到难以回答，因为要解决这个问题，需要考虑的因素是多方面的：研究的对象，研究的主要目的，抽样方法，调查经费…。本文将根据自己的经验，探讨在调查研究中确定调查所需样本量的一些基本方法，相信这些方法对于其他的社会调查研究也有一定的借鉴意义。

确定样本量的基本公式

在简单随机抽样的条件下，我们在统计教材中可以很容易找到确定调查样本量的公式：

Z2 S2

n = ------------ (1)

d2

其中：

n代表所需要样本量

Z：置信水平的Z统计量，如95%置信水平的Z统计量为1.96，99%的Z为2.68。

S：总体的标准差;

d ：置信区间的1/2，在实际应用中就是容许误差，或者调查误差。

对于比例型变量，确定样本量的公式为:

Z2 ( p ( 1-p))

n = ----------------- (2)

d2

其中：

n ：所需样本量

z：置信水平的z统计量，如95%置信水平的Z统计量为1.96,99%的为2.68

p：目标总体的比例期望值

d：置信区间的半宽

关于调查精度

通常我们所说的调查精度可能有两种表述方法：绝对误差数与相对误差数。如对某市的居民进行收入调查，要求调查的人均收入误差上下不超过50元，这是绝对数表示法，这个绝对误差也就是公式(1)中置信区间半宽d。

而相对误差则是绝对误差与样本平均值的比值。例如我们可能要求调查收入与真实情况的误差不超过1%。假定调查城市的真实人均收入为10000元，则相对误差的绝对数是100元。公式的应用方法

对于公式的应用，一些参数是我们可以事先确定的：Z值取决于置信水平，通常我们可以考虑95%的置信水平，那么Z=1.96；或者99%，Z=2.68。然后可以确定容许误差d（或者说精度），即我们可以根据实际情况指定置信区间的半宽度d。因此，公式应用的关键是如何确定总体的标准差S。如果我们可以估计出总体的方差（标准差），那么我们可以根据公式计算出样本量：

例如：要了解该城市的居民收入，假定我们知道该市居民收入的标准差为1500，要求的调

查误差不超过100元，则在95%的置信水平下，所需的样本量为

n=1.962*15002/1002=8,643,600/10,000=864

即需要调查的样本量为864个。

最大样本量

以上公式只是理论上的，在实际调查中确定合理的样本量，必须考虑多方面的因素。

首先，由于人们通常缺乏对标准差的感性认识，因此对标准差的估计往往是最难的。总体的标准差是123，还是765？如果没有一点对样本的先验知识，那么对标准差的估计是不可能的。好在我们通常能对变量的平均值进行估计，如我们通过历史资料估计该地区目前的年人均收入大致为10,000元，那么根据统计学知识，我们引入变异系数的概念：

变异系数V=标准差S/平均值X<= 1

因此，我们知道人均收入的标准差应该小于平均值，就是说标准差应该在10000以下。当然，这对于我们确定样本量还不能起太大的作用。然而如果我们采用相对误差表述的精度，对公式（1）变形，我们有：

Z2(S2/X2) Z2V2 Z2

n = --------------------= -------------<= ----------

d2/X2 P2 P2

其中P表示相对误差

根据上述公式，我们可以计算在相对误差一定的情况下，所需的最大样本量。以下是在置信程度95%的水平下，在不同相对误差下的最高样本量：

相对误差

1%

2%

3%

4%

5%

10%

20%

样本量

38416

9604

4268

2401

1537

384

104

通常，变异系数为1的情况是很少见的，根据本人对调查研究中经常遇到的情况，变异系数多在50%以下，因此，实际所需要的样本量可以进一步缩小。

对于比例型变量，在事先缺乏对比例的估计时，我们可以采用最保守的估计法，即p=0.5，

以下是比例p在不同绝对误差程度下，所需的最大样本量（95%置信水平）：

p的绝对误差

0.01

0.02

0.03

0.04

0.05

0.10

所需最大样本量

9604

2401

1067

600

384

96

实际调查样本量的确定原则

虽然我们根据公式可以从理论上确定样本量的上限，但是由于实际工作的经费和时间限制，使用最大样本量的可能性很小；而且，实际研究的情况通常要复杂得多，因为一个研究往往都要考虑多个目标的，即要求对多个指标的误差进行控制，而不是简单地考虑一个指标。因此我们在实际的调查研究中，我们要综合考虑，采用多种方式来确定样本量。

1、调查的主要目标

一个现实的调查往往有多个目标，对于一些目标单一的调查，调查的样本量往往可以很少：100个，甚至50个就足够了。而对于具有多个目标的研究，必须考虑这些目标中变异程度最大，要求精度最高的目标。

2、分类比较的程度

分类是调查研究中一个最基本的方法，研究者往往是通过分类来发现细分市场，确定产品的市场定位等。假定对同一变量（研究目标），在一定精度与置信程度下，只要100个样本量就足够了，如果我们仅仅希望了解不同性别的消费者市场，则确定样本量时只需要考虑两类消费者的样本量，这样调查的总样本量可能需要200个以上，如果希望了解不同年龄层的消费者，则可能要将消费者分为多类，如分为：20岁以下，20-35，35-50，50岁以上等四类，这样的样本量需要400个以上。也就是说，确定样本量时必须考虑到每一类别的样本量。3、调查区域的大小

根据常识，调查区域越大，所需要的样本量可能越大，因为大区域内的样本变异程度我们通常较难掌握。此外，在实际研究中，我们还往往需要对大区域进行进一步分类，以寻求更加准确的市场细分。因此，对于同一调查目标，在上海进行调查所需要的样本量通常是要大于苏州的。

实际研究中的一些经验

根据一些学者的研究，以及个人在调查研究中的经验，调查中确定样本量通常的做法是：1、通过对方差的估计，采用公式计算所需样本量，主要做法有：

ØØ用两步抽样，在调查前先抽取少量的样本，得到标准差S的估计，然后代入公式中，得到下一步抽样所需样本量n；

ØØ如果有以前类似调查的数据，可以使用以前调查的方差作为总体方差