第七章 抽样

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第七章抽样
一、抽样与抽样调查
1、抽样:是一种选择调查对象的程序和方法。

2、抽样调查:就是从研究对象的整体中选出一部分代表加以调查研究,然后用所得结果推论和说明总体的特征。

3、优点:社会学中第一次采用抽样方法的调查是A.L.Bowleg于第一次世界大战前在英格兰和威尔士所做的五城镇调查。

二战后,随着计算机技术的发展抽样调查法得到迅速推广,目前已成为社会调查的主流。

与整体调查(普查)比,抽样调查具有下列优越性。

第一、调查费用低。

抽样调查由于调查的仅仅是整体的一部分,因此,所需费用较整体调查低。

例如,我国第三次人口普查,动用普查人员710万,正式调查期间还动员了1000万干部群众参加,耗资约4亿元。

第二、速度快。

时间往往是最重要的,特别是某些社会现象需要及时了解,随时掌握。

第三、范围广。

由于上述两个特点,抽样调查可广泛用于各个领域,各种课题。

第四、可获得内容丰富的资料。

普查通常只了解少量项目,无法进行深入分析。

例如人口普查,我国1953年的第一次人口普查,只有姓名与户主的关系、性别、年龄、民族、住址六个项目,1982年的第三次人口普查,调查项目也只增加到19个。

第五、准确性高。

整体调查往往需要大批访问员,而这些访问员,有许多是缺乏经验和专业训练的,这往往会降低调查质量。

4、注意事项:抽样调查的成功首先要求所选取的样本能够代表总体,所谓代表性就是说,所选取的样本从调查要研究的总体特征看,能再现总体的结构。

在社会研究中,任何个体之间都存在着差异,任何部分都无法完全代表总体,因此,无论采用什么样的选取部分的方法,无论做得多么仔细,没有也不可能抽出毫无偏差的代表总体的所有特点和关系的样本。

这也就是说,在用样本来概括总体时,总要有误差,它的大小可以反映出样本代表性的高低。

对于研究人员来
说,重要的不是没有误差,而是能知道误差的大小和控制它的大小。

有两个因素可以减少抽样误差。

首先,大样本比小样本产生的误差小。

其次,从同质的总体中抽取样本比从异质总体中抽取样本所产生的抽样误差要小。

二、非概率抽样
抽样方法一般分为两大类:非概率抽样,是根据研究任务的要求和对调查对象的分析,主观地、有意识地在研究对象的总体中进行选择。

概率抽样,是依据概率理论,按照随机的原则选择样本,完全不带调查者的主观色彩。

非概率抽样由于每个个体进入样本的概率是未知的,而且由于排除不了调查者的主观影响,因而无法说明样本是否重现了总体的结构,用这样的样本推论总体是极不可靠的。

1、偶遇抽样(方便抽样)
指研究者在一定时间、一定环境里所能遇见到或接触到的人均选入样本的方法。

“街头拦人”法即为一例,电视台、电台和报社的记者常借这种方法迅速了解公众对某些刚刚发生的重大事件的反映。

偶遇抽样的优点是方便省力,但样本的代表性差,有很大的偶然性。

偶遇抽样非常容易产生系统误差,可能会产生无效的、非常不具代表性的样本,甚至比完全没有样本更糟。

这种样本可能颇具娱乐价值,但它可能得到扭曲的观点,并成为总体一个严重的错误代表。

2、主观抽样(判断抽样、立意抽样)
主观抽样的“主观”有两种含义,一是主观判断的意思,即研究者依据主观判断抽取可以代表总体的个体作为样本。

这种样本的代表性取决于研究者对总体的了解程度和判断能力。

二是“有目的”地选择样本的意思。

如在问卷设计阶段,为检验问题设计是否得当,常有意地选择一些观点差异悬殊的人作为调查对象。

这种方法常用在探索性研究或实地研究中。

主观抽样常用在下列三种情况:
第一,研究者使用它来选择特别能提供信息的独特个案。

例如要研究杂志的内容,以发掘文化主题,可选择某本流行的女性杂志做研究,因为该本杂志领导潮流。

第二,研究者使用它来选取很难接近、特殊总体中的成员。

例如,要研究娼妓,若要列出所有娼妓名单,使用随机抽样是不可能的,相反,使用主观信息比较可行,像娼妓招揽客人的地方、娼妓结合的社会团体,在红灯区工作的警察、其他娼妓等等。

第三,当研究者想要确认特殊个案类型,以便进行深入探究时可使用此方法。

3、滚雪球抽样
是先从几个合适的调查对象开始,然后通过他们得到更多的调查对象,这样一步步扩大样本范围。

例如研究城市保姆问题。

4、空间抽样
是针对一个变动的总体,如游行队伍、集会等进行抽样的方法,这种总体虽然总是变动的,但在空间上是有限的。

空间抽样最重要的是在同一时间对整个总体进行抽样。

5、配额抽样(定额抽样)
是按照调查对象的某种属性和特征将总体中所有个体分成若干类或层,然后在各层中抽样。

样本中各类所占的比例与他们在总体中所占比例一样。

定额抽样是以代表总体为目的的,因此它必须对总体的性质有充分的了解,如不同性别、年龄、教育水平的人在总体中各占多大比例等。

然后按比例分配应抽定额。

不过一旦定额抽样者固定了要抽取的类别和每一个类别要抽取的个案数目后,便使用随意抽样了,因而这种抽样还是有很大的局限性。

例题:假设某高校有2000名学生,其中男生占60%,女生占40%;文科学生和理科学生各占50%;一年级学生占40%、二年级、三年级、四年级学生各占30%,20%,10%。

现要用定额抽样方法依上述三个变数抽取一个规模为100人的样本。

依总体的构成和样本规模,我们可得到下列定额表
三、概率抽样
(一)有关概率抽样:
1、概率抽样是按照随机原则选择样本,完全不带调查者的主观意志,使总体中每一个体都具有一个已知不为零的被选机会进入样本。

2、基本原则:如果总体中的每一个体被抽取为样本的概率相同,那么从这个总体抽取的样本,就具有对该总体的代表性。

3、优点:
第一,更具代表性。

代表性是指当选出的样本的各种集合特征大体接近于总体的集合特征时,样本就具有代表性。

第二,概率理论使我们能够估计样本的精确度和代表性。

(二)抽样设计的类型:
1、简单随机抽样(simple random sampling)
是最基本的概率抽样,最直观地体现了抽样的基本原理,是其他抽样方法的基础。

简单随机抽样分为重复抽样和不重复抽样两类:在重复抽样中,已被选中的个体仍放回总体,因此,在同一样本中,某一个体就有可能不止一次地出现。

在不重复抽样中,被选样本的个体不再放回总体,因此,在同一样本中,每一个体只能出现一次。

社会调查中的简单随即抽样通常是使用随机数表进行。

随机数表一般是由范围在00001~99999内的5位数的随机数,按行和列排序构成的。

下面举一例说明如何使用随机数表进行抽样。

假设要从一个900人的总体中,用简单随机抽样方法抽取一个100人的样本。

ⅰ、将总体中的所有人编号:在本例中,每个人按001~900的顺序编号。

ⅱ、确定选出的随机数的位数。

本例中,由于总体人数为900,所以需要有3位数的随机数才能保证所有人都有被选中的机会。

ⅲ、决定从5位数组中选择哪几位数字。

要从5位数中产生3位数可以选择最左边的3位数、中间的3位数、最右边的3位数,任何方法都行,关键在于要先建立一个原则,然后从头到尾都依这个原则去做。

ⅳ、确定在表中选择数字的顺序。

我们可以随意确定在表格中选去数字的顺
序:依纵列的方向往下选取或往上选取;也可以顺着每一行从左到右或从右到左;还可以顺着对角线方向。

同样,选择什么样的方法并不重要,重要的是选定一个方法之后,必须从头到尾都使用这种方法。

ⅴ、确定开始选择的5位数组的起点。

只需闭上眼睛,用铅笔随意在随机数表上戳一下以决定开始的第一个数字,或者可以在纸上随意写下某一行与某一列,然后从这个位置的数字开始。

ⅵ、处理大于总体规模或重复的随机数。

当选取随机数时碰到超过范围的数字,在本例中如918,跳过这个数字然后继续选下一个即可。

在选择过程中,如果碰巧选中了两个相同的随机数,如两次选中了288,则应跳过第2次选中的288。

ⅶ、用所选的随机数抽样,抽样框中编号与选出的随机数相同的那些人将组成样本。

简单随机抽样是概率抽样的理想类型,没有偏见,简单易行。

但当总体所含个体数目太多时,采用这种抽样方式不仅费时、费力,而且费用很高,而在总体异质性很高时,误差较大。

2、系统抽样(systematic sampling)
(1)是简单随机抽样的一个变种。

是系统化地选择完整名单中每第K个要素组成样本。

如果名册包含10,000个要素,而你们需要1000个样本时,你们选择每第十个要素作为样本。

为了避免使用本方法时造成的人为偏差,必须以随机的方式选择第一个要素。

(2)系统抽样法中有两个常用术语:抽样间距和抽样比率。

抽样间距是指两个被选择要素间的标准距离,抽样比率则是被选择要素与所有总体要素的比率。

抽样间距= 总体大小/样本大小
抽样比率=样本大小/总体大小
(3)在系统抽样中,等间距抽取是最常用的规则,故系统抽样经常被称为等距抽样。

常用的等距抽样方法包括直线等距抽样和循环等距抽样,二者的区别在于总体规模是否为样本规模的总数倍。

ⅰ)整数抽样间距:
当总体N是样本数n的整数倍,即抽样间距k=N /n是整数,可使用直线等
距抽样。

即在算出抽样间距后,先在1~k范围内抽取一个随机数r作为起点,然后每隔k个单位抽出一个单位,直到抽出n个单位。

抽中的号码分别为:r ,r+k,…,r+(n—1)k
ⅱ)非整数抽样间距
当N不是n的整数倍,即抽样间距k不是整数时,可以采用以下两种方法进行抽样。

一是循环等距抽样方法,即先将N个总体单位首尾相接排成一个封闭圈,抽样间距k取最接近N /n的整数,再从1~N中随机抽取一个随机起点作为起始单位,然后每隔k抽取一个单位,直到抽满n个单位为止。

另一种方法是调整直线等距抽样,先将非整数的抽样间距k的小数点后移,使其成为整数[k],然后在10~[k]之间选定一个整数的随机起点[r];接下来再将[r]的小数点移回来,成为非整数的随机起点r。

由r开始每隔k个单位抽出一个单位,直到抽出n个单位。

抽中的号码分别为r ,r+k,…,r+(n—1)k,接下来再将这些号码的小数部分略去,便相应地得到入样单位的号码。

例如,N=2580,n=300,则k=8.6。

利用调整直线等距抽样,在10~86之间选定整数的随机起点[r]=27,将小数点移回,得到非整数的随机起点r=2.7,由此得到号码:2.7,11.3,19.9,28.5,…,将小数点后面的部分略去,就是选中的号码:2,11,19,28,…。

可以证明,调整后所有单位都具有相同的中选概率。

1
(4)使用系统抽样要注意一个问题:如果总体的排列出现有规律的分布时,就会使系统抽样产生很大误差,降低样本的代表性。

在一个有关二战士兵的经典研究中,研究人员从名册中每隔十个士兵抽出一个来进行研究。

然而士兵的名册是依系列的组织方式来编排的:首先是中士,接着是下士,其后是二等兵;用一班一班的方式进行编排,每个班10个人。

因此,此名册中每隔十个便是一位中士。

如此系统抽样可能会取得一个完全是中士的样本,同样的理由,此方式也可能会取得一个完全不含中士的样本。

3、分层抽样
(1)所谓分层抽样就是先将总体依照一种或几种特征分为几个子总体(类、群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合
1郝大海.社会调查研究方法.中国人民大学出版社2005,27。

在一起,即为总体的样本,称为分层样本。

(2)样本量在各层的分配。

最常见的样本量分配方式是按比例分配,即各层的子样本单位在总样本中所占的比例,与各层单位在总体中所占的比例完全相同。

另外,还可以有意识地利用非比例分配样本,当某些层的单位在总体中的比例太小时,如果按比例分配样本,则这些层的样本量会很少,无法进行统计分析;这时可以加大该层的样本量,即使用较大的抽样比,以便对这些层的子总体进行研究和比较。

4、整群抽样
(1)是将总体按照某种标准划分为一些子群体,每一个子群为一个抽样单位,用随机的方法从中抽若干子群,将抽出的子群中所有个体合起来作为总体的样本。

通常情况下,整群抽样的抽样误差大于简单随机抽样。

(2)群的划分。

从群的划分类型看,经常用到的是那些自然群,即由行政或地域区划形成的群,如学校、企业、省市或村镇。

另一类是调查人员人为划定的,如将一大块面积划分为若干块较小面积的群。

群的划分遵循以下原则,群内各单位的差异尽可能大,群与群之间的差异尽可能小。

这个原则与分层原则恰好相反,简言之,异质的群,同质的层。

5、多段抽样
在上述整群抽样中,当子群或子群内部个体数目较多,彼此间的差异不太大时,常常采用更加经济的方法,即不将样本子群中的所有个体作为样本,而是从中用前述各种随机抽样的方法抽取样本,因最终样本的获得经过两次抽样,我们称其为二阶段整群抽样,同样可作三阶段、四阶段等等多阶段整群抽样。

6、pps抽样(probability proportional to size)
对于群体规模不等的多阶段整群抽样,通常使用概率比率抽样法,即pps抽样。

就是每一群被选取的概率与其大小成比例,规模大的群以大概率入样,规模小的群以小概率入样,然后以一个固定的样本规模从抽中的初级抽样单位(primary sampling unit)内抽取样本单位。

下面通过一个具体例子说明pps抽样的具体操作方法。

假设要从全市100家企业、总共20万名职工中,抽取1000名职工进行调查。

采用pps抽样的方法,先从100家企业中抽取20家,然后再从这20家企业中分
别抽取50名职工构成样本。

先将各个元素(即企业)排列起来,然后写出它们的规模,及累积规模。

如下表。

表5—2 企业名单
四、抽样术语
个体和抽样单位:
个体是收集信息的基本单位,即分析单位。

个体与抽样单位在有些研究中是相同的,但抽样单位往往是多层次的。

例如调查家庭,可先在一个县选若干个乡,然后从这些乡组成的样本抽选某些村,最后从村样本中抽出家庭的样本。

这时抽样单位是乡、村、家庭三种,分别称为初级抽样单位、次级抽样单位和终极抽样单位。

研究总体和调查总体:
总体可说是一个抽象的概念,除非是特定的小总体,我们根本不可能固定一个总体来测量。

例如,在一个城市的某一时刻中,某些人死去,某些人抵达或坐飞机离开,某些人坐车经过城市边界。

研究者必须明确要将哪些人计算在内。

研究总体是在理论上明确界定的个体的集合体,它必须受几个方面的限定:内容、单位、范围、时间。

例如一项关于妇女生育率的研究,妇女只是一个模糊的整体,还不是研究总体,只有界定为2005年年满15——49岁的中国妇女后,才成为可用于调查的研究总体。

调查总体是研究者从中实际抽取调查样本的个体的集合体,它往往是研究总体的进一步界定。

研究总体是在理论上明确界定的整体,但在实际中很难做到使
符合这一定义的一切个体均能有机会被选入样本,例如本例中西藏游牧区妇女、在部队服役、劳教、患病特别是精神疾病的妇女等,实际上无法对其进行调查。

例如本例中的调查总体可界定为:2005年7月1日零时(除台湾和西藏外)28个省市自治区15——49岁妇女,并且将在医院、精神病院、监狱、劳教所、军队中的妇女除外。

抽样框
是从中抽取样本的抽样单位名单。

在一次抽样中,抽样框的数目是与抽样单位的层次相对应的,上面例子中有三个层次的抽样单位:乡、村、家庭,则对应的抽样框亦有三个:全部乡的名单、乡样本中所有村的名单、村样本中所有家庭的名单。

参数值和统计值
参数值是关于总体中某一变量的综合描述,例如全国妇女的平均受教育年限。

统计值是关于调查样本中某一变量的综合描述,例如从一个样本中得到的妇女平均受教育年限。

抽样误差
由于总体的异质性和样本与总体范围的差异性,在用样本的统计值去推算总体的参数值时总会有偏差,这种偏差就是抽样误差。

它是样本代表性大小的一个标准。

五、样本容量的确定
样本容量又称样本大小、样本规模,指的是样本内所含个体数量的多少。

样本容量主要取决于抽样精度和总体性质,以及调查的费用。

1、抽样精度与样本容量
抽样精度是指抽样中希望达到的精确度,其实就是能够容忍的抽样误差。

抽样误差是样本统计值与总体参数值之间的偏差,而偏差是由于样本与总体不一致造成的,样本越小,与总体差异越大,误差越大。

由此可以推论,能够容忍的抽样误差越小,即要求的抽样精度越高,则样本规模也越大,反之亦然。

2、总体性质与样本容量
总体性质包括两个方面:总体规模与总体异质程度。

笼统地说,样本越大,越近总体,抽样误差越小。

因此,在一定精确度要求下,总体越大者其样本要求亦应越大。

但这种情况只在一定程度上是正确的。

一般而言,总体越小,增大抽样比率,对抽样精度会有较大的改善,但有研究表明,对于较大的总体,在给定精度的条件下,总体规模和样本规模之间是非线性关系,样本增大速度远远低于总体增大速度。

另外,样本容量还受到总体内部异质程度的影响,总体内部异质程度越低,所需样本容量越小,总体内部异质程度越高,所需样本容量越大。

3、抽样方法与样本容量
每一种抽样方法都有自己计算样本容量的公式,因此在选定抽样方法后,须
考察和计算这一方法所需样本数。

4、无回答和样本容量
在调查过程中,由于调查对象未找到或拒绝访问等原因,实际上最终收集到的样本数与理论决定的样本数不同。

再有,即使是全参与分析的样本,也因对其中各个问题的回答率不同而在不同项目上显示出不同的样本规模,在确定样本大小时,亦应将这些情况考虑进去。

例如初步确定的样本容量是1000,但估计可能有20%的无回答,则实际调查所用的样本容量应为1000/80%=1250
5、经费与样本容量
样本规模还与准备用于调查的现有人力、物力、财力、时间等条件相适应,有时由于上述条件的限制或抽样操作上的困难,必须缩小样本。

表5—3 经验确定样本数的范围。

相关文档
最新文档