抽样主讲老师赵凌云 (1)

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

抽样

主讲老师赵凌云

教学重点:相关术语的含义;概率抽样的基本方法;样本规模与抽样误差

教学难点:分层随机抽样与整群随机抽样的异同;样本规模与抽样误差的确定教学内容:

第一节几个重要术语的概念

1、抽样调查

所谓抽样调查,是按照一定的程序,从所研究对象的同质总体中抽取一部分进行调查,并在一定的条件下,运用数理统计的原理和方法,对总体的数量特征进行估计和推断。

2、总体和样本

总体(Population)或同质总体,是指提供所需信息的人的全体。对应的总体指标是根据总体各单位标志值计算,常用的总体指标有总体平均数μ、总体比例π、总体方差σ2。样本是总体的一部分,它由从总体中按一定程序选取的部分个体或抽样单元组成。样本是总体的子集,相对较小,但精心选择的样本能够准确的反映出所抽查的总体的特征。对应的样本指标是根据样本各单位标志值计算,常用的样本指标有样本平均数Χ、样本比例ρ、样本方差S2。

3、随机抽样和非随机抽样

抽样可分为随机抽样(也称概率抽样Probability sampling)和非随机抽样(也称非概率抽样Non-probability sampling)两种方式。随机抽样指在总体中的每个单位都具有同等可能性被抽选的方法。随机抽样在市场调查中应用的非常广泛,在完成抽样的过程中,调查员必须严格遵守正确的抽样程序,避免武断或有偏见的选择抽样的单位。使用抽样的样本预测总体时的差异,称为抽样误差。

随机抽样,总体中的每一个体或单位被抽中的概率要相等。它的优点在于:(1)可以根据抽样数据,利用统计分析方法,对总体的数量特征做出估计。(2)抽样误差可以事先确定并加以控制。其难点在于,要有总体完整的名单才能进行随机抽样,而市场调查中有些总体是无法精确界定的;而有些总体的资料是不公开的或很难收集的,此时进行随机抽样必然会无形中增加很大的成本。

非随机抽样是指从总体中非随机的选择特定的要素(单位),根据简便易行、节省开支或根据研究者主观的判断从总体中选取样本的抽样方法。非随机抽样更多的依赖研究者个人的经验和判断,它的缺点是无法估计和控制抽样误差,也不能用样本的定量数据推断总体,但是非随机抽样实行起来简单方便,所以经常在定性调查研究中使用。

4、抽样框和抽样单元

抽样框被定义为总体的数据目录或单位的名单,从中可以抽出样本单位。抽样框一般可采用现成的名单,如住户登记表、电话号码簿等。因该注意的是,在利用现有名单作为抽样框时,要先对该名录进行核查,避免有重复、遗漏的情况发生,以提高样本框对总体的代表性。

为了便于抽样,通常将总体划分为有限个互补重叠又穷尽的部分,每一个部分称为抽样单元。抽样单元可大可小,如在全国性居民生活状况的抽样调查中,可以设置省为一级抽样单元,省下面的不同城市设置为二级单元,城市中街区可以设置为三级单元,家庭户设为四级单元,抽样方案按照不同级别的抽样单元分别进行。

第二节抽样的方法

根据是否遵循随机原则进行抽样,抽样方法可以分为两大类:随机抽样(概率抽样)和非随机抽样(非概率抽样)。

一、随机抽样(概率抽样)

根据调查对象的性质和研究目的的不同,随机抽样方法主要有:简单随机抽样、分层抽样、整群抽样、多级抽样、系统抽样等方法。下面针对各抽样技术的概念、特点等内容进行介绍。

1.简单随机抽样

简单随机抽样(Simple random sampling)是最完全的概率抽样,针对包含N个单位的总体,选出n个单位作为样本时,每个单位在抽选时有相同被选中的机会的方法。

有的书中定义简单随机抽样时,有两种方式:如果抽样是无放回的(每个样本被抽中的概率是一样的),所得到的样本就叫做简单随机抽样样本;如果抽样是有放回的(每次抽中的签要放回,并再次混合均匀后,再继续抽取),则得到的样本叫做非常简单随机样本。前一种方法,总体中每个单元被抽中的概率完全相等;后者,总体中每个单元被抽中的概率并不相等。但是如果总体很大,样本量相对较小时,两者的差别会非常小。

简单随机抽样一般可采用抽签法,或查阅随机数表的方法来得到样本。

(1)抽签法是先将总体中的每个单元都编上号,写在签上,将签充分混合均匀,每次抽取一个签,签上号码所对应的单元即入样,抽中的签不放回,再接着抽取下一个签,直到抽够所需样本量为止。

(2)随机数表法是先将总体中的每一个单元都编上号,要注意的是,所有号码的位数均应相同。然后从随机数表的任一位置开始,向任何一个方向连续地摘录数字,将得到的数字按上边编号的位数分割为若干组数码,得到的数码所对应的单元即入样,重复的数码和没有对应单元的数码去掉,直至抽足所需样本量为止。

例如,要从一个700人的总体中抽取样本量为15的样本,先将这700人按001~700编号(或000~699,注意一定位数相同),从表中的任一位置,例如从第6行、第7列开始,

向右(可以向其他任何方向)连续地以三位数字为一个数码,得到的数码如下:

上面有下划线的数码均有相应的单元与之对应,则对应单元入样,依次选够15个为止。其他超过700的数码没有对应单元,去掉即可。数码618出现了二次,第二个618也要去掉不算。这两种方法,以随机数表法实施起来更为便利,特别是总体非常大的情况,用抽签法是几乎不可能的。

简单随机抽样的优越性在于方法简单直观,当总体名单完整时,可直接从中随机选取样本,由于抽取概率相同,计算抽样误差及对总体指标进行推断时比较方便。但是在实际的调查中,编制和获得完整的总体是非常困难的,也是不可能做到的,而且简单抽样得到的样本较为分散,会消耗比较大的调查成本,因此简单随机抽样适合于总体单位数不是很庞大,而且样本分布比较均匀情况。

2.系统抽样

系统抽样(Systematic sampling)也叫等距抽样,先将先将总体的每个单元编号,并按照一定顺序排列,然后按一定间隔选取样本的抽样方法。等距抽样经常最为简单随机抽样的代替物使用,所得到的样本几乎与简单随机抽样的样本相同。

使用等距抽样的方式,也必须获得一份总体的单位表,这一点与简单随机抽样是一样的。决定抽样间隔的运算公式如下:

例如要从120户居民中选出7户,使用系统(等距)抽样的过程如下:

a.先将120户居民从“1”到“120”编号;

b.决定间隔数;120/7=17.1,最接近的整数是17,间隔数定为17。

c.抽取第一个编号:等距抽样的方式可以随意使用一个起点,可通过随机表选取,也可按照简单的主观随意决定第一个编号。

d.然后每隔17抽取一个编号,这时可能出现两种情况:第一是开始的号码比较大,按照间隔抽选时,会出现超出编号的可能,即1);第二是选中的样本偏好在总体编号的范围内,即2):

1)38,55,72,89,106,123(3),140(20);

2)8,25,42,59,76,93,110

“1)”中最后两个编号超过了120,则把它们分别减去120,得到最后的编号3,20。最后这些编号所对应单元入样。

“2)”里由于第一个编号限定在1至17之间,所以没有出现超过120的编号,则所抽中编号不需修正,它们所对应单元入样。由此可见,在确定第一个编号时,“2)”的方法更为简便。

相关文档
最新文档