(抽样检验)第四章抽样理论和参数估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章抽样理论和参数估计

知识引入

1970 年美国首次进行征兵抽签,组织者将19-25岁的适龄青年按年龄分组,使用编号001-366 的等重量塑料球,001代表1月1日出生者,031代表1月31日…,366代表12月31日。然后将所有塑料球放入滚筒中混合抽取号码,每组抽中号码对应生日的青年依次应征,直到人数足够为止。

之后,有记者指出此次抽签产生了严重的偏差,他们注意到,年末生的人似乎倾向于被抽到较前面的征兵顺序。其结果就是一堆12 月份生的人去了越南战场。后来,经过统计学家的分析,发现这种“偏差”确实存在;经过分析终于找到了原因,原来代表生日的号码塑料球是一次按一整个月份装入滚筒中混合的,加上又没有均匀混合;于是1 月份的生日容易在滚筒底下,12 月份的是最后才装进去,容易在上面。

在抽样术语中,经常能够听到“随机抽样”、“随机选择”这样的表述,“随机性”原则其实保证了总体中的每个个体被抽中的概率相等,因而被认为是保证各种抽签、选择过程公平、公正的一个基本手段。上述抽样就没有保证这种随机性。

在本章中,我们还会看到,作为推断的基础,我们直接研究的样本是否“得当”对研究总体十分关键,可以通过一定的抽样设计制定科学、合理、公正的抽样方法。如上述随机性原则可以保证抽样可以使得样本和总体有相同的内部结构,也就是说有最大的可能使总体的某些特征在样本中得以再现。本章在介绍必要的抽样概念和抽样方法基础上,重点介绍抽样分布理论,并对参数估计进行简要介绍。

第一节抽样和常用抽样方法

一、简单随机抽样

抽样(sampling)或取样,在整个研究过程中位于数据收集之前,恰当的抽样设计是保证样本代表性的关键环节,是利用样本对总体进行假设检验或参数估计的基础。抽样涉及到的一些基本概念在绪论中均已介绍。一个合理可行的抽样设计,一方面要求针对调查或实验研究的具体情况选择一种适宜抽样方法;另一方面应该根据调查研究所要求的精确度及经费状况确定样本容量。

一般所说的随机抽样,就是指简单随机抽样,它是最基本的抽样方法,适用范围广,最能体现随机性原则且原理简单。抽取时,总体中每个个体应独立地、等概率地被抽取。常用的实施方法有抽签法和随机数表法。

1、抽签法:是把总体中的每一个个体都编上号并做成签,充分混合后从中随机抽取一部分,这部分签所对应的个体就组成一个样本。

2、随机数表法:所谓随机数表或乱码表,是由一些任意的数毫无规律地排列而的数表。教材附表17即是一万个数字的随机数表。

随机数表的用法

许多计算机软件都可以自动生成随机数字。这里介绍教材附录17中乱码表的用法:首先对总体中所有个体依次编号,接着从表中任一位置(任意行列交叉处)开始,依次往下找足你所需要的随机数(均为5位),以这些随机数为编号的个体即组成一个样本。在查找随机数时,有两点要注意,一是总体容量是几位数,就从表中随机数末尾截取相应位数(因而最多可以截取4位数,抽取9999个)。如总体容量为500,则可以看表中数据的末尾三位数,并依次往下找;二是找到的数字若超过总体的容量范围,则跳过,比如总体容量为500,要求抽取30个,则设定任意起始点往下找,找到一个数字末尾三位为678,则跳过,看到一个098,则表示编号098号被抽中,…,直到找满30个为止。

当然这两种方法都是针对有限总体的,在实际当中的无限总体可以采用其他方法来抽样。

简单随机抽样从理论上说是最符合随机性原则,但是这种方法在实际应用时,存在着一些不足:首先,对大总体进行编号是相当困难的;其次,由于完全采用随机性,实际抽取的那一个样本可能不具备总体本应该有的一些特性。

另外,对于大总体在制签或查表时都是相当困难的。对于已有顺序编号的大总体,实际当中常常采用等距抽样简洁地实现。等距抽样也称系统抽样。顾名思义,它是按照抽样比例(样本容量与总体容量之比)确定抽样间距(抽样比例的倒数),然后从任意起点间隔抽样间距逐个获得样本中的个体。如一总体有5000个,要求抽取一个500人组成样本,即抽样比例为10%,则从任意位置开始(假设总体中所有个体均已编号,且一般地假设从10以内开始),连续抽取a、a+10、a+20、…、a+4990共500个编号个体作为样本。

二、分层抽样

分层抽样是事先按总体已有的某些特征,将总体分成几个不同的部分,每一部分叫一层,再分别在每一层中随机抽样。这种方法充分利用了总体的已有信息,因而是一种非常实用的抽样方法。

对于一个总体如何分层,分多少层,要视具体情况而定。一个总的原则是,各层内个体在该特征上的差异要少,而层与层之间的差异要越大越好。比如说,对大学生可以按其学校是一流大学、重点大学、一般大学来分层。对于复杂问题还可以按几个分层标准来分层。如韦克斯勒幼儿智力量表在制定常模时,就按年龄、性别、种族、地区、家长职业和城市农村等六个因素来分层,使得样本中各种搭配下的人数比例都与总体尽量接近。

分层抽样在具体实施时,又根据是否知道各层内标准差分成两种办法:

按各层人数比例分配。这是在各层内标准差不知道时的分配方式,即让样本中各层人数的比例与总体中各层人数的比例相同。

最佳分配。这是在已知各层内标准差时的分配方式,它是按标准差大小和总体中各层人数比例共同来确定最终样本中各层人数的比例。任意一层中要抽取的人数可表示为:

其中N 表示总体容量,n 表示样本容量,i 表示第i 层。

确定了各层内的抽取人数,每层内的抽取可采用简单随机抽样法进行。

三、两阶段抽样

两阶段抽样也称为分群抽样,首先是将总体分成若干群,从中随机选出一些群,这是第一阶段抽样;再从被选出的群中进行随机抽样,这是第二阶段抽样。这里分群的原则正好和分层抽样中分层的原则相反,要求各群内个体之间的差异尽量地大,而各群之间就没多大的差异。比如要进行一个全国范围内生活消费方面的调查,可以按大城市进行分群,显然各大城市内的居民千差万别,而各个城市之间则相差无几,因此不必选取所有的大城市,可以只从中选择一部分,然后再在这些城市进行抽样。

在一个复杂的抽样设计中,往往可能将分层抽样抽样和分群抽样反复应用,最终才得到所要的样本。如上面的例子中,要在一个大城市里选取一部分居民,也不是件容易的事,这时可再分群或分层,直到便于抽样时为止。

四、样本容量的确定

样本容量的大小对统计推断非常重要。样本容量过小,会影响样本的代表性,使抽样误差增大而降低了统计推断的精确性;而样本容量过大,虽然减小了抽样误差,但可能增大过失误差,且增大经费开支。另外,样本容量与抽样误差之间并不存在直线关系,随着样本容量的增大,抽样误差减小的速度越来越慢。

对于样本容量的确定受到很多因素的影响,也有很多相应的计算公式,这里不一一介绍。教材中介绍了对样本均值进行推断时利用最大允许抽样误差计算样本容量的方法。所谓“最大允许抽样误差”是指某一总体参数与其点估计(抽样所得的统计量)之间的差异在实际中

所能接受的最大范围。比如,对于总体均值μ,它的点估计是,那么在实际中用来估

计μ 时,研究者所能接受的最大范围就称为最大允许抽样误差,一般记为d。确定样本容量的目的就是使抽样的误差在研究者所能接受的的范围以内,因此样本容量与 d 是有直接关系。根据下面的抽样分布知识,可以得知:

第二节抽样分布理论

相关文档
最新文档