(抽样检验)第四章抽样理论和参数估计最全版

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(抽样检验)第四章抽样理论和参数估计

第四章抽样理论和参数估计

知识引入

1970年美国首次进行征兵抽签,组织者将19-25岁的适龄青年按年龄分组,使用编号

001-366的等重量塑料球,001代表1月1日出生者,031代表1月31日…,366代表12月31日。然后将所有塑料球放入滚筒中混合抽取号码,每组抽中号码对应生日的青年依次应征,直到人数足够为止。

之后,有记者指出此次抽签产生了严重的偏差,他们注意到,年末生的人似乎倾向于被抽到较前面的征兵顺序。其结果就是壹堆12月份生的人去了越南战场。后来,经过统计学家的分析,发现这种“偏差”确实存在;经过分析终于找到了原因,原来代表生日的号码塑料球是壹次按壹整个月份装入滚筒中混合的,加上又没有均匀混合;于是1月份的生日容易在滚筒底下,12月份的是最后才装进去,容易在上面。

在抽样术语中,经常能够听到“随机抽样”、“随机选择”这样的表述,“随机性”原则其实保证了总体中的每个个体被抽中的概率相等,因而被认为是保证各种抽签、选择过程公平、公正的壹个基本手段。上述抽样就没有保证这种随机性。

在本章中,我们仍会见到,作为推断的基础,我们直接研究的样本是否“得当”对研究总体十分关键,能够通过壹定的抽样设计制定科学、合理、公正的抽样方法。如上述随机性原则能够保证抽样能够使得样本和总体有相同的内部结构,也就是说有最大的可能使总体的某些特征在样本中得以再现。本章在介绍必要的抽样概念和抽样方法基础上,重点介绍抽样分布理论,且对参数估计进行简要介绍。

第一节抽样和常用抽样方法

壹、简单随机抽样

抽样(sampling)或取样,在整个研究过程中位于数据收集之前,恰当的抽样设计是保证样本代表性的关键环节,是利用样本对总体进行假设检验或参数估计的基础。抽样涉及到的壹些基本概念在绪论中均已介绍。壹个合理可行的抽样设计,壹方面要求针对调查或实验研究的具体情况选择壹种适宜抽样方法;另壹方面应该根据调查研究所要求的精确度及经费状况确定样本容量。

壹般所说的随机抽样,就是指简单随机抽样,它是最基本的抽样方法,适用范围广,最能体现随机性原则且原理简单。抽取时,总体中每个个体应独立地、等概率地被抽取。常用的实施方法有抽签法和随机数表法。

1、抽签法:是把总体中的每壹个个体都编上号且做成签,充分混合后从中随机抽取壹部分,这部分签所对应的个体就组成壹个样本。

2、随机数表法:所谓随机数表或乱码表,是由壹些任意的数毫无规律地排列而的数表。教材附表17即是壹万个数字的随机数表。

随机数表的用法

许多计算机软件都能够自动生成随机数字。这里介绍教材附录17中乱码表的用法:首先对总体中所有个体依次编号,接着从表中任壹位置(任意行列交叉处)开始,依次往下找足你所需要的随机数(均为5位),以这些随机数为编号的个体即组成壹个样本。在查找随机数时,有俩点要注意,壹是总体容量是几位数,就从表中随机数末尾截取相应位数(因而最多能够截取4位数,抽取9999个)。如总体容量为500,则能够见表中数据的末尾三位数,且依次往下找;二是找到的数字若超过总体的容量范围,则跳过,比如总体容量为500,要

求抽取30个,则设定任意起始点往下找,找到壹个数字末尾三位为678,则跳过,见到壹个098,则表示编号098号被抽中,…,直到找满30个为止。

当然这俩种方法都是针对有限总体的,在实际当中的无限总体能够采用其他方法来抽样。简单随机抽样从理论上说是最符合随机性原则,可是这种方法在实际应用时,存在着壹些不足:首先,对大总体进行编号是相当困难的;其次,由于完全采用随机性,实际抽取的那壹个样本可能不具备总体本应该有的壹些特性。

另外,对于大总体在制签或查表时都是相当困难的。对于已有顺序编号的大总体,实际当中常常采用等距抽样简洁地实现。等距抽样也称系统抽样。顾名思义,它是按照抽样比例(样本容量和总体容量之比)确定抽样间距(抽样比例的倒数),然后从任意起点间隔抽样间距逐个获得样本中的个体。如壹总体有5000个,要求抽取壹个500人组成样本,即抽样比例为10%,则从任意位置开始(假设总体中所有个体均已编号,且壹般地假设从10以内开始),连续抽取a、a+10、a+20、…、a+4990共500个编号个体作为样本。

二、分层抽样

分层抽样是事先按总体已有的某些特征,将总体分成几个不同的部分,每壹部分叫壹层,再分别在每壹层中随机抽样。这种方法充分利用了总体的已有信息,因而是壹种非常实用的抽样方法。

对于壹个总体如何分层,分多少层,要视具体情况而定。壹个总的原则是,各层内个体在该特征上的差异要少,而层和层之间的差异要越大越好。比如说,对大学生能够按其学校是壹流大学、重点大学、壹般大学来分层。对于复杂问题仍能够按几个分层标准来分层。如韦克

斯勒幼儿智力量表在制定常模时,就按年龄、性别、种族、地区、家长职业和城市农村等六个因素来分层,使得样本中各种搭配下的人数比例都和总体尽量接近。

分层抽样在具体实施时,又根据是否知道各层内标准差分成俩种办法:

按各层人数比例分配。这是在各层内标准差不知道时的分配方式,即让样本中各层人数的比例和总体中各层人数的比例相同。

最佳分配。这是在已知各层内标准差时的分配方式,它是按标准差大小和总体中各层人数比例共同来确定最终样本中各层人数的比例。任意壹层中要抽取的人数可表示为:

其中N表示总体容量,n表示样本容量,i表示第i层。

确定了各层内的抽取人数,每层内的抽取可采用简单随机抽样法进行。

三、俩阶段抽样

俩阶段抽样也称为分群抽样,首先是将总体分成若干群,从中随机选出壹些群,这是第壹阶段抽样;再从被选出的群中进行随机抽样,这是第二阶段抽样。这里分群的原则正好和分层抽样中分层的原则相反,要求各群内个体之间的差异尽量地大,而各群之间就没多大的差异。比如要进行壹个全国范围内生活消费方面的调查,能够按大城市进行分群,显然各大城市内的居民千差万别,而各个城市之间则相差无几,因此不必选取所有的大城市,能够只从中选择壹部分,然后再在这些城市进行抽样。

在壹个复杂的抽样设计中,往往可能将分层抽样抽样和分群抽样反复应用,最终才得到所要的样本。如上面的例子中,要在壹个大城市里选取壹部分居民,也不是件容易的事,这时可再分群或分层,直到便于抽样时为止。

相关文档
最新文档