陈希孺《机会数学》第十一章 抽样方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.2抽样的方法

上一节讲述了抽样方法简单的发展情况,归结起来,无非是两个要点:1.在某些(不是一切)情况下,用抽取群体中的一部分个体进行调查的方法来取代全面调查;2.个体(即样本)的抽取应遵守机会均等的原则:群体中每一个体有同等机会被抽出。这种将样本的选定委之于机会的抽样,叫做随机抽样。这里我们来讲讲随机抽样如何实施的问题。可以说,随机抽样在纸面上写来轻松容易,而具体实施起来却麻烦多多,这恐怕也是此法不易推开的一个原因。

说纸面上讲来容易,是因为随机抽样,就其最基本的形态说,不过是“抽签”或我们在第一章中已多次提到过的“盒中抽球”的模型。设某社区有人口1万,要作其1%的抽样调查。先将这l万人自l至10 000编号,每人各有一个号。准备1万个大小质地一样的球(或纸片也可以,此处只做说明,不计较实行的难易),其上分别写上数字l 至l0 000将球放入一不透明的大口袋中,充分扰乱后,从中抽出100个——也可以100个一次抽出,也可以一个一个抽,但每次抽的球,下次抽时不放回去,这叫做“不放回抽样”。这100个球上的数字所对应的那100个人,即构成样本。

这样的抽样法叫做“简单随机抽样”,因为其形式简单,“机会均等”的性质一目了然,但它并非在实施上是最简单的一种随机抽样方法。正相反,从一定意义说,这种“简单随机抽样”。在实施上常是最复杂的一种随机抽样方法,因此在大型的抽样调查工作中很少应用,而往往用一些变通的方法(仍保持“机会均等”这一性质)来代替之。但这并不降低简单随机抽样方法的重要性,因为其理论比较简单,且更复杂的抽样方法的理论是以之为基础的,这问题到稍后再谈。

在实施这一方法时,有3件事要做:l.给调查对象的群体中的每一个体编号;2.准备“抽签”的工具,实行“抽签”;3.对样本中每一个体,去测量或调查所关注的指标。这事完成后就是所得数据的分析问题,暂且不谈。

先说第一件事,在大群体中,这是一个老大的麻烦。比如抽样调查一个省农民的经济状况,涉及个体数以千万计,要对每一个体编上号谈何容易,就是包括几千人的群体也非轻而易举。这一步看来没有什么简省的方法可以代替,当然,组织上的工作做得好

可以使工作有条不紊减少错误。第三件事也不容易,这里有两个问题:样本中的个体在地域上散布很广,比如有一个偏远的角落有几个样本,也必须专程前往。在使用通讯调查时这麻烦可以减少,但通讯调查中“调查对象不回答”的问题,会比当面访问更严重,而只根据愿回答者所提供的资料,其统计分析会产生偏差,这是抽样调查的理论和应用中一个困难问题。其次,当调查对象是人(即使调查对象是企业之类的机构,但仍要人来回答问题)时,得到所关注的指标的可靠数据有时也不易。如果调查对象只是个体的身高之类的资料,问题可能好办些,但若内容涉及隐私或敏感问题,如个人收入情况,是否吸过毒之类,被调查者不一定愿意说出真实情况。这时就要想些办法,比方说,设计合适的问题单,即一张包含一些不那么敏感的问题的单子,但问题都与调查关注之点有某种关联,按被调查者对这些问题的回答去做出估量,有时不得不采取煞费苦心的办法。在C.R.劳著、石坚等译的《统计与真理》一书中,有一个有趣的例子,介绍了怎样用一种迂回的办法去估计人群中吸食大麻者的比率。

为免除因抽签而准备纸条或球等等的麻烦,统计学家设计了一种叫做“随机数表”的东西,那是以本完全由数字0.1,…,9组成的表,其中每个数字都是用随机的方式决定的。理想的随机数表应按照如下的方式制作:准备10个大小质地一样的球,放入一个不透明的袋子里,球上分别写上数字0,1,…,9;将球充分扰乱后,从袋中抽出一个球,将球上的数字记在纸的第一行最左边的位置。把球放回去,充分扰乱,再抽出一个,将球上的数字记在第一行第2个位置。按照这个办法无限次地重复下去,你想要得到多少数字都可以。把所得数字按行、列依次排列,满了一页再排下一页,就可以得到一本包含多页的随机数字的书,这就是随机数表。第一个这样的表是英国统训学家梯培特于1927年所出版。该书共26页,含41 600个数字,次页所载是该书某页的一部分(转录自C.R.劳著、石坚等译《统计真理》一书)。它是按4个数字一组排列,5组成一单元,这种排列是为了使用上的方便。

我们来举例说明此表如何用于抽样。设有一个由90个体组成的群体,要从中随机抽出l0个作为样本。把群体中的个体按0至89编号,查随机数表,例如此处所附的一页看表的最左边的两列,组成一些2位数,由上至下依次是:

78,32,29,83,55,26,32,27,74,53,92,58,28,51,…

①但梯培特的随机数表并非用抽签式的方法制成,据说是利用某种现成的统计数字经过加工排列而得。

其中32重复出现,只保留一个,92超过了89,不能要。去掉这后,读出l0个既无重复且都不超过89的数,即

78,32,29,83,55,26,27,74,53,58,这些号所对应的个体被选人样本。如果样本量不止10,就要继续往下读,找出28,51等。如2列不够,再启用表的3、4列,得16,04等.直到取足所需个数为止。如果群体的个体数多于100但不多于l000就要把

表的3个列联合使用,得78l,320等号。若群体的个体数多于1 000但不多于10 000,则要联合4列使用.依此类推。为了获得更好的效果,每次使用时不必从表的第l页开始,可“随机”翻到表的某一页在一页内,也不必从左上角开始,可“随机”从该页上的某个位置开始。

现在。人们也广泛地利用计算机产生随机数字.那是根据一定的算法而产生的,严格讲来,不是上面所讲的那种随机数,因此也常被叫做“伪随机数”。不过,它在统计性质上很接近于真正的随机数,不影响其应用。计算机虽然精巧且神通广大,却是不能产生上述严格意义下的随机数的.根本原因在于,“机会均等”是一个无法严格定义的概念。用“球在盒中被充分扰乱”,是实现“机会均等”的一种做法。如在第一章中所述,这也只是在感觉上我们觉得如此,因为,所谓“充分扰乱”,也不是一个可以严格定义的概念。

以上讲的随机数是十进位的,也可以考虑制作其他形式的随机数表。例如只含0,l 这两个数字的随机数表,其每个位置或0或l,以同等的机会出现。

随机数表有很多用处,除上述用于抽样外。另一个重要应用是模拟一定的概率模型。时常,一种概率模型的性质在理论上去探讨很难,这时,通过模拟可以在统计上对其性质做出估量,这有点相似于用频率估计概率。表面上看,随机数只适用于模拟“机会均等”的情形,但经过数学上的转化,以这种情形为基础,可用于模拟更为复杂的模型。随机数的另一个有趣的应用是用于编制密码:同一个密码如用的时间过久,则易于为人所破译,比较保险的办法是按一种随机的方式不停地更换,而更换的方式(称为密钥),由机器产生,除非失密,不易为敌方所了解。例如,可以把要传送的每个符号编成由0、l组成的某个序列。如(比方说)“他”这个字可以编为

0100011001000ll 1 (1)

共1 6个数字。但是在发出前,先按发送和接收方都了解的密钥,比方说

1 00111100010011 0 (2)

相关文档
最新文档