第七章抽样
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章抽样
本章讨论抽样。对抽样的统计学原理我们不作详细介绍,重点讨论抽样的过程和具体的操作。
抽样是一项非常重要的技术,在自然科学和社会科学的各个领域广泛运用。自然科学方面包括化学、天文学、机械工程学和动物学等。在社会科学研究中,抽样技术可用于实验、调查、内容分析等研究。
7.1 抽样原理
7.1.1 为什么要抽样
抽样是从一大批研究对象中选出一小群作为研究对象,如从20000人中选出150人。
用抽样方法获得的研究对象称为样本(sample)。研究中用样本作为具体操作对象比用所有对象要经济得多。然而研究者感兴趣的不仅仅是样本,他的目的是以小见大,希望把从样本得出的结论推广至全体研究对象。
“管中窥豹,可见一斑”。数学理论和科学研究的实践业已表明,抽样是非常有效的技术。如果使用正确,两千多个个体的样本,可有效地代表有两亿个成员的研究对象总体,出错的概率不超过百分之二到四。
这种以小见大,以少胜多并非无稽之谈,而是有缜密的统计学原理为依据,并已一再被经验证据所证实。
并非所有样本都可使结论推而广之,抽取样本必须遵守严密的程序,而且从任何样本得出的结论都必须附带说明,表明其局限性。
7.1.2 总体、个体和抽样框架
研究者从一大批研究对象中抽取样本。这些研究对象是一个个的个体(elements),有时称作个案(cases),可以是个人、群体或组织,也可以是信息、文档,甚至是社会行为(如离婚、吸毒、乱扔垃圾)。这些都是研究者拟测量或可以测量的事物。拟定研究对象的全体叫做总体(population)或全域(universe)。
总体是抽样的基础,必须严格界定,没有定义清晰的总体就谈不上抽样。总体有三个要素:内容、范围和时间。内容即组成总体的个体单位是什么:人、物还是机构等;范围即总体所处的空间界限,包括地理位置;时间即总体存在的时间界限。表7.1举例说明了抽样的个体单位(人、企业、医院住院人次、商业广告),地理位置和时间界限。
表7.1:总体的例子
1.所有年满18岁(含)以上、2016年12月31日居住在上海市市内并有上海市居民户口的成年人,不包括被监禁和劳教人员。
2.所有雇员10人以上、2016年6月在深圳市开业的国外独资企业。
3.从2016年7月1日至2017年6月30日期间江苏省所有县级以上医院收住的病人人次。
4.从2017年1月27日至2月2日期间,中央电视台一套节目在晚间7:00到9:00播放的所有的电视广告。
5.全国在1970年8月至1977年8月期间获得大学专本科医学学历目前仍在从医的人员。
6.2016年云南省所有吸食海洛因的人员。
研究者对研究的总体一般先有一个初步的设想(如一个城市所有的人口),然后对具体的总体再作出更为精确的界定。最后确定的总体称为对象总体(target population)。样本的大小和对象总体规模之间的比值叫做抽样比例(sampling ratio)。假如从一个50000人组成的总体中抽出150人的样本。抽样比例为150/50000=0.003,或百分之0.3。假如总体是500,抽取的样本是100,抽样比例则是100/500=0.2,或百分之20。
总体实际上是一个抽象的概念。为什么总体有具体的数字但却把它看作是抽象的呢?因为除了极小的总体,一般的总体是很难确定准确的规模的。如一个城市的人口,
在任何特定的时刻,它的总量总是在发生变化。有人降生,有人去世,有人坐各种交通工具进入或者离开。在我国,一地的人口一般指的是具有户籍的常住人口,在有关的时刻正在外地工作生活的人也算在内。即便有户籍登记为依据,精确地查明瞬时人口的确切数字也几乎是办不到的事情,各种不确定因素很多。越是大的城市越是如此。
由于总体是抽象的概念,研究者有必要对总体作出估计。抽象的概念却需要具体的测量,因此有必要给总体下操作定义。
怎样才能使总体具有可操作性呢?研究者应首先设法开列一个名单,尽可能包括总体中所有的个体。这个名单就是抽样框架(sampling frame)。抽样框架包括户籍登记(以住户或个人为个体)、企业名册(把企业作为个体)、手机号码(对象总体所有成员都拥有手机)、学校花名册,等等。在美国,研究者可使用驾驶执照注册资料作为抽样框架,因为美国的成年人几乎人人都开车。这点在中国目前还做不到。
要获得成功的样本,好的抽样框架十分关键。抽样框架与概念上界定的总体如不一致就可能产生无效抽样。因此,糟糕的抽样框架是抽样出错的主要原因。然而,要找到完美的抽样框架极不容易,更何况有些对象总体根本没有可供参考的清单。类似学校花名册这样完美的框架并不多。在美国,有人把电话号码作为抽样框架,然而美国有很多人不愿公布自己家庭的电话号码,而且电话号码每天都在变动,有人搬进或者搬出某一住处。除非研究对象就是那些在电话簿上登出号码的人,否则电话号码不能作为框架。
对象总体的任何性质或特点称为总体的参数(parameter),如城市居民吸烟人口的百分比、16岁以上妇女的平均身高。严格说来,总体的参数只有在检测完所有个体的时候才能获得。但是对于大型的总体(如一个国家的人口),我们永远无法获得绝对精确的参数。因此研究者只能依靠样本来估计。研究者根据从样本获取的信息来推断总体的参数。有关的统计推断技术我们将在第十六章介绍。
有一个典型的例子可说明正确使用抽样技术的重要性。早年在美国有一家杂志叫做《文粹》(The Literary Digest)。1920、1924、1928和1932总统大选前,该杂志分别给选民寄去明信片,询问他们选谁当总统。他们利用汽车注册登记和电话号码簿做抽样框架。这四次选举该杂志的预测完全正确,杂志的名声因此大振。1936年,他们将样本扩大至一千万人,调查结果预测兰登将击败福兰克林·罗斯福。然而最终却是罗斯福获得了压倒性胜利。这次预测的错误有几个原因,但最主要的问题出在抽样上。尽管杂志选择了一个很大的样本,可是样本没能准确代表对象总体,即所有的选民。他们的抽样框架将当时未拥有汽车和电话的选民排除在外。在30年代的大萧条中,这种人口的比例在美国高达百分之六十五。当时这些低收入的人拥护罗斯福当总统。该杂志先前的成功是由于那时低收入和高收入人群在选择总统上没有大的分歧,而且因为不是处在大萧条中,拥有汽车和电话的人口比例比30年代后期要大。
这个例子告诉我们两点。首先,抽样框架至关重要。第二,样本的代表性比它的大小更为重要。据信,一个有代表性的2500人的样本对全美人口所能作出的预测,要高于一个不具代表性的一千万甚至五千万人的样本。
7.2 非概率抽样
根据是否按照概率论的随机原则进行操作,抽样可分为两类: 非概率抽样
(non-probability sampling)和概率抽样(probability sampling)。按照概率论原则所做的抽样有强有力的数学理据,较为精确。不按概率论原则办事的抽样有局限性和缺陷。研究者选择后者可能是缺乏时间或身处特殊条件之下,抑或缺少随机抽样的知识。除非万不得已,研究者都应该使用概率抽样。
7.2.1 简便抽样
简便抽样(convenience sampling)会产生没有代表性因而根本无效的样本,建议不要采用。如果图方便省事随意找来一个样本,那么这种样本可能完全不能代表对象总体。唯一的好处是代价低、速度快,但由此产生的偏差会引起误导,甚至很严重。电视台记者带着摄像机和话筒在城市大街上随意采访行人就是这方面的一个例子。这类受访问者不具有代表性。譬如这类人不包括不常外出和家住农村很少进城的人。此外,采访的记