北京大学社会学系20周年系庆系列讲座之六-北大未名BBS
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
北京大学社会学系建系20周年学术活动月
系列讲座之(六)
谢宇教授方法论系列讲座(四)
主题:忽略变量偏差和生态学分析Omitted-variable bias and ecological analysis
主讲:谢宇教授(美国密西根大学社会学系教授)
主持:马戎教授(北京大学社会学系主任,博士生导师)
时间:2002年10月28日晚7:00-9:00
地点:五四体育馆体教报告厅
马戎主任:今天谢宇教授给我们讲方法论的第四讲,希望大家在讲座期间尽量少走动,以保持安静。好,下面我们用掌声欢迎谢宇教授。
谢宇教授:谢谢大家!这是方法论的第四讲,上一讲我把社会学方法的基本概念介绍了一下,今天我先把上次没有讲完的抽样理论讲完,然后会讲到忽略变量偏差与生态学分析。首先我们讲抽样设计,这些你们都已经学过了,我在这里只是给你们做一个简单的复习。第一个是简单随机抽样。它实际上是一个很简单的操作,先给总体中的每一个元素一个数值,然后随机地抽取一部分作为样本,这个过程经常是由计算机来操作的。这种方法与抽奖是一个道理,简单是指每个元素被抽到的概率是一样的。第二种抽样方法是系统抽样或叫等距抽样,步骤是先根据总体的规模和样本的规模计算抽样间距,然后对总体的所有元素进行排序,根据抽样间距把总体分成等距的若干部分,在第一个部分中随机抽取一个元素,然后按照抽样间距依次在每个部分中抽取一个元素,这些元素的集合就构成了样本。这种方法比简单随机抽样还简单,但是使用这种方法时要注意一点,就是在对总体进行排列时,排列顺序不能与自然排列有关,否则抽出来的样本就不具有代表性。
我要强调的一种抽样方法是分层抽样,分层抽样要比简单随机抽样和系统抽样更复杂。但是任何方法都是有得有失的,付出的代价越多得到的回报也越多。分层抽样虽然复杂,但是它有它的好处,它保证了抽出来的样本对某些重要特征的代表性。比如我们要抽取一个样本容量为100人的样本,假如用简单随机抽样的话,就无法保证样本的性别比。如果我们的研究需要保证男女性别比例相同的话,就要用分层抽样的方法。我们先把总体分成两个子总体,在这个例子中就是先把男性和女性分成两个不同的子总体,然后在每个子总体中随机抽取50个人,这样就保证了样本中男女性别比为1:1。这种抽样方法的应用很广,在研究不同种族、不同地区、贫富差距等问题时,我们都可以用这个方法来进行抽样。有了分层抽样的基础就可以作过度抽样。过度抽样是指当子总体比例不一致时,在一个子总体中抽样多,在另一个子总体中抽样少,目的是使样本比例平衡或达到我们想要的比例,因为在总体中它们的比例是不平衡的。比如研究贫困问题,贫困的人在总人口中是少数,如果我们要保证样
本中有相对平衡的贫困人和非贫困人,相对于贫困人的子总体而言,我们抽取的贫困人的概率就要比在非贫困人子总体中抽取相应数量的样本的概率更大。这种方法还可以用于民族之间的比较研究。比如汉族人口占中国人口的绝大多数,我们在抽样时可以用过度抽样的方法,增加少数民族样本的人数,使各个组的比例比较平衡,这样就可以增加样本中任何一组的代表性。分层抽样的应用很多,比如在美国做研究时要分成南方和北方,在中国分成城市和农村,都是为了保证样本的代表性。
整群抽样与分层抽样是相对应的,它从经济的角度考虑,是为了省钱。但是要省钱就要付出代价,整群抽样抽取的数据质量不高。比如我们对北大学生的经历很感兴趣,在抽样时,非常经济的一种方法就是去随机抽取一个班级,这个班级的所有个体都进入样本,然后对他们进行研究。因此整群抽样是把总体分成不同的组,然后以组为单位进行随机抽取,抽到的组中的所有元素都进入样本。它跟分层抽样不同,分层抽样是先把总体有目的地分成不同的子总体,然后在每一个子总体中随机抽取样本,这样就保证了样本的代表性,相比之下整群抽样得到的数据的质量就不高。但是整群抽样比较实用,比如你要做一个乡村研究,你不可能在全国各地都抽取一个村庄进行研究,而只能进行整群抽样,虽然样本质量不高,但比较方便,也比较经济。整群抽样获得的样本的有效性较低,因为整群抽样抽得的样本的内部相似性强,致使可用的样本数量降低。为了使整群抽样做得比较好,我们要假设各个群体之间没有很大的差别;假如这个假设不成立,抽取的样本比简单随机抽样有效性低。比如就刚才那个北大的例子,我们要使整群抽样做得比较好,就假设北大学生在班级与班级之间没有很大的差别。他们的知识面、家庭经济条件、朋友关系程度等都比较相似。如果这个假设成立的话,一个班与另一个班没有很大的差别,这时整群抽样就不会造成有效性的大幅降低,假如班级与班级之间差别很大,那么整群抽样得到的样本的有效性就会很大丧失,这个问题我在后面还会讲到。一般来说,整群抽样只会降低有效性,而不会增加有效性,降低多少,要看具体的问题。
我现在更系统地来讲这个事情,探讨一下样本统计量中方差的来源。一个来源是总体差异,一个总体中的各个元素之间是有差异的,总体差异是各元素之间差异的总和。我第一讲讲的就是社会现象之间有差异性,而且这种差异性是必然存在的,我们社会学研究侧重对这种差异的研究。我们之所以要抽样,就是因为总体内部各元素之间有差异,如果社会现象之间没有差异的话我们就没必要抽样了。我第一讲讲过社会科学与自然科学的区别就在于社会科学所研究的社会现象有差异,而自然科学可以通过一个典型现象得到真理性的规律,从而举一反三。社会科学就不行,它必须关注社会现实的总体,而总体内部是有差异的,这就要求我们在做研究的时候要进行抽样,从样本来推测总体。既然总体内部有差异,那么哪一个元素被选择,哪一个元素不被选中就会影响到样本,从而影响你最后得到的样本参数,具体的说是因为总体中的各元素的某一变量值不同,导致了元素之间的差异。因此我们要进行抽样,而抽样是一种随机选择,这种随机选择必然会造成另一种差异。因为你对不同元素的选择会直接影响到样本统计值。
可见,样本统计量中方差的来源主要有两个,一个是总体差异,这种差异是客观存在的,另一个是抽样差异,是在对样本进行选择时造成的差异,这种差异其实是由总体差异决定的,因为如果总体之间不存在差异的话,我们就不需要抽样,也就不存在抽样差异。我们可以把总体方差分解成两部分,即组间差异和组内差异。组间差异是指各组平均值之间的差异,比如一个班级和另一个班级差在什么地方,就差在平均值。组内差异是同一组中各元素相对于组平均值的差异。方差分析就是组间差异加上组内差异。组间差异大的时候组内差异就比较小,而组内差异大的话,组间差异就会比较小。也就是内部异质性越大,外部同质性越强;内部同质性越强,外部异质性越大。因此分层在这个地方就有很大的作用,我们在做抽样的