第四章、抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一个著名的案例——抽样中的泰坦尼克事件
侯选人 罗斯福 兰顿
《Literary Digest》预测% 选举结果% 43 57 62 38
1936年美国正从经济大恐慌中复苏,全国仍有9百万人失 业.当年的美国总统大选,由民主党员罗斯福与共和党员兰登 进行角逐.《文学文摘》(Literary Digest)杂志对结果进行了 调查预测.他们根据当时的电话号码簿及该杂志订户俱乐部会 员名单,邮寄1千万份问卷调查表,回收约240万份.工作人员 获得了大量的样本,对此进行了精确的计算,根据数据的整理 分析结果,他们断言:在总统选举中,兰登将以370∶161的优 势,即以57%比43%,领先14个百分点击败罗斯福.与之相反, 一个名叫乔治•盖洛普的人,对《文学文摘》调查结果的可信度 提出质疑.他也组织了抽样调查,进行民意测验.他的预测与 《文学文摘》截然相反,认为罗斯福必胜无疑.结果,罗斯福 以62%比38%压倒性地大胜兰登.这一结果使《文学文摘》销 声匿迹,而盖洛普则名声大噪.
第四章 抽样
抽取样本
总体
推断总体
样本
第四章 抽样
1.抽样的意义与作用 2.概率抽样的原理与程序 3.概率抽样方法 4.非概率抽样方法 5.样本规模与抽样误差
一、抽样的意义与作用
1.抽样的意义与作用
人们在研究某个自然现象或社会现象时, 往往会遇到不方便、不可能或不必要对所有的 对象作调查的情况,于是从中抽取一部分对象 作调查,这就是抽样
一、抽样的意义与作用
抽样框(sampling frame) 抽样范围,指一次直接抽 样时总体中所有抽样单位的名单 参数值(parameter) 是对总体中某一变量的综合描 述,或总体中所有元素某些特征的综合数量表现。最常 见的参数值是总体某一变量的平均值。 统计值(statistic)是对样本中某一变量的综合描述, 或样本中所有元素某些特征的综合数量表现。根据样本 计算出来的关于样本变量的数量表现 置信度(confidence level) 总体参数值落在样本统计 值某一区间内的概率,或者说,是总体参数值落在样本 统计值某一区间内的把握性程度 置信区间(confidence intevalue) 上述“某一区 间”,就是置信区间
=10
n=4 x 5 n =16 x 2.5
= 50
X
总体分布
x 50
x
抽样分布
中心极限定理 (central limit theorem)
中心极限定理:设从均值为,方差为 2的一个任意总体中 抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似 服从均值为μ、方差为σ2/n的正态分布 x 一个任意分
三、概率抽样的方法
1.简单随机抽样
概念:一般地,设一个总体的个体数为N,如果通过逐 个不放回地抽取的方法从中抽取n (n≤N) 个样本,且每 次抽取时各个个体被抽到的概率相等,就称这样的抽样 为简单随机抽样。 要点:它要求被抽取样本的总体的个体数有限 它是从总体中逐个进行抽取 它是一种不放回抽样 它是一种等概率抽样
1
2
1.0
1.5
1.5
2.0
2.0
2.5
2.5
0.1
3.0
0
3
4
2.0
2.5
2.5
3.0
3.0
3.5
3.5
4.0
1.0 1.5 2.0 2.5 3.0 3.5 4.0
样本均值的抽样分布
样本均值的分布与总体分布的比较 (例题分析)
x 的分布形式与原有总体和样本容量n的大小有关
总体分布
.3 .2 .1 0 P(x)
二、概率抽样的原理与程序
概率抽样: (1)每一个体有同等机会被抽取 (2)每一个体的抽取都是相互独立的
二、概率抽样的原理与程序
Leabharlann Baidu
概率抽样的逻辑
(1)同质性和异质性
如果研究总体是完全同质的,抽样就没有必要; 社会科学中的研究总体往往具有较强的异质性; 为了实现“通过部分认识整体”,样本应该包含 总体的各种差异特征。
样本均值的抽样分布
在重复选取容量为n的样本时,由样本 均值的所有可能取值形成的相对频数分 布
总体分布、样本均值的抽样分布(例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总 体分布、总体的均值、方差及分布如下
总体分布
复杂的社会现象
抽样
有限的研究资源
抽样主要涉及和处理有关总体与部分之间的关 系问题。抽样作为人们从部分认识整体这一过 程的关键环节,其基本作用是向人们提供一种 实现“由部分认识总体”这一目标的途径和手 段。
一、抽样的意义与作用
1.抽样的作用
抽样是社会研究的主要内容之一,也是社会调 查的一个重要步骤。 它与研究目的及研究内容紧密相关。 它直接关系到资料的收集、整理与分析。 它还涉及到整个研究的费用以及应用的范围。 抽样是否科学,直接关系到研究的成败
当总体的个数较多时,将总体“搅拌均匀”比较困 难,抽签法产生的样本代表性差的可能性很大。
三、概率抽样的方法
抽样分布
.3 .2 .1 0 1 2 3 4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
= 2.5
σ2 =1.25
x
x 2.5
x2 0.625
样本均值的抽样分布与中心极限定理
当总体服从正态分布 N(μ,σ2) 时,来自该总体的所 有容量为n的样本的均值x也服从正态分布,x 的数学 期望为μ,方差为σ2/n。即x~N(μ,σ2/n)
概率抽样的方法
抽样的类型
概率抽样
简单随机抽 系统多层抽样 分层抽样 整群抽样 多段抽样 偶遇抽样 判断抽样 定额抽样 雪球抽样
抽样类型
非概率抽样
三、概率抽样的方法
1.简单随机抽样:
概率抽样的最基本形式 方法: 1.总体较少:搅拌抽签; 2.总体较多:用随机数表 3.利用EXCEL的randbetween(a,b)函数实 现简单随机抽样
布的总体
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
x
中心极限定理(central limit theorem)
x 的分布 趋于正态 分布的过 程
抽样分布与总体分布的关系
总体分布
正态分布
非正态分布
大样本 小样本
正态分布
正态分布
非正态分布
样本均值的抽样分布
概率抽样的逻辑
如果总体中的每一个体都具有同等机会被选入样本, 那么从这一总体中抽取的样本就能够代表总体。
(3)代表性和选择的概率
概率抽样的优点
(1)样本对总体更具代表性(相对其它类型抽样) (2)可以对样本的精确性和代表性作出估计
二、概率抽样的原理与程序
总体分布、样本分布、抽样分布
当样本容量继续增大,样本平均数的分布会进 一步发生变化。这种变化趋势是:平均数的范 围将逐步缩小(即底部越来越窄);相同的平均数 会相应增多;全部平均数的分布向总体平均数 集中的趋势也会越来越明显.
用从个体数为N的总体中抽取一个容量为n的 n 样本,那么每个个体被抽取的概率等于
N
三、概率抽样的方法
1.简单随机抽样
抽签法(抓阄法)
将总体中的所有个体(共N个)编号(号码可以从 1到N),并把号码写在形状、大小相同的号签上 ( 号签可以用小球、卡片、纸条等制作),然后 将这些号签放在同一个箱子里,进行均匀搅拌。抽 签时,每次从中抽出1 个号签,连续抽取n次,就 得到一个容量为n的样本。对个体编号时,也可以 利用已有的编号。例如学生的学号,座位号等。
1. 样本均值的数学期望
E( x )
2. 样本均值的方差(方差的概率意义在于刻画了随 机变量取值的分散程度。方差越小,随随机变量 的取值越集中在期望值附件。) 重复抽样
2 x
2
n
抽样的一般程序
界定总体:对从中抽取样本的总体范围与界限作明确的 界定 制定抽样框:依据已经明确界定的总体范围,收集总体 中全部抽样单位的名单,并通过对名单进行统一编号来 建立起供抽样使用的抽样框 决定抽样方案:选择抽样方法,确定样本规模 实际抽取样本:1.先抽好样本,再调查 2.一边抽样一 边调查 评估样本质量:对样本的质量、代表性、偏差等进行初步 的检验和衡量
二、概率抽样的原理与程序
概率抽样的逻辑
(2)无意识抽样导致的偏差
方便获取的样本:易得,但缺乏代表性; 例如:如何获取由100个学生构成的样本 访问者的偏好影响样本的代表性; 例如:有意回避具有某些特征(“酷”,“冷”)的受访者 抽样的地点影响样本的代表性 例如:图书馆门口访问
二、概率抽样的原理与程序
一、抽样的意义与作用
2.抽样的概念
在我们的日常生活中经常存在着抽样。如抽血化验,尝 试水温,窥一斑而知全豹。 抽样(sampling) 从组成某个总体的所有元素的集合中, 按一定的方式选择或抽取样本的过程 抽样调查,就是从研究总体中抽取一部分代表加以调查 研究,然后用所得结果推论和说明总体的特性。 总体(population): 构成它的所有元素的集合 样本(sample) 从总体中按一定方式抽取出的一部分元 素的集合 抽样单位(sampling unit) 一次直接的抽样所使用的基本 单位
第二个观察值
1 1,1 2,1 3,1 2 1,2 2,2 3,2 3 1,3 2,3 3,3 4 1,4 2,4 3,4
4
4,1
4,2
4,3
4,4
计算出各样本的均值,如下表。并给出样 本均值的抽样分布
16个样本的均值(
第一个 观察值
x
x
n
)
P(x)
第二个观察值 1 2 3 4
0.3
0.2
从美国总统大选预测看抽样的效率:
年代 2000 1996 1992 1988 1984 1980 1976 1972 1968 1964 1960 1956 1952 1948 1944 1940 1936 候选人 布什 克林顿 克林顿 老布什 里根 里根 卡特 尼克松 尼克松 约翰逊 肯尼迪 艾森豪威尔 艾森豪威尔 杜鲁门 罗斯福 罗斯福 罗斯福 盖洛普民意测验结果(%) 48.0 52.0 49.0 56.0 59.0 47.0 48.0 62.0 43.0 64.0 51.0 59.5 51.0 44.5 51.5 52.0 55.7 总统选举真实结果(%) 47.9 49.2 43.3 53.9 59.2 50.8 50.1 61.8 43.5 61.3 50.1 57.8 55.4 49.5 53.8 55.0 62.5 盖洛普误差(%) +0.1 +2.8 +5.7 +2.1 -0.2 -3.8 -2.1 +0.2 -0.5 +2.7 +0.9 +1.7 -4.4 -5.0 -2.3 -3.0 -6.8
三、概率抽样的方法
练习
1.高二(21)班有53名同学,现要从中抽取8名去参加一个
座谈会,请写出用抽签法抽选的过程。 2.假设一个总体有5个元素,分别记为a、b、c、d、e, 采用抽签法抽取一个容量为2的样本,样本共有多少个? 为了考察某公司生产的250克袋装牛奶的质量是否达标, 现从800袋牛奶中抽取60件产品进行检查.
总体分布(population distribution)
总体分布:
总体中各元素的观察值所形成的相对频数(频率)分布 分布通常是未知的(因为几乎得不到总体所有观察值) 可以(根据理论分析)假定它服从某种分布
总体
(sample distribution)
样本分布也称经验分布,指一个样本中各观察 值的形成的相对频数(频率)分布。当样本容 量n逐渐增大时,样本分布逐渐接近总体的分 布。
.3 .2 .1 0 1 2 3 4
均值和方差
x
i 1
N
i
N
N i 1
2.5
2
2 ( x ) i
N
1.25
现从总体中抽取 n=2的简单随机样本,在重复抽样条件下 ,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个) 第一个 观察值 1 2 3
样 本
抽样分布(sampling distribution)
抽样分布:样本统计量的概率分布,是 一种理论分布。在重复选取容量为n的样 本时,由该统计量的所有可能取值形成 的相对频数分布
样本统计量是样本的函数,依据不同的 样本计算出来的值是不同的,所以统计 量是随机变量样本均值, 样本比例,样本 方差等