抽样设计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《文学摘要》的厄运
预测结果
阿尔夫· 伦敦
富兰克林· 罗斯福
实际结果
55%
41%
阿尔夫· 伦敦
富兰克林· 罗斯福
37%
61%
2
【补充阅读资料】现代抽样方法的先驱—盖洛普 盖洛普指出,当抽样计划中的调查对象涵盖广泛,涉及到不同地域、 不同种族、不同经济层次的各种人时,你只需随机抽取而无需采访每 个人。尽管当时他的方法不能为每个人理解和认同,但是现在,这已 经被广泛使用。 盖洛普通常引出一些特例来解释他自己在说什么或做什么。假设有 7000个白豆子和3000个黑豆子十分均匀地混合在一起,装在一个桶里。 当你舀出100个时,你大约可以拿到70个白豆子和30个黑豆子,而且 你失误的机率可以用数学方法计算出来。只要桶里的豆子多于一把, 那么你出错的机率就少于3%。 30年代早期,盖洛普在全国很受欢迎。他从事美国东北部报刊的读者 调查。1932年夏天,一家新的广告代理商电扬广告公司,邀请他去纽 约创立一个旨在评估广告效果的调查部门,并制定一套调查方案。同 年,他利用他的民意测验法帮助他的岳母竞选艾奥瓦州议员。这使他 确信他的抽样调查方法不仅在数豆子和报刊读者调查方面有效,并有 助于选举人。只要你了解到抽样范围具有广泛性,白人、黑人,男性、 女性,富有、贫穷,城市、郊区,共和党、民主党,只要有一部分人 代表他们所属的总体,你就可以通过采访相对少的一部分人,来预测 选举结果或反映公众对其关心问题的态度。盖洛普证实,通过科学抽 样,可以准确地估测出总体的指标。同时,在抽样过程中,可以节省 大量资金。
19
例2:某居民区有620户居民,拟抽取15户调查其家庭收入 情况。首先需要将居民根据其门牌号码重新编号为1-620。 然后确定从随机数表的第二排第三列的数组开始自上而下、 自左而右取样。
随机数表
28 20 04 55 72
46 67 36 01 58
53 42 28 26 43
35 15 19 64 57
74 20 26 98 89
92 57 64 56 64
13 80 37 71 27
45 90 15 49 54
取得的结果是:421,281,266,435,574,520, 498,578,567,345,090,149,284,206,043
20
简单随机抽样的优缺点
优点 方法简单、直观,理论上是最符合随机原则的。 缺点 编号困难 受调研总体的标志变异程度影响 抽出的样本分散,人力、物力、费用消耗较大 某些事物无法使用简单随机抽样(连续生产的产品 检验)
3
8.1 抽样调查与抽样设计
为什么选择抽样调查?
抽样调查的相对优势
① 时间短、收效快。 ② 质量高、可信程度好。 ③ 费用省、易推广。
抽样调查的相对劣势
不支持小区域估计 不支持稀少个体的特征估计 调查误差 其它考虑
4
【小思考】
抽样调查中是否一定存在抽样误差,能否控制? 答:抽样误差是客观存在和不可避免的,但误差的 大小是可以控制的。可通过选定不同的抽样方法及 样本数目来控制误差;另外,加强对抽样调查的组 织领导,也可提高抽样调查的工作质量。
16
2)以随机数表中任一行、任一列的数字作为起点, 取其后的数字构成一个与总体各单位编号具有相同 位数的号码,该号码即是抽样的起始号码。 3)从起始号码开始,按事先确定的方向(从上到 下,从左到右,…),取n个不重复的号码,号码 范围在总体单位编号范围之内。
17
例1:从300人中抽取10人,用随机数表法,如何 抽取?
第8章 抽样设计 与样本量的确定
1
开篇案例:两种抽样两种命运
防弹钢板应焊在哪里?
减少轰炸机的伤亡,就要往飞机上焊防弹钢板;但不 是机身全部而是某些部分。数学家沃尔德的方法十分 简单。他把统计表发给地勤技师,让他们把飞机上中 弹弹孔的位置报上来。他自己铺开一张大纸,画出轰 炸机的轮廓,再把那些小窟窿一个个地填上去。画完 后大家一看,飞机浑身上下都是窟窿,只有飞行员座 舱和尾翼两个地方几乎是空白。 为什么是这样?防弹钢板应该焊在哪里呢?
11
抽样框架的评估
抽样框架的可能缺陷
不完全涵盖 过涵盖 重复 分类错误
12
8.3
抽样方法
抽样技术
0
随机抽样
非随机抽样 实验法
简 单 随 机 抽 样
等 距 抽 样
分 层 随 机 抽 样
整 群 抽 样
多 阶 段 抽 样
方 便 抽 样
判 断 抽 样
配 额 抽 样
滚 雪 球 抽 样
13
15
简单随机抽样
(2)随机数表法即使用随机数表进行抽样。随机数表 是在抽签法的基础上形成的。对0到9这10个数字进行重 复抽样,记录每一次的结果,进行成千上万次后,就形 成了一个庞大的数表,数表中数字的排列是随机的,毫 无规律可言,因而也称为乱数表。 随机数表法的抽样过程为:设总体单位数目为N,样本 单位数目为n,则: 1)给总体各单位编号,号码的位数要一致,每个 号码的位数要与总体单位号的位数相同,少于最大编号 位数的号码要在前加“0”。
随机数字表 87181 98837 10085 47905 93053 57007 17015 80704 63731 10307 37794 89093 76621 71821 34180 91238 95924 64868 35041 45235 48139 00064 58761 27551 74133 35596 14120 71486 02492 93522 41924 14365 59531 28046 68952 57151 92547 15221 75344 39235
18
分析:总体单位数目为300,样本单位数目为10。利用 随机数表进行抽样,其程序如下: 第一步:给总体各单位编号,号码的位数要一致,都 是三位,不够位的在前加“0”,总体各单位编号是从 001-300。 第二步:以随机数表中第二行,第三列的数字“0”作 起点,往后取两位数字,构成一个与总体单位具有相 同位数的号码“093”作为起始号码。 第三步:从起始号码开始,从左到右依次抽取10个不 重复的位于001-300之间的号码,分别是:093,240, 006,120,143,254,085,047,164,148。
14
随机抽样技术
一、简单随机抽样 1、定义 又叫纯随机抽样,它是概率抽样技术中最简单的一 种。它对调研总体不经过任何分组、排队,完全凭 着偶然的机会从中抽取个体加以调查,适应于调研 总体中各个体之间差异较小且各个体数目较少的情 况,或者调查对象不明,难以分组、分类时的情况。 2、常用方法 (1)抽签法:a、先编号 b、再把相应号码写在 卡片上 c、任意抽选,直到抽足规定样本数 适用于调查总数中个体数目少的情况。
6
抽样设计的程序
定义目标总体
选择抽样框架 制定抽样方法
确定样本量
执行抽样过程
图8-1 抽样设计过程
7
程序1.定义目标总体
如果不确定调查总体,就无法明确样本是谁的部分单位, 也无法说明用样本特征所要推断的是谁。 目标总体是指由研究对象的全体单位构成的集合。简称总 体。构成总体的每一个具体单位称为总体单位,简称个体。 总体按所包含的个体数目是否有限分为有限总体和无限总 体。称有限总体包含的个体数目为总体容量,记为N。 例如,一家公司一年的汽车销售量、一个地区的人口等都 构成有限总体,但是一个湖泊、海洋有多少尾鱼、一个森 林有多少株树等,构成无限总体。市场调查所研究的总体 绝大部分是有限总体。
5
抽样设计
抽样设计就是从一定总体抽取样本资料以前,预先 确定抽样程序和方案,在保证所抽选的样本对总体 有充分代表性的前提下,力求取得最经济、最有效 的结果。 抽样设计的任务就是依据调查的目的,在给定的人 力、物力、财力等条件下,在从所要调查的总体中 抽取样本资料以前,设计一个精度高且能够由样本 正确推断总体的良好的抽样调查方案,力求取得最 经济、最有效的结果。
10
Байду номын сангаас
8.2 制定抽样框架
抽样框架:供抽样使用的所有调查单位的名单。 抽样单元:为了便于抽样,通常把总体划分为有限个 互不重迭又穷尽的部分,每个部分称为一个抽样单元。 一个抽样框架应该包括下述部分或全部内容: 识别资料:如姓名、家庭住址、身份证号码等; 联系资料:确定个体所在位臵的项目:地址/电话; 分类资料:提供区分调查对象的有用信息; 维护资料:像日期以及资料的变更信息等; 识别和联系资料是不可少的,而分类和维护资料有助 于提高抽样的效率。
22
某地区有零售店110户,采用等距离抽样方法抽选11户进行调查。 第一步,将总体调查对象(110户零售店)进行编号,即从1号至 110号。 第二步,确定抽样间隔。已知调查总体N=110,样本数n=11户,故 抽样间隔=110/11=10(户)。 第三步,确定起抽号数。用10张卡片(即抽样间隔)从1号至10号 编号,然后从中随机抽取1张作为起抽数号。如果抽出的是2号,2 号则为起抽号数。 第四步,确定被抽取单位。从起抽号开始,按照抽样间隔选择样本。 本例从2号起每隔10号抽选一个,直至抽足11个为止。计算方法是: 2 2+10=12 2+10〓2=22 …… 2+10〓10=102 即所抽的单位是编号为2、12、22、32、42、52、62、72、82、92、 102的11个零售店。
抽样方式的类型
1.随机抽样 即按照概率原则,从总体中抽取一定数目的单位作为 样本进行调查。总体中每一个单位被抽进样本的机会 是均等的。按照随机抽样抽出的样本,其调查结果可 以用来推论总体的情况。在大量正式调查中,实地调 查对象的选择经常采取这种类型。 2.非随机抽样 即根据研究者的主观判断或从方便的角度来抽取样本。 非随机抽样的结果不能用来推断总体的情况。在非正 式的、小范围内的调查,如探测性调查中,调查对象 的选择通常是由调查人员主观确定的。只要其目的不 在于掌握总体的一般情况,可以使用非随机抽样。
9
调研者还须区分目标总体与抽样总体。
抽样总体是指从总体中抽选出来的个体所组成的集 合,简称样本,构成样本的个体数目称为样本容量, 记为n。 样本容量 n 与总体容量N相比是个很小的数,往往是百 分之几或千分之几,比例最大时样本容量n一般也不超 过总体容量N的1/3。 在统计中,一般把抽取30个以上个体,即n≧30的样本, 叫做大样本,而把抽取30个以下个体,即n<30的样本, 称为小样本。市场调查的抽样推断通常采用大样本。
23
例如:从1500名居民中抽100名居民作为样本进行消费者调 查。采用等距抽样,如何抽取? 分析:具体的抽样程序如下: 第一步,将1500名居民随机编上号码,1-1500。 第二步,计算抽样距离,k=1500/100=15。 第三步,确定抽样起点可以用两种方法:方法一,在1~1500中用随机数表法抽出0862作为第一个被抽中的号码。 方法二,在第一段15人(编号为1-15)中用简单随机抽样方 法抽出一人,假设其编号为5。 第四步,进行等距抽样可以用两种方法: 方法一,以862作为起始号码,每隔15人抽取一个号码,当 结果大于1500时,减去1500即为抽中的号码,则顺序依次为 862,877,892,…,1492,7(1492+15-1500),22,37, …,847。 方法二,以5号为起点,每隔15个人抽取一人,则下一段被 抽取的号码是20,再下一段是35,依次往下,直到抽满100 名(最后一名的号码是1490)为止。
8
程序1.定义目标总体
定义目标总体的四个因素: 总体中个体类型,个人、家庭还是企业单位或其他什 么类型; 个体的特征,包括人口统计特征、行为甚至心理特征 等; 个体的地理位臵,即区域范围; 调查的标准时点或时期。
例如:1999年12月31日前,所有居住在中国境内,且 年龄在15岁以上的个人。
21
二、等距抽样
1、定义
系统抽样(Systematic sampling):又称等距抽样,就是 先将调研总体的各个体按一定标志排列起来,然后按照固定 顺序和一定间隔来抽取样本个体。
2、排队标志、抽样间隔、抽样起点
排队标志 按与调查项目无关的标志排队。 抽样间隔(距离)=调研总体数(N)/样本数(n) 抽样起点确定 在第一段距离中,用简单随机抽样方式抽取第一个样 本。 从距离的1/2处抽取第一个样本。