04第四章_抽样
04-第四章_分层随机抽样
L
下面讨论估计量的期望与方差。 (1)对于一般分层抽样
ˆ )也 对于一般的分层抽样,若 Y h 是 Y h 的无偏估计量,则 Y st (或 Y st
是 Y (或 Y )的无偏估计:
Ù
Ù
E (Y st ) = å Wh E (Y h ) = Y
h =1
Ù
L
Ù
ˆst ) = NE (Y st ) = N Y = Y E (Y
L
2 L Sh S2 - å Wh2 h nh h =1 Nh
=å
简便公式
2 L Wh2 Sh W S2 -å h h nh N h =1 h =1
V ( y st ) = V (å Wh y h )
h =1
L
= å Wh2V ( y h )
h =1 L
L
= å Wh2
h =1
Sh2 (1 - f h ) nh
åN
h =1
L
h
=N。
Wh =
Nh 称为层权,它也是已知的。 N
以 Yhi 表示第 h 层总体的第 i 个单元的指标值,以 yhi 表示第 h 层样本的 第 i 个单元的指标值。
Yh =
1 Nh 1 nh
åY
i =1 nh i =1
Nh
hi
表示第 h 层的总体均值,
yh =
åy
hi
表示第 h 层的样本均值(其中 nh 是第 h 层的样本量) ,
h =1 h =1 h =1 L L Ù L Ù Ù
Ù
3
(2)对于分层随机抽样
Ù
特别对于分层随机抽样,Y h 一般均取为简单估计:层样本均值 y h ,因 此 Y 的简单估计为:
第4章__抽样调查
4.1.3抽样误差的确定
❖1)抽样误差的概念
❖2)影响抽样平均误差的因素
1、全及总体标志变异程度 2、样本容量 3、抽样组织方式 4、抽样方法
❖3)降低调查误差的途径
1、提高样本的代表性
2、注重样本量的控制
3、提高抽样设计的效率 4、重视抽样方案的审评
5、努力降低调查员的误差 6、努力调查被调查者的误差
❖ (4)如果这一地区街对面从第一号开始都没有住户,在第一号对面的街区转 一圈,并遵循右手法则。(即按顺时针方向在街区转一圈。)试着沿路线每 隔两户访问一户。
❖ (5)在起始门牌号对面邻近的街区绕过一圈后,如果你没有完成所需的访问, 就按顺时针方向到下一个街区访问。
❖ (6)如果第三个街区的住户数不够完成你的任务,就再做几个街区直到要求 的户数完成为止;这些区要按顺时针方向绕原有的街区来找。
❖5)简单随机抽样方式的优缺点
随机抽样方式的优点
方法简单直观,当总体名单完整时,可直接从中随机抽取样本。由于 抽取概率相同,计算抽样误差及对总体指标加以推断比较方便。
随机抽样方式的缺点
尽管简单随机抽样在理论上是最符合随机原则的,但是在实际应用中 有一定的局限性。第一,采用简单随机抽样,一般需对总体各单位加以 编码,而实际市场调查活动中所需调查总体往往是十分庞大的,单位非 常多,逐一编码几乎是不可能的;第二,对于某些事物无法使用简单随 机抽样,如对连续不断产生的大量产品进行质量检验,就不能对全部产 品进行编号抽样;第三,当总体的标志变异程度较大时,简单随机抽样 的代表性就不如经过分组后再抽样的代表性高;第四,由于抽出样本单 位较为分散,所以调查人力、物力、费用消耗较大。
2)抽样调查的特征
❖(1)抽取样本的客观性 ❖(2)抽样调查可以比较准确地推断总体
第四章 抽样
主讲人: 张建鹏 要内容
一、抽样的意义与作用 二、概率抽样的原理与程序 三、概率抽样方法 四、非概率抽样方法 五、样本规模与抽样误差
2
一、抽样的意义与作用
1. 相关概念 (1). 总体(population):构成它的所有元素的集合 N 表示。元素则是构成总体的基本的单元。 如:海医学生新闻获得方式调查 某市居民家庭生活状况 (2). 样本(sample):从总体中按一定方式抽取的一部 分元素的集合。用n表示 如:从海医1万名学生中,按一定方式抽取300人进行 调查,这300人构成该总体的一个样本。
28
分层(最佳)抽样法
定义:又称非比例抽样法,根据各层样本标准差 的大小确定各层的样本数目的方法。 计算公式为:
ni = n * ( N i Si / ∑ N i Si )
(1)
式中:ni ----- 各类型应抽选的样本单位数 n ----- 样本单位数 Ni ----- 各类型的调查单位数 Si ----- 各类型调查单位数的样本标准差
14
抽样设计的五个步骤 1)定义目标总体 (如上述案例中正在上学的 年龄在8-17岁的年轻人) 2)制定抽样框 (例如上述案例中的所有县及 县内的城市和城镇) 3)选择一种抽样技术 (如上述案例中的三段 分层概率抽样) 4)实际抽取样本 (样本容量,1000名;执行 抽样过程和对调查员指令) 5)评估样本质量 (如检测样本平均年龄是否 与全国普查数据一致或接近)
33
整群抽样与分层抽样的比较
特征 样本来源 抽样目的 划分原则 整群抽样 一个或几个 不提高成本而提 高抽样效率 分层抽样 所有层 不提高成本而提 高精度
群中的个体异质, 层中个体同质, 群间同质 层间异质
第四章分层随机抽样
解: yst W1 y1 W2 y2
23560 15180 148420 9856 10585.39
171980
171980
3、分层随机抽样中,总体比例P的简单估计 设Ph的简单估计为ph,则
L
Wh 2
h1
•1 fh nh
Sh2
L
Wh 2
h1
•1 fh nh
•
Nh Nh 1
PhQh
10
层 居民
户总 数
1
样本户奶制品年消费支出 23456789
1 200 10 40 0 110 15 10 40 80 90 0 2 400 50 130 60 80 100 55 160 85 160 170 3 750 180 260 110 0 140 60 200 180 300 220 4 1500 50 35 15 0 20 30 25 10 30 25
4627
42
45岁以上
5366
50
总计
35050
320
试估计总体中会计算机者占的比例。
样本中会使 用计算机的
人数
24 12
22
11
4
解:
5
(1) pst Wh ph 0.2286
h1
(2)v( pst )
5
Wh2 (1
h1
fh)
ph (1 ph ) nh 1
0.000534
(3)P置信度为95%的置信区间为:
Vmin ( yst )
L Wh2Sh2
n h1
h
L Wh2Sh2 h1 N
L
( WhSh
h1
L
ch )( WhSh / h1
(04)第4章+抽样与抽样分布
4-6
统计学
STATISTICS
例题分析
♦ 假定我们刚刚已取了飞机制造所用的铆钉的25个 假定我们刚刚已取了飞机制造所用的铆钉的25个
一组的样本。检测铆钉的抗剪强度,破坏每个铆 钉所需的力是响应变量。对这组样本,可以求得 各种描述性的测量(均值、方差等)。 ♦ 然而,我们的感兴趣的是总体,并不是样本自身。 被测试的铆钉在测试时已被破坏,不能再用在飞 机的制造上,所以我们肯定不能测试所有的铆钉。 我们必须从这组样本或几组这样的样本来决定总 体的某些特性。 ♦ 因此,我们必须设法推断信息,也即基于样本的 观测结果作出总体的推断
(例题分析) 例题分析)
计算出各样本的均值,如下表。 计算出各样本的均值,如下表。并给出样本均 值的抽样分布
4 - 32
样本均值的抽样分布
统计学
STATISTICS
(例题分析) 例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 设一个总体,含有4个元素(个体) 数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总 个个体分别为x 体的均值、 体的均值、方差及分布如下 总体分布
4 - 17
统计学
STATISTICS
分层抽样
分层抽样
统计学
STATISTICS
(stratified sampling) sampling)
♦ 分层抽样:在抽样之前先将总体的单位按 分层抽样:
某种特征或某种规则划分为若干层(类), 然后从不同的层中独立、随机地抽取一定 数量的单位组成一个样本,也称分类抽样 数量的单位组成一个样本,也称分类抽样 sampling) (stratified sampling) ♦ 在分层或分类时,应使层内各单位的差异 尽可能小,而使层与层之间的差异尽可能 大
第四章 抽样调查
抽样分布原理
(一)基本符号 1.总体 A = {a1 , a2 ,, aN }, A = N . 1.总体 2.从总体中抽取n个对象构成样本,共有k个样 2.从总体中抽取n个对象构成样本,共有k 本,设样本的符号为:
A1 , A2 ,, Ak , k = C , Ai = n, i = 1, 2,, k
本章复习思考题
1,什么叫抽样?从总体中抽样样本需满足哪些 条件? 2,简单随机抽样?机械抽样?抽样调查法的性 质?随机抽样的原则? 3,抽样误差?影响抽样误差大小的因素?抽样 误差与调查误差,系统误差的区别? 4,抽样分布?平均误差?抽样分布原理? 5,教材第三章课后习题P84的第二题,P85的第 ,教材第三章课后习题P84的第二题,P85的第 四题,P86的第六题. 四题,P86的第六题.
(三)问卷设计的原则 (三)问卷设计的原则 题意清楚,明确,易懂;口语化;避免一题两问;避免 诱导;公正客观;逻辑一致性;完整性(问题和备选 答案);不要用否定形式提问;不要直接询问敏感性 问题. (四)问卷的结构 1,四结构说:标题(简明扼要,概括专项调查的主 题);指导语(包括调查的目的和意义;问题及备选 答案的必要解释,调查须知及其他事项说明等;如涉 及需为被调查者保密的内容,需申明予以保密);主 体内容(内容不宜过多,过繁,应根据需要而确定); 结束语(提出几个开放性的问题或让被试提出对本研 究的建设性的意见;表示对被试合作的感谢). 2,六结构说:在四结构说的基础上,加上被调查者的 基本信息;作业证明的记载.
无限总体时, 有限总体时,
σ σx = n
σ N n σx = × N 1 n
对于有限总体,样本容量与总体容量的 比n/N称为抽样比例. n/N称为抽样比例. 一般认为,n/N<0.05时,就可以省略修 一般认为,n/N<0.05时,就可以省略修 正系数.
第四章 抽样技术
• (五)多阶段抽样
– 含义:multistage sampling-----即先抽大的调 查单元,在大单元中抽小单元,再在小单元 中抽更小的单元。如:我国的城市职工家计 调查,采用三阶段抽样,先城市-基层单位调查户。
第四章 抽样技术
– 应用:在复杂、大规模的市场调查中。
• (六)抽样技术的选用原则
• (四)常用术语
– 1.总体(population)与样本(sample) – 2.总体指标和样本指标
• 总体指标-------反映总体数量特征的指标,有总 体平均数µ,总体比例P, 总体方差 σ 2
第四章 抽样技术
– 样本指标------又称样本估计量或统计量,用 以估计和推断相应总体指标的综合指标,有 样本平均数 x ,样本比例p ,样本方差S2。
第四章 抽样技术
• 成数------分总体成数与样本成数 • 含义------总体中具有某种特征的单位占全部单 位的比例,称总体成数(总体比例) • 如:产品的合格率,市场占有率等。 • 样本成数的抽样分布
– 当从总体中抽出一个容量为n的样本时,样本中具有 某种特征的单位数x服从二项分布,即有x~B(n, π),且 有E(x)=n π V(x)=n π(1- π). – 因而样本比例p=x/n也服从二项分布,且有: – E(p)=E(x/n)= π – V(p)=V(x/n)=1/n π(1- π)
第四章 抽样技术
第四章 抽样技术
第四章 抽样技术
本章要点
• 1.抽样调查的含义、特点与程序; • 2.随机抽样技术的类型及其各自的特点、 方法; • 3.非随机抽样技术的类型及其各自的特 点、方法; • 4.抽样误差的含义及其计算方法 。
第四章 抽样技术
第四章 抽样
• 3.设计抽样方案 • 4.制定抽样框
– 制定抽样框就是依据已经明确界定的总体范围,收集总体中全部抽样单位 的名单,并统一编号。
• 5.实际抽取样本 • 6.样本评估
– 样本评估就是对样本的质量和代表性进行检验,其目的是防止因样本的偏 差过大而导致的失误。
– 实际抽取样本就是在上述几个步骤的基础上,严格按照所选定的抽样方法, 从抽样框中抽取一个个的抽样单位,构成样本。
运用:
• 从侨光分校的7000位学生中,抽取100位学 生进行调查查,以研究学生对学校教学条 件的满意度。之前所做的普查表现出的对 学校教学条件的平均满意度为85%,现通 过抽查统计后的满意度为80%。 • 请说出本次抽查中的总体、样本、抽样元 素、抽样单位、抽样框、参数值、统计值、 抽样误差。
二、抽样的作用
• 分类抽样有着突出的优点: 第一,分类抽样能够克服简单随机抽样的缺 点,适用于总体内个体数目较多,结构较复杂, 内部差异较大的情况。 第二,精确度较高。 第三,便于对不同层面的问题进行探索。 第四,便于分工,使工作效率提高。 分类抽样的缺点是,如何分类通常由人们主 观判定,因此要求调查者具备较高的素质与能力, 并且必须事先对总体各单位的情况有较多的了解, 而它们在实际工作中有时难以完全实现,这就会 影响分类的科学性和精确性。
三、抽样的类型
• 概率抽样 • 非概率抽样
– 根据抽取对象的具体方式,人们把抽样分为许多不同 的类型。总的来说,各种抽样都可以归为概率抽样与 非概率抽样两大类。这是两种有着本质区别的抽样类 型。概率抽样是依据概率论的基本原理,按照随机原 则进行的抽样,因而它能够避免抽样过程中的人为误 差,保证样本的代表性;而非概率抽样则主要是依据 研究者的主观意愿、判断或是否方便等因素来抽取对 象,它不考虑抽样中的等概率原则,因而往往产生较 大的误差,难以保证样本的代表性。 概率抽样与非概率抽样又各自包括了许多具体类 型。分别适用于不同调查对象。联系实际认识概率抽 样的不同类型及其适用性是掌握抽样方法的关键。
04 第四章 分层随机抽样
第四章分层随机抽样第一节分层随机抽样概述分层抽样也叫做类型抽样,它是实际工作中最常用的抽样技术之一。
分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。
由此所抽得的样本称之为分层样本。
各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。
由此所得到的样本称做分层随机样本。
从以上概念可以看出,分层抽样的实质是在各层间作全面调查,而在各层内作抽样调查。
因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。
所以,为了能有效地降低抽样误差,提高抽样效果,在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。
以前只重视③,近年来,④和⑤引起了越来越多的关注。
同简单随机抽样相比,分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。
但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。
由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。
因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。
第四章-抽样技术练习试题
第四章抽样技术一、名词解释1、抽样调查2、总体和样本3、样本容量4、重复抽样5、不重复抽样6、抽样极限误差7、点估计8、区间估计二、填空1、抽样调查是从研究的中抽取部分单位作为进行观察研究,并根据这部分单位的调查结果来推断,以达到认识总体的一种统计调查方法。
2、抽样调查分为和两类。
抽样调查遵循。
3、是用主观的(非随机的)方法从总体中抽选单位进行调查,它是一种快速、简便且省钱的抽选样本的方法。
但非概率抽样具有很大的风险,因为主观选定的样本很难保证其对总体的代表性。
所以一般情况下不用来对总体进行推断。
主要包括随意抽样,,。
4、概率抽样有两条基本准则:第一,单位是随机抽取的;第二,调查总体中的每个单位都有一个非零的入样概率。
概率抽样方法主要有、、分层随机抽样、、、。
常用的为前四种。
5、是指包括调查对象所有单位的全体,它是由具有某种共同性质的许多单位组成的。
从中按随机原则抽取出来的部分单位所组成的集合体就称为样本。
6、从总体中抽取样本单位有与两种方法。
7、抽样框又称为抽样框架、抽样结构,是指对可以选择作为样本的总体单位列出名册成排序编号,以确定总体的和。
设计抽样框式进行抽样调查的前提,常见的抽样框有、等。
8、抽样误差是指指标数值与指标数值之差,即抽样估计值与被估计的未知的真实总体参数值之差。
9、在抽取多个样本时,就其中每个样本来说,都有其相应的抽样误差,而这些抽样误差的平均数,就是,用以反映抽样误差的一般水平。
10、一般来说,在实际应用时,常常采用的方法从总体各单位中抽取样本单位,进行调查;在计算上,为了计算简便,通常可以采用条件下抽样平均误差的计算公式进行计算。
11、概率分布的中心极限定理证明:(1)大量的客观事物总体现象是总体或近似于总体。
(2)在大样本的条件下,的分布是或近似地是正态分布,抽样成数的分布是或近似地是正态分布。
(3)抽样平均数的平均数总体平均数,抽样成数的平均数总体成数。
12、概率度t越大,估计的可靠性越,样本统计量与总体参数之间正负离差的变动范围也就越。
04第四节分层抽样
L h
ˆ) V ( Y 式中 h 是第h层总体均值估计量的方差。
对于分层随机抽样,则有:
L 1 fh 2 1 1 2 S h Wh 2 ( V ( y st ) Wh )S h nh nh N h h h
hi
第 h 层的总体均值;
1 yh nh
2 h
y
hi
第 h 层的样本均值; 第 h 层的总体方差; 第 h 层的样本方差。
1 Nh 2 S ( Y Y ) hi h N h 1 i 1
1 nh s ( y hi yh ) 2 nh 1 i 1
2 h
L Nh
Y = y hi 为总体总量;
Ph (1 Ph ) N h ( N h nh ) nh h
L
h
四、方差的估计量 按上述方法确定估计量的方差时,要求各层的总体方差应 事先已知,但实际工作中,各层的总体方差又常常是未知 的,此时,一般可用对应的各层样本方差替代,以对估计 量的方差作出估计。
此时:
l 1 fh 2 Wh sh 1 L 2 ˆ V ( yst ) Wh sh Wh sh nh nh N h h h L 2
h
L
为各层内成数方差的平均。
(二)最优分配 1、一般情形 在分层随机抽样中,在给定的费用条件下,使估计量的方 差达到最小,或在精度要求(常用方差表示)一定条件下, 使总费用最小的各层样本量的分配称为最优分配。 在分层随机抽样中,费用函数可能是简单线性的,也可能 是其它复杂形式,这里主要考虑简单线性的费用函数:
第四章 抽样
的正态分布。
中心极限定理
当n足够大时(通常假定大于30), 无论总体的分布如何。其样本平均 数所构成的分布都趋于正态分布。
正态分布图
正态分布图
99.73% 95.45% 68.27%
3 2
x
x
x
X
2 3
x
x
x
x
x ~ N ( X , 2 n)
正态分布的特点
1、单峰对称;
最好的例子:投掷硬币
对于投掷硬币的结果(总体)来说,只有正面和反面(个体) 两种可能。每次投掷硬币相当于一次抽样过程(从两种可 能性中抽取一种);这种抽样是随机的(两种可能性都可能 出现,且出现的机会均等) 尽管一次具体的随机抽样(一次投掷)只会有一种结果,或 者说出现某一种情况(正面或反面)的概率为100%;但是 若下次不同的抽样的结果,却总是趋向于两种情况出现 的次数各为50%——即趋向于两种不同结果本身所具有 的概率,或者说趋向于总体内在结构中所蕴涵的随机事 件的概率。
需要有四位数字才能保证所有人都有被选 中的机会 。(如果总数为21654的话,需 要选择五位数的随机数)。因此,我们要 从0001到9999的数字中抽取100个随机数。
我们可以随意确定表格中选取数字的顺序:依纵列的 方向向下选取,也可以依纵列的方向往上选取,由左 到右或者由右到左,也可以依对角线的方式选取。什 么方式并不重要,关键是从头到尾贯彻使用这种方法。 这里我们为了方便选择从纵列方向,当一列到了末端 时,可以从下一列最顶端选起,当一页选完以后,可 以从下一页的第一纵列继续选取。
我们先来看一个总体为10个个案的平均数抽样分布。
假如这10个人参加工作的年限分别为6、7、8、9、10、 11、12、13、14、15年。
04分层抽样
二、分层随机抽样
2. 估计 Y
L
估计量 Yˆst N yst Nh yh , 是 Y 的U.E. ;
h 1
L
方差 V (Yˆst ) Nh2V ( yh )
h 1
L h 1
Nh(Nh
nh )
Sh2 nh
;
方差的一个U.E.
v( yst )
L h 1
Nh(Nh
L h1
nh i 1
yhi (
y)
V ( yst )
L
Wh2
h1
1 fh nh
Sh2
L h1
nh n
1 f nh
Wh Sh2
1 n
f
L
Wh Sh2
h1
v( yst )
L
Wh2
h1
1 fh nh
sh2
1 n
f
L
Wh sh2
h1
一、比例配置
P 的估计
P Y
L Nh h1 N
1 Nh
Nh
Yhi
i 1
L
WhPh ,其中 Ph
h1
1 Nh
Nh
Yhi 。
i 1
记第 h 层样本中具有属性C的单元所占比例为 Pˆh ,即
Pˆh
1 nh
nh i 1
yhi 。
4. 比例的估计
估计量
L
pst Wh ph , 是 P 的U.E.; h1
常见的分配方式:
(1) 随意配置 (2) 比例配置(proportional allocation) (3) 最优配置(optimal allocation)
第四章 抽样调查
p
p1 p
n
0.2 0.8 0.02 400
即:根据样本资料推断全部学生中戴眼镜的学 生所占的比重时,推断的平均误差为2%。
例: :
一批食品罐头共60000桶,随机抽查300桶,发 现有6桶不合格,求合格品率的抽样平均误差?
解: 已知 N 60000 n 300 n1 6
解:
x xf 12600 126件 f 100
s x x 2 f 4144 6.47件
f 1
99
x
s 2 1 n n N
6.472 1 100 0.614件
100 1000
x
通过例题可说明以下几点:
①样本平均数的平均数等于总体平均数。 ②抽样平均数的标准差仅为总体标准差的 1
n
③可通过调整样本单位数来控制抽样平均误差。
例:假定抽样单位数增加 2 倍、0.5倍时, 抽样平均误差怎样变化?
解:抽样单位数增加 2 倍,即为原来的 3 倍
则:
x
3n
1 0.577 3
二、抽样调查的特点
1、 是专门组织的一次性的非全面调查 2、 抽选样本单位遵循随机原则 3、 用样本指标数值去推断总体指标数值 (与重点调查的区别) 4、 抽样误差可计算并控制在一定范围内 (与典型调查的区别)
三、抽样调查的几个基本概念 (一) 全及总体和抽样总体
全及总体 指研究对象的全体。其单位数 (总体) 用N 表示。
即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。
例: 某厂生产一种新型灯泡共2000只,随机抽出 400只作耐用时间试验,测试结果平均使用寿 命为4800小时,样本标准差为300小时,求抽 样推断的平均误差?
第4章-抽样设计
9
第一节 抽样设计的基本概念
市场调研
二、抽样调查的相关概念
1、全及总体——人们想要认识的对象的全体,它是构成 它的所有个体的集合,也称为总体。(常用 N 表示)
2、抽样总体——由总体中抽取的部分个体构成,具有对
总体的代表性,也称为样本。(常用 n 表示) 3、抽样单元——组成样本的互不重叠的基本单位,也称
49
40
9
2
调查研究总体:美国全体选民
调查访问样本:2000名选民
13
第一节 抽样设计的基本概念
市场调研
抽样调查的特点
(1)调查方式的科学性
(2)调查费用的经济性
(3)获取资料的及时性
(4)调查结果的准确性和全面性
(5)应用范围的广泛性
任何样本都无法完全代表总体,永远存在抽样误差。
14
第二节 抽样调查方法
23
第二节 抽样调查方法
市场调研
N=90,n=10, 则:K=90/10 =9;设k=6
1 11 21 31 41 51 61 71
2 12 22 32 42 52 62 72
3 13 23 33 43 53 63 73
4 14 24 34 44 54 64 74
5 15 25 35 45 55 65 75
7
第一节 抽样设计的基本概念
市场调研
3、重点调查
在调查总体中,针对一部分处于十分重要地位 的单位进行的非全面市场调查,以尽快估计调查总 体的基本情况。 重点调查的特点
(1)便于尽快了解调查对象的基本情况;
(2)在人、财、物和时间上比较节省;
8
第一节 抽样设计的基本概念
市场调研
4、抽样调查
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、抽样的基本概念
1.元素:等同于分析单位
2.总体(population):元素的集合体 N
3.样本(sample)从总体中按一定的方式抽取
出的一部分元素的集合。
研究结论只能推及总体范围
不反映总体的样本——农民为何常在民 意调查中被忽略(中国青年报 2010-03-04 )
中国人如何看美国,如何看美国人和中美 关系?近期,《环球时报》在中国社会科 学院美国研究所和专业调查公司的帮助下, 就此进行了民意调查,并公布了调查结果。 尽管该媒体发布的报道声称,他们这次是 “做了一次严格意义上的民意调查”,但 这次调查是否真称得上“严格意义”,值 得商榷。
配额抽样的技术要求
配额抽样技术要求研究者必 须对总体的情况有所了解 (所有投票者)。对于全国 性大选的民意调查而言,这 类信息主要来自人口普查资 料。
人口构成改变
——然而,到1948年二战促成
了大量农村人口涌入城市,在 很大程度上改变了1940年人口 普查资料显示的人口特征,而 盖洛普的抽样依据的正是1940 年的人口普查资料。
线人(informants)
华中某市高校同性恋者的个案研究
访谈对象大致来自三个方面:(1)
来自由华中科技大学生命科学与 技术学院组织的“大学生同性恋 亚文化研究”课题组提供的个案 资料; (2)笔者在现实中认识的同性恋 朋友;
(3)由上述两组个案通过“滚雪
球”方式认识的新的个案,即他们
再介绍自己所认识的圈内的人。
3.抽样:从组成某个总体的所 有元素的集合中,按一定的方 式选择或抽取一部分元素的过 程。
4.抽样单位( sampling unit)
抽样单位就是一次直接的抽样
所使用的基本单位。抽样单位 与构成总体的元素有时是相同 的,有时又是不同的。 抽取1000个大学生。 直接抽取 先抽班级,在抽学生
社会调查步骤
选 抽 题 样 研究设计
第四章
抽
样
概念操作化 问卷设计 资料收集
资料分析 调查报告撰写
第四章
抽
样
本章主要内容
1.抽样的概念和类型 2.非概率抽样方法 4.概率抽样方法 5.户内抽样和PPS抽样 6.样本规模
案例1——2004年美国大选主要民调样本数
调查机构
福克斯新闻
盖洛普 全国广播公司/《华尔街日报》 哥伦比亚广播公司/纽约时报 美国广播公司/华盛顿邮报
城乡人口政治倾向
——此外,由于城市居民更支
持民主党,因此,在将乡村投 票者的人数估计得多于实际的 情形下,便相对低估了投票支 持民主党的人数。
4.雪球抽样(snowball sampling)
——雪球抽样,当我们无法了解总体 情况时,可以从总体中少数成员入手, 对他们进行调查,向他们询问还知道 哪些符合条件的人;再去找哪些人并 询问他们知道的情况。如果滚雪球一 样,我们可以得到越来越多具有相同 性质的群体成员。
(一)与抽样有关的概念(续3)
6.参数值 (parameter)也称 为总体值,它是关于总体中某 一变量的综合描述。 7.统计值(statistic)也称为 样本值,它是关于样本中某一 变量的综合描述。
二、抽样的作用
基本作用:是人们从部分认识
整体的关键环节 必要性:研究人员难以做到任 何研究都进行全面调查,而抽 样误差可以控制到很小,因而 抽样调查成为最常用的研究方 法之一。
《青年研究》
2011年第8期
(二) 概率抽样的方法
概率抽样的原理
保证总体中每一个个体都有
相等的机会入选样本。 当总体情况不明时,无法做 到随机抽样
1.简单随机抽样
(simple random sampling)
——(1) 简单随机抽样又称 纯随机抽样,它是按等概率原 则直接从含有N个元素的总体 中随机抽取n个元素。
案例《文学文摘》—预测结果
候选人
兰登 A· Landon 罗斯福 F· Roosevelt
党派
共和党 民主党
支持率
57% 43%
案例《文学文摘》抽样——选举结果 两个星期之后,美国总统选举 的结果罗斯福以61%的得票率 获得第二任任期。相较于罗斯 福的523张选举人票,兰登仅 得到8张。
案例《文学文摘》——失败原因
最后结果
日期
10/30-10/31 10/29-10/31
奥巴马 克里 纳德尔
46% 49% 48% 49% 1% 1%
差额
克里+2 持平
10/29-10/31
48%
47%
1%
布什+1
10/28-10/30
49%
46%
1%
布什+3
10/27-10/30 10/27-10/29
11 月 2 日
48% 50%
B.总体名单中,个体的排列
上有与抽样间隔相对应的周 期性分布情况。
3.分层抽样/类型抽样 (1)含义:先将总体中所有单位
按某种特征或标志划分为若干类
型或层次,然后再在各个类型或 层次中采用简单随机抽样或系统
抽样的方法抽取一个子样本,将
其合成样本。
图示:分层抽样
分类
随机 抽样
总体
子群
样本
(2)分层抽样的运用
√
√
√
√
√
(3)注意要点
系统抽样一个十分重要的 前提条件,是总体中个体的 排列,相对于研究变量来说, 应该是随机的,即不存在某 种研究变量相关的规则分布。
(3)注意要点之一
A.总体名单中,个体的排列
具有某种次序上的先后、等 级上的高低情况。 例 抽取若干家庭样本进行 消费状况调查。
(3)注意要点之二
实际上,他们调查的只是中国5大 城市的部分居民,却根本没有调查过 任何一位农民,而在当代中国,农村 人口在全国人口总数中所占比例远远 大于城市人口。所以,仅仅5个城市部 分居民在调查中表达出来的民意,并 不足以真正代表包括广大农村居民在 内的“中国人”。
值得注意的是,类似这种只调查部分城市居民、 调查结果却被说成是整个“中国人”的民意调查, 并不鲜见。例如,稍前,《解放日报》和复旦大 学、神州调查公司等合作,开展了“今天我们怎 样过春节”的全国30个城市抽样调查,也将农民 排除在外。 中国经济景气监测中心曾经发布的一项调查结果, 本来只是显示有58.2%的中国城市居民对目前的 收入水平感到满意,但某些媒体在报道时,则声 称是“逾半中国人满意当前收入”。超过8亿的中 国农民居然“人间蒸发”。
(一)与抽样有关的概念(续2)
5.抽样框(sample frame) 又称作抽样范围,它指的是 一次直接抽样时总体中所有 抽样单位的名单。
案例——抽样框
从一所中学中,直接抽取 200名学生作为样本。
抽样框
该中学的全体学生名单
案例——抽样框
如果抽取20个班级作为 调查样本。
抽样框
该中学的所有班级名单
《文学文摘》的民意测验失败是
因为它的样本严重地偏向高收入 群体。在当时条件下,收入较低 或失业者家里通常没有电话,也 没有汽车,因此,根据电话薄和 汽车俱乐部会员名单选定的样本, 主要涵盖的是经济地位较高的上 层选民。
案例《文学文摘》——失败原因
当时下层选民是罗斯福 社会及经济政策的主要受益 者和支持者,而共和党候选 人则更受上层选民的青睐。
样本量
1200
1573 1014 939 939
《新闻周刊》
882
2004年美国总统大选一周前民调结果
当选的相对机会值 福克斯新闻(1200 LV) 盖洛普(1573 LV) 全国广播公司/《华 尔街日报》 (1014 LV*) 哥伦比亚广播公司/ 纽约时报(939 LV) 美国广播公司/华盛 顿邮报(939 LV**) 《新闻周刊》(882 LV)
案例1——配额抽样
假设某高校有4000名学生,其中 男生占60%,女生占40%;文科学 生和理科学生各占50%;一年级学生 占40%、二年级、三年级、四年级学 生分别占30%、20%、10%。现在 用定额抽样方法依上述三个变数抽取 一个规模为100人的样本。
配额抽样结果
案例2 盖洛普1948年总体选举民调
(3)随机数表的使用
随机数表
2.系统抽样(systematic sampling)
(1)系统抽样的含义
系统抽样又称为等距抽样或机械 抽样。它是把总体中的单位进行编号 排序后,再计算出某种间隔,然后按 这一固定的间隔抽取个体的号码来组 成样本的方法。它和简单抽样一样, 需要有完整的抽样框。
(2)系统抽样具体步骤:
零点调查公司曾经对京沪穗蓉宁等 10个城市的4226名成年市民进行一项 调查,旨在了解这些城市居民未来5 年内最关心的事情,但媒体发布的调 查结果,却是“中国人关注的十大焦 点”。一项标榜为揭示“当代中国人 世界观”的调查,实际调查的不过是 京沪穗三市的部分居民。
(一)与抽样有关的概念(续1)
1.将总体的所有个体按顺序编号
2.计算抽样间距K
K= N(总体规模) n(样本规模)
3.在头K个个体中随机确定起点(A)
e.g.如果K=10,就从01-10号中抽签决定一个
号码作为起点,假定为05
4.从A开始,每隔K个个体抽取一个个 体,组成样本:
A,A+K,A+2K…..,A+(n-1)K
05,15,25,….,95
三、抽样的一般程序
界定总体
制定抽样框 决定抽样方案 实际抽取样本 评估样本质量
四、抽样的方法
偶遇抽样
非概率抽样
抽 样 方 法
概率抽样
判断抽样 配额抽样
雪球抽样 简单随机抽样 系统抽样 整群抽样 多阶段抽样