第六章 抽样
统计学第六章抽样调查
Part
05
系统抽样技术
系统抽样原理及步骤
• 系统抽样原理:系统抽样是一种等距抽样方法,它首先确定一个抽样间隔,然后在总体中按照这个间隔进行抽 样。这种方法适用于总体单位排列有序且周期性变化的情况。
系统抽样原理及步骤
01
系统抽样步骤
02
确定总体范围和抽样框;
03
计算抽样间隔,确定样本量;
系统抽样原理及步骤
01
03 02
分层标准选择与确定方法
• 以调查对象的某些自然特征或社会特征作 为分层标准。
分层标准选择与确定方法
专家判断法
依靠专家经验判断选择合 适的分层标准。
数据分析法
通过对历史数据或相关数据的 分析,找出影响调查指标的主 要因素,作为分层标准。
试验法
通过试验确定不同分层标准 对调查结果的影响程度,选 择最优的分层标准。
缺点
由于样本可能被重复抽取,导致样本的代表性降 低。
缺点
操作相对复杂,需要记录已经抽取过的样本。
简单随机抽样优缺点分析
操作简单
简单随机抽样的操作过程相对简单,易于理解和实施。
等概率原则
保证了每个单位被抽中的机会相等,避免 具有代表性:当样本量足够大时,简单随机抽样可以获得具有代表性的样本。
整群抽样优缺点比较
• 适用于某些特定情况:对于某些总体分布不均匀或难以划分的情况,整群抽样 可能更为适用。
整群抽样优缺点比较
抽样误差较大
01
由于是以群为单位进行抽样,可能导致抽样误差较大。
样本代表性不足
02
如果群的划分不合理或随机性不足,可能导致样本代表性不足。
对群内个体差异考虑不足
03
《市场调查》:第六章 抽样调查理论及方法
此一方式之抽样,开始只抽取少量样本,根据此少量样本之结果来决定是否接受某一假设,或应继续抽取样本,直到能够决定接受或摈弃假定为止 。
逐次抽样法应是费用较低且实用的一种方法。
4.分段抽样(Subsampling)
先由一母体中抽取n个单位随机样本(PUS),再由PUS中抽出m个单位(SSU),就SSU进行调查,称二段抽样。若续从SSU抽取更小单位进行调查,称为三段抽样。三段以上,称多段调查。
采用简单随机抽样之时机:
(1)母体小,母体名册令人满意且为母体信息唯一来源。
(2)单位访问成本不受样本
先对母群体做一次初步抽样,搜集一些有关母群体之信息,根据所获得之信息,再做一次比较精密之抽样。通常对母群体认识极为贫乏之下,可用本法。第一次抽样,因所要信息较少,故样本数通常较大。第二次进行比较流入调查,样本数较小。
利用随机方法或社会调查选出原始受访者。再根据原始受访者提供信息去取得其它受访者。本法之目的乃母体很难寻找或十分稀少。例如单亲家庭计抽样属之。
随机抽样之种类有:
1.简单随机抽样(Simple random Sampling)
母体中全部个体,完全委诸均匀机率分布抽取样本,使每一个体被抽出之机率均为己知且相等。简单随机抽样为其它各种随机抽样方法之基础。
准确度乃衡量母全体特性与实际母全体特性间之差异。两者之差异愈小,代表准确度愈高。
7 抽样误差(Sampling error)
因为抽样时样本可能会偏离母群体,其间的差距称为抽样误差。抽样误差可用统计方法估计。
8 信赖水准(Confidence level)
以样本估计数推论母群体大小时,正确估计的概率有多少。信赖水准是95﹪,即正确估计概率为95%,调查者以此来表示其正确估计程度。
统计学第六章抽样推断
尖山一委…
尖山二委
居民一组
居民二
组
…
第六章 抽样推断
某外国公司在##进行 微波炉市场调查:
STAT
在商场的大门口
在微波炉柜台前
在市区街道旁边
在某个住宅小区
时间表抽样框
第六章 抽样推断
连续出产的产品总体 可以编制抽样框:均STAT 匀的出产时间、可以 预见到的产品总量.
连续到加油站加油的 汽车总体无法编制抽 样框:时间不定、总 量也无法确定.
抽样估计的特点
第六章 抽样推断
按随机原则抽取样本单位
目的是推断总体的数量特征
抽样推断的结果具有一定的可靠程度, 抽样误差可以事先计算并控制
抽样估计的应用
第六章 抽样推断
不可能进行全面调查时 不必要进行全面调查时 来不及进行全面调查时 对全面调查资料进行补充修正时
抽样调查研究
Sampling Study
P N nN N NN n
共n个
⒉ 不重复抽样的可能样本数目:
C N n N N 1 N n 1
第六章 抽样推断
第六章 抽样推断
STAT
★§1.1 抽样方案的设计 ★§1.2 简单随机抽样的抽样误差的测定
§1.3 简单随机抽样的抽样估计
第六章 抽样推断
§1.2 简单随机抽样的抽样误差的测定 STAT
n1 1{i n1E(xiX)2nn(E xX)2} 由E(于 xX)2D (x)D (i1 nxi)n 1 2i n1D (xi)n2
E(sn21)n11{n2nn2}
2
⒋ 样本成数:
pn1,qn0 1p nn
⒌ 样本单位是非标志的标准差:
第六章 抽样推断
市场调查-第六章抽样技术
N = 721, n = 10, 721/10≈72
K =
用随机数表法,如果第一个确定的数字为102,则 各样本单元编号依次为:102,174,246,318, 390,462,534,606,678,29。其中最后一个编 号应为678 + 72 = 750。因大于N,故减去721,实 际编号取为750- 721 = 29。
多级随机抽样是先把总体划分为 若干一级单元,再把各个一级单 元划分为若干个二级单元,直至 不再划分的个体单元。在抽样时, 先用简单随机抽样方法抽取部分 一级单元,再在抽中的一级单元 中抽取部分二级单元,依次操作, 直到抽得个体单元为止。
多级随机抽样——demo
我国城市住户调查采用的就是多 级抽样,先从全国各城市中抽取 若干城市,再在城市中抽选街道, 然后在各街道中抽选居民会,最 后在各居委会中抽选居民户。
低收入 20%
高收入 20%
中收入 60%
高收入 中收入 低收入
分层比例抽样法
高收入层抽取的样本单元数为: 200×20%=40(户) 中收入层抽取的样本单元数为: 200×60%=120(户) 低收入层抽取的样本单元数为: 200×20%=40(户)
在各层抽样时,只需采 用简单随机抽样法即可。
2、分层最佳抽样法
二、分层随机抽样
分层随机抽样是先将总体所有单位按 某一重要标志进行分层(类),然后在 各层(类)中采用简单随机抽样方式抽 取样本单位的一种抽样技术形式。在 划分层次时应注意,各层次内部保持 确定的同质性,而各层次之间又应有 明显的异质性。
分层比例抽样法 分层最佳抽样法
1、分层比例抽样法
分层比例抽样法,指各层 抽取的样本单元数是按各 层单元数占总体单元数的 比例加以确定。
第六章抽样案例
不再把这个单位重新放回总体,这个总体单位
26
不再继续参加下2次021/抽4/13选。
二、抽样的作用
基本作用:是人们从部分认识整体的关键环节. “你不必吃完整头牛,才知道肉是老的。” 必要性:研究人员难以做到任何研究都进行全面
调查,而抽样误差可以控制到很小,因而抽样调 查成为最常用的研究方法之一。
2.制定抽样框
制定抽样框 依据已经明确界定的总体范围,收集总体中全 部抽样单位的名单,并对名单进行统一编号,从 而建立抽样框。 当抽样是分几个阶段、在几个不同的抽样层次 上进行时,要建立不同的抽样框。
﹠准确的抽样框原则:
1、完整性 2、不重复性
例如: 在城市居民户的抽样中,会经常出现一户有多处住房的
参数值/总体值
——是关于总体中某一变量的综合描述,或者说 是总体中所有元素的某种特征的综合数量表现。 例如:全国妇女平均受教育年限
参数值只有通过总体的每一个元素都进行调查 或测量才到。
统计值/样本值
——是关于调查样本中的某一变量的综合描述。
是从样本中计算出来的 是作为总体值的估计值 例如:从一个样本中得到的妇女平均受教育年限。
普遍调查的特点
工作量大,费时、费力、费钱。 资料准确,适用了解总体的基本情况。 需要高度集中的组织和高度统一的安排。 调查项目不能多,只能了解某一方面必不可
少的基本情况。
二、抽样调查
抽样调查就是从所研究的总体中,按照一定的 方式选取一部分个体进行调查,并将从这部分 个体中所得到的调查结果推广到总体中去。
但是,当总体所含个体数目太多时,采用这种抽样 方式不仅费时多,工作繁杂且费用太高。
此外,这种抽样方法,在构成总体的个体差异不大 时,用之比较有效,而在总体异质性较高时,误差 较大。
抽样检验-第六章抽样检验课件 精品
d0
结论:在抽样方案 ( n, Ac ) 确定的条件下,接 收概率L(p)是批不合格率p%的函数。
当 p 1% 时 :
1
L(0.01) Cnr 0.01r (1 0.01)nr r 0
C200 (0.01)0 (0.99)20 C210 (0.01)1(0.99)19 0.9831
同样地, 当 p 2% 时:
(1)超几何分布计算法
设从不合格品率为p的批量N中,随机抽取n个单位产品组成样本, 则样本中出现d个不合格品的概率可按超几何分布公式计算:
C C L(p)=
d
nd
Ac
Np N Np
n C • 有限总体计件抽d样0检验时计N算接收概率的精确公式
C • d 从批的不合格品数Np中抽取d个不合格品的全部组合; Np
• 2 检验批:为实施抽样检验而汇集在一起 的一定数量的单位产品。检验批的形式有 “稳定的”和“流动的”。
构成检验批的所有产品应当是同一生产条 件下所生产的单位产品。
• 3 批量:检验批中单位产品的数量。常用 N表示。批量的大小应当因时、因地制宜地 确定。体积小,质量稳定的产品,批量宜大些。
• 4、不合格
接收批
拒收批
• Re2=Ac2+1,则二次抽样必定就有结果。若 Re2 大于Ac2+1,则可以进行多次抽样。 问题:若要五次抽样有结果,则Re5 与Ac5应 该有怎样的关系?
• 二、抽样方案的接收概率
• 抽样方案对优质批和劣质批的判断能力是 极为关键的,方案的判别能力可以用接收 概率、抽样特性曲线和两类风险来衡量。
• c类不合格:单位产品的一般质量特性不符合 规定,或单位产品的质量特性轻微的不符合规 定。
5、不合格品:
统计学第六章 抽样法
第六章 抽样法
序号
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16 合计
样本变量x
40、40 40、50 40、70 40、80
50、40 50、50 50、70 50、80
70、40 70、50 70、70 70、80
80、40 80、50 80、70 80、80
-
x
x E(x)
总体
研究如何利用 样本数据来 推断总体特 征。
内容包括:参 数估计和假 设检验。
目的:对总体
特征作出推
样 本
断。
这是推断统计学研 究的问题
5
第六章 抽样法
描述统计与推断统计的关系
反映客观 现象的数
据
概率论
(包括分布理论、大 数定律和中心极限定
理等)
样本数
描述统计
推断统计
据
总体数 据
(统计数据的搜集 、整理、显示和分
13
第六章 抽样法
第二节 有关抽样的基本概念(2)
(二)抽样总体
也称子样,样本或样本总体,它是从全 及总体中随机抽取出来的,代表全及总体的 那部分单位的集合体。抽样总体的单位数称 为样本容量,用n表示,对于N来说,n是很 小的。
总体
样 本
14
第六章 抽样法
第二节 有关抽样的基本概念(3)
• 二 全及指标和抽样指标p.249 (一) 全及指标
研究总体中 的品质标志
总体成数 P N1
N
总体成数标准差 P
P1 P
17
第六章 抽样法
第二节 有关抽样的基本概念(5)
(二)抽样指标
抽样指标是由样本总体各单位标志值 或标志特征计算的综合指标,也称统计量。 与全及指标相对应有:样本平均数,样本 标准差;样本成数,样本成数的标准差。
第六章 抽样调查
第六章抽样调查第一节抽样调查的意义及全然概念一、抽样调查的意义抽样调查(随机抽样):按照随机原那么从总体中抽取一局部单位进行瞧瞧,并运用数理统计的原理,以被抽取的那局部单位的数量特征为代表,对总体作出数量上的推断分析。
二、抽样调查的适用范围抽样调查方法是市场经济国家在调查方法上的必定选择,和普查相比,它具有正确度高、本钞票低、速度快、应用面广等优点。
一般适用于以下范围:1.实际工作不可能进行全面调查瞧瞧,而又需要了解其全面资料的事物;2.虽可进行全面调查瞧瞧,但比立困难或并不必要;3.对普查或全面调查统计资料的质量进行检查和修正;4.抽样方法适用于对大量现象的瞧瞧,即组成事物总体的单位数量较多的情况;5.利用抽样推断的方法,能够关于某种总体的假设进行检验,判定这种假设的真伪,以决定取舍。
三、抽样调查的全然概念(一)全及总体和抽样总体(总体和样本)全及总体:所要调查瞧瞧的全部事物。
总体单位数用N表示。
抽样总体:抽取出来调查瞧瞧的单位。
抽样总体的单位数用n表示。
n≥30大样本n<30小样本(二)全及指标和抽样指标(总体指标和样本指标)全及指标:全及总体的那些指标。
抽样指标:抽样总体的那些指标。
第二节抽样调查的组织形式通常有以下四种组织形式:一、简单随机抽样(纯随机抽样)即从总体单位中不加任何分组、排队,完全随机地抽取调查单位。
随机抽选可有各种不同的具体做法,如:1.直截了当抽选法;2.抽签法;3.随机数码表法;二、类型抽样(分类抽样)先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原那么抽取样本,组成一个总的样本。
类型的划分:一是必须有清楚的划类界限;二是必须明白各类中的单位数目和比例;三是分类型的数目不宜太多。
类型抽样的好处是:样本代表性高、抽样误差小、抽样调查本钞票较低。
要是抽样误差的要求相同的话那么抽样数目能够减少。
两种类型:1.等比例类型抽样(类型比例抽样);2.不等比例类型抽样(类型适宜抽样)。
第六章 抽样方法
第六章抽样方法6.2 非概率抽样非概率抽样是用一种主观的(非随机的)方法从总体中抽选单元。
由于不需要完整的抽样框,非概率抽样是一种快速、简单且节省的获得数据的方法。
使用非概率抽样的问题是,我们不清楚能否通过样本对总体进行推断,原因是用非概率抽样从总体中抽选单元的方式可能会导致较大的偏差。
例如,在非概率抽样中访员经常主观地决定哪些单元入样。
由于访员倾向于选择总体中那些最容易接触到和最友好的单元,使总体中很大一部分单元完全没有被抽中的机会,而这些单元与被抽中的单元可能有系统差异。
非概率抽样不仅会使调查结果出现偏差,而且由于带有选择平均单元和排除极端值的倾向,将错误地减少总体中明显的变异性。
由于非概率抽样抽取样本有倾向性,我们不可能计算出各个单元的人样概率,从而无法得到可靠的估计值及其抽样误差估计值。
此时若能对总体进行推断,必须假定样本对总体有代表性。
而这通常需要假定总体指标服从某个模型,或是均匀地或是随机地分布的。
由于抽选存在偏差,做这种假定的风险很大。
非概率抽样经常被市场研究人员作为一种省钱快速的方法来代替概率抽样。
但是由于有上述问题,它并不是概率抽样的一种有效的替代方法。
那么,为什么还要费神来讨论非概率抽样呢?这是因为非概率抽样能用在下面几个方面的研究中:- 用来形成一种想法;- 作为设计开发概率抽样调查的初始步骤;- 在后续步骤中帮助理解概率抽样调查结果。
比如,非概率抽样能在调查的早期就提供非常有价值的信息。
它也可用在探索性或诊断性研究中,以了解人们的态度、信仰、动机和行为,或分析概率抽样调查的结果。
有时,非概率抽样是唯一可行的选择?例如,在医学实验中,采用志愿者抽样可能是取得数据的唯一途径。
非概率抽样常被用于抽选参加焦点座谈和深人访问的个人。
在加拿大统计局,非概率抽样被用来测试在人口普查调查表中所使用的问题,以确保所问的问题和使用的概念对被调查者是清楚的。
如果认为问题的内容会引起争议,则在最有可能有争议的地方抽选一个子总体。
《社会调查研究方法》 第六章 抽样
《社会调查研究方法》第六章抽样在社会研究中,最常见的总体是由社会中的某些个人组成的,这些个人便是构成总体的元素,比如,当我们对某省大学生的择业倾向进行研究和探讨时,该省所有在校大学生的集合就是我们研究的总体,而每一个在校大学生便是构成总体的元素。
又比如,我们打算研究某城市居民的家庭生活质量,那么,该市所有的居民家庭就构成我们研究的总体,而其中的每一户家庭都是这个总体中的一个元素。
样本(sample)就是从总体中按一定方式抽取出的一部分元素的集合。
或者说,一个样本就是总体的一个子集。
比如,从某省总数为12.8万人的大学生总体中,按一定方式抽取出1 000名大学生进行调查,这1 000名大学生就构成该总体的一个样本(当然,从一个总体中可以抽取出若干个不同的样本)。
在社会研究中,资料的收集工作往往是在样本中完成的。
明白了总体和样本的概念,再来理解抽样的概念就十分容易了。
比如,从3 000名工人所构成的总体中,按一定方式抽取200名工人的过程;或者从1 000户家庭构成的总体中,按一定方式抽取一个由100户家庭构成的样本的过程,都叫做抽样。
比如,上面所举的例子中,单个的大学生既是构成某省12.8万名大学生这一总体的元素,又是我们从总体中一次直接抽取出1000名大学生的样本时所用的抽样单位;但是,当我们从这一总体中一次直接抽取出40个班级,而以这40个班级中的全部学生(假定正好1000名)作为我们的样本时,抽样单位(班级)与构成总体的元素(学生)就不是一样的了。
比如,从一所中学的全体学生中,直接抽取200名学生作为样本,那么,这所中学全体学生的名单就是这次抽样的抽样框;如果是从这所中学的所有班级中抽取部分班级的学生作为调查的样本,那么,此时的抽样框就不再是全校学生的名单,而是全校所有班级的名单了。
因为此时的抽样单位已不再是单个的学生,而是单个的班级了。
在统计中最常见的总体值是某一变量的平均值,比如,某市待业青年的平均年龄、某厂工人的平均收入等等,它们分别是关于某市待业青年这一总体在年龄这一变量上的综合描述,以及某厂工人这一总体在收入这一变量上的综合描述。
第6章抽样
【观念应用4-3】 仍以上述居民收入与购买力之间关系为例。各层样本标准差其中高收入为300元,中收入为200元, 低收入为100元,为了便于观察,列表如表5-2所示。 表4-2 调查单位数与样本标准差乘积计算表 各层次 (不同经济收入)
各层的调查单位数(户)Ni
4 000 12 000 4 000 20 000
47 74 76 56 59 22 11 26 21 60 28 62
43 24 62 85 56 77 17 63 12 17 17 37
73 67 27 99 35 94 53 78 86 34 12 35
86 62 66 26 64 39 71 59 29 44 13 18
36 42 56 96 37 49 57 16 78 09 40 98
各层的样本标准差(元)Si 300 200 100
高 中 低
∑NiSi
4.2.2
随机抽样技术的分类及技术特点
(3)等距离随机抽样技术 抽样间隔计算公式为: 抽样间隔=总体数(N)÷样本数 (n) (4.2)
【观念应用4-4】 某地区有零售店110户,采用等距离抽样方法抽选11户进行调查。 【分析提示】 等距离抽样,方法简单,省却了一个个抽样的麻烦,适用于大规模 调查。还能使样本均匀地分散在调查总体中,不会集中于某些层次, 增加了样本的代表性。
96 81 50 96 54 54 24 95 64 47 33 83
47 14 26 68 82 43 55 55 56 27 20 50
36 57 75 27 46 55 06 67 07 96 38 87
61 20 07 31 22 82 88 19 82 54 26 75
统计学第六章抽样法
在总体分层的基础上,再在各层内进行多阶段抽 样。
3
集群抽样
先将总体划分为若干个集群,再随机抽取部分集 群进行调查,适用于地理区域等自然形成的集群。
多阶段抽样优缺点
适用范围广
适用于总体单位分布广泛、数量众多 的情况。
抽样误差小
通过多阶段抽样可以减小抽样误差, 提高估计精度。
多阶段抽样优缺点
06
多阶段抽样
多阶段抽样原理
抽样单位划分
多阶段抽样中,首先将总体划分为若干个初级抽样单位,再从初级抽样单位中抽 取若干个二级抽样单位,以此类推,直至抽取最终样本。
逐级抽取
在每一阶段,都按照随机原则从上一级抽样单位中抽取下一级抽样单位,直至获 得最终样本。
多阶段抽样方法
1 2
PPS抽样
即“概率与规模成比例”的抽样方法,每个初级 抽样单位被抽中的概率与其规模大小成比例。
分层抽样优缺点
分层标志选择困难
选择合适的分层标志是分层抽样 的关键,选择不当可能导致分层
效果不佳。
层间差异影响
如果各层间差异较大,可能导致 样本对总体的代表性降低。
需要较多样本量
相对于简单随机抽样,分层抽样 通常需要较多的样本量才能达到
相同的精度要求。
05
整群抽样
整群抽样原理
以群为抽样单位
整群抽样是将总体划分为若干个互不重叠的群,然后以群为 抽样单位进行随机抽样。
等距抽样
系统抽样中最常用的一种方法,它是按照某 种顺序给总体中的各个体编号,然后随机地 抽取一个编号作为第一调查个体,其他的调 查个体则按照某种确定的规则“系统地”抽 取出来。
周期性
系统抽样中,样本的抽取具有周期性,即每 隔一定的间隔就抽取一个样本。
第六章抽样
册和登记表(抽样框)就可进行。
• 其局限是,只适用于总体单位数量不多,且分布
较均匀的调查总体,即单位间差异性不大的研究
对象,否则将无法保证样本的代表性。
• 练习 请利用随机数表,从N=60总体中抽取15个样本。
系统抽样
• 系统抽样(等轴抽样、等距抽样、机械抽样): 把总体的单位进行编号排序,在计算出某中间隔, 然后按这个固定的间隔抽取个体的号码来组成样 本的方法。 • 基本和简单随机抽样一样,计算公式也一样。 • 需要完整的样本框,直接从总体中抽取个体。
• 获得完全正确的样本框几乎是不可能的。 • 制定抽样框是抽样的关键步骤之一。 • 当抽样是分段进行时,在几个不同的抽样层次上 进行时,则要分别建立起几个不同的样本框。 • 比如:研究某市小学生的学习情况。从500所小 学中抽取10所小学,再从这10所小学,每个小学 抽取3个班级,被抽中的班级中再抽取10名同学。 所以要有三个样本框: 全市学校名单 每所抽中学校班级名单 每个被抽中班级学生的名单
抽样的概念
• 统计值(样本值):样本中某一个变量的综合描 述。 • 是从样本中计算出来的。 • 是作为总体值的估计值。
2 抽样的作用
• 用十分有限的人力、财力、时间去了解庞杂、广 阔、纷繁、多变的社会现象。 • 比如:民意测验,要求迅速、准确。往往调查对 象不到2000人。
3.抽样的类型
• 概论抽样 • 非概率抽样
决定抽样方案
• 对于具有不同研究目的、不同范围、不同对象和 不同客观条件的社会研究,所使用的抽样方法是 不一样的。 • 依据研究的目的的要求、依据各种抽样的特点, 以及其他有关因素来觉得具体采用哪种抽样方法。 • 同时确定样本规模以及主要的精确程度。
实际抽取样本
市场调研与预测第六章 抽样
分层随机抽样技术及其应用
注意:分层时要注意各层之间要有明显的差异, 不致发生混淆;要知道各层中的单位数目和比 例;分层的数目不宜太多,每个层次内每个个 体应保持一致性等。 分层抽样具体形式:等比例分层抽样、非比例 分层抽样
分群随机抽样技术及其应用
运用分群抽样技术抽取样本,先把调查总体区分 为若干个群体,然后用单纯随机抽样法,从中抽 取某些群体进行全面抽查。 如果不是对所抽取的群体进行全面抽查,而是进 一步划分为若干个小群体,再按随机原则抽取一 个或一部分小群体来调查,称为多段分群抽样。 运用分群抽样技术抽取样本,抽选工作比较简易 方便,抽中的单位比较集中,但是由于样本单位 集中在某些群体,而不能均匀分布在总体中的单 位,若群与群的差异较大,抽样误差会增大。
随机抽样
随机抽样又称为概率抽样,是对总体中每一个 体给予平等的抽取机会的抽样技术。 随机抽样的类别: 随机抽样的类别: (1)简单随机抽样:是在总体单位中不进行 任何有目的的选择,按随机原则,纯粹偶然的 方法抽取样本的技术。 (2)分层随机抽样:把调查总体按其属性不 同分为若干层次,然后在各层中随机抽取样本 的技术。
随机抽样的类别
(3)分群随机抽样:是把调查总体区分为若 干个群体,然后用单纯随机抽样法,从中抽取 某些群体进行全面调查的技术 (4)系统随机抽样:在总体中先按一定标志 顺序排列,并根据总体单位数量和样本单位数 计算出抽样距离,然后按相同的距离或间隔抽 选样本单位的技术
随机抽样的优点和不足
优点: 优点: 1.调查范围和工作量比较小,又排除了认为的干扰, 能省时、省力、省费用。 2.随机抽样能够计算调查结果的可靠程度。 不足: 不足: 1.对所有调查样本都给予平等看待,难以体现重点。 2.抽样范围广,所需时间长,参加调查的人员和费 用多。 3.需要具有一定专业技术的专业人员进行抽样和资 料分析。
第六章 抽样
例:以某高校6000名在校大学生为总体:
抽样1:按一定方式抽取300名大学生作样本;
抽样2:按一定方式抽取10个班作样本;
分析:两种抽样方式下的抽样单位和抽样框
(四)抽样框sample frame
一次直接抽样时总体中所有元素的名单。 抽样框是抽样操作依据的名单,是和调查的总体相 对应的
究总体的操作化界定,规定了调查对象选择的具体指标。
• 目标总体和调查总体吻合度越高,调查的代表性就越好;否则会
产生覆盖误差。
(二)制定抽样框
1.抽样框是对研究总体的进一步操作。
2.抽样框的意义
(1)抽样框与研究/调查总体之间可能不匹配,可能包含研 究总体之外的某些人,或可能遗漏其中的某些人. (2) 根据样本所得到的结果,只能代表组成抽样框的各个 要素的集合 (3) 样本的大小(规模)与其能否正确代表总体比较起 来,是一项不太重要的因素。
(五)参数值——又称总体值,是关于总体中某一变量的 的综合描述,或者说是总体中所有元素的某种特征的综 合数量表现。 –参数值只有对总体中每一个元素都进行调查或测量才 能得到。 (六)统计值——又称样本值,是关于样本中某一变量的 综合描述,或者说是样本中所有元素的某种特征的综合 数量表现。 –统计值是从样本中计算出来的,它是相应的参数值的 估计量。
一、简单随机抽样
(一)定义
又称纯随机抽样,是概率抽样的最基 本形式。 它是按等概率原则,直接从含有N个 元素的总体中随机抽取n个元素组成样本 (N>n)。
(二)选取样本的两种办法
1.抽签方式 (1)将总体名单从1到N编号,形成抽样框; (2)准备N张卡片,每张卡片上的号码与总体 名单编号对应,将卡片放在盒子里,混合均匀; (3)根据抽样设计的样本规模,从盒内n次取 出n张卡片; (4)根据取出的卡片上的号码,找到总体名单 上对应的元素,构成样本。
第六章 抽样设计
七、敏感性问题
敏感性问题是指在抽样调查中,被调查的问题是属 于被调查人私人机密或不愿意如实回答的问题。
如调查被调查者是否曾冒充顾客进商店行窃,是否 吸毒,个人储蓄是多少等。
这类涉及个人隐私或违法行为的敏感性问题,若采 用直接问答的方式,被调查者往往会拒绝回答或故 意作出错误的回答。这样就破坏了数据的真实性, 而且其破坏程度的大小无法度量。
有独立控制配额抽样和交叉控制配的抽样。
独立控制配额抽样只用一个变量进行配额 交叉控制配额抽样采用多个变量进行配额
7
三、配额抽样
独立控制配额抽样之例: 某项调查确定样本量为200人,其中:男性70%,女性
30%。请对抽样进行配额。
男 女 合计
比例 70% 30% 100%
性别
人数 140 60 200
8
三、配额抽样
交叉控制配额抽样之例: 某项调查确定样本量为200人,其中男性70%,女性30%;
农村20%,城市80%。请对抽样进行配额。
男性比例 (70%)
地 农村(20%) 区 城市(80%)
合计
14% 56% 70%
性别
男性 人数
女性比例 (30%)
28
6%
112
24%
140
30%
女性 人数
0.71.35
故总体 A 的置信区间为:
0.565A0.835
35
2、西蒙斯随机化回答模型
西蒙斯模型是1967年由西蒙斯(Simmons)提出的。 其设计思想仍是基于沃纳的随机化回答思想,只是在设计
中用无关的问题Y代替了沃纳模型中的敏感性问题A的对 立问题。这有助于进一步消除被调查者的顾虑。
12 48 60
统计学第六章 抽样估计
(2)通过试访问进行估计 通过试访问的方法,先获得少数一部分样 本的误差数据,然后根据这些数据去计算最终 所需要的样本量,然后再将所需要的样本量完 成。
(3)序贯抽样方法 所谓序贯抽样,是指依次抽取样本,每抽 取一次,进行一次误差计算,直至达到所需要 的精度。
一般做序贯抽样时,会有一张图,如黑板 上图所示。
案例:
假定欲估计喜欢某产品的居民比例在95% 置信度水平下,要求绝对误差小于5%,求样 本量。
本题解法:
但是,如果是相对误差,已知P
五、其他抽样组织形式
1、分层抽样(Stratified Sampling) 2、整群抽样(Cluster Sampling) 3、多阶段抽样(Multi-stage Sampling) 4、设计效应(deff)
序贯抽样的方式操作比较简单,但不适用 于经济调查,一般运用于质量检验中。
(4)成数估计时,使用最大值判断 绝对误差与相对误差 有时候绝对误差很小,但相对误差会很大。
对于绝对误差: 当成数是P时,其标准差为 在成数估计的条件下,方差的最大值为 0.25,因此可以使用最大的方差作为推断最大 样本量的基础。
1、样本平均数的分布
从一个总体中抽出一部分单位,构成一个 样本,可计算出一个样本平均数。
无数次抽选的结果,将会产生无数个样本 平均数,这些样本平均数具有自己的分布形式。
根据大数定理,当样本量超过30时,样本 平均数的分布为正态分布。
2、分布特征
在有放回条件下,简单随机抽样的误差计 算公式如下:
3、多阶段抽样(Multi-stage Sampling)
多阶段抽样的误差计算取决于各阶段的 抽样方式,以最简单的二阶段抽样为例,如 果每一阶段的抽选都是简单随机抽样,一阶 单位的规模相同,则有下列公式:
统计学第六章抽样调查
标 差 总 标 差 、 本 准 s 准 : 体 准 σ 样 标 差
总体参数和样本统计量符号
总体指标符号 总体容量: N 总体平均数: µ 总体成数: P 总体方差: σ2 总体标准差: σ 样本指标符号 样本容量: n 样本平均数: x 样本成数: p 样本方差: S2 样本标准差: S
抽样组织形式
抽样估计效果好坏,关键是抽样平均误差的 抽样估计效果好坏,关键是抽样平均误差的 抽样平均误差 控制。抽样平均误差小, 控制。抽样平均误差小,抽样效果从整体上 看就是好的;否则,抽样效果就不理想。 看就是好的;否则,抽样效果就不理想。 抽样平均误差受以下几方面的因素影响: 抽样平均误差受以下几方面的因素影响:
抽样调查的基本概念 抽样调查的基本概念 重复抽样和不重复抽样
重复抽样:又称有放回的抽样 有放回的抽样,从总体中 重复抽样 有放回的抽样 抽取样本时,每次被抽中的单位都再被 放回总体中参与下一次抽样。 不重复抽样:又称无放回的抽样 无放回的抽样,总体中 不重复抽样 无放回的抽样 随机抽选的单位经观察后不放回到总体 中,即不再参加下次抽样。
µ ( p) =
P (1 − P ) n
不重复抽样条件下: 不重复抽样条件下: 条件下
µ ( p) =
P (1 − P ) n (1 − ) n N
抽样极限误差
样本平均数的抽样极限误差: 样本平均数的抽样极限误差:以绝对值形式 表示的样本平均数的抽样误差的可能范围, 表示的样本平均数的抽样误差的可能范围, 用符号表示为: 用符号表示为:
样本成数
从成数总体中抽取样本容量为n的样本 从成数总体中抽取样本容量为 的样本 样本中具有此种特征的单位占全部样本单位 数的比例称为样本成数,记作p 数的比例称为样本成数,记作p p=n1/n
第六章 抽样
1、目的性原则
指在进行抽样方案设计时,要以课题研究的总体方案
和研究的目标为依据。 以研究的问题为出发点,从最有利于研究资料的获取, 以及最符合研究的目的等因素来考虑抽样方案和抽样 方法的设计。
2、可测性原则
指的是抽样设计能够从样本自身计算出有效的估计
值或者抽样变动的近似值。在研究中通常用标准误
研究总体:是在理论上明确界定的元素的集合体。 调查总体:是研究者从中实际抽取调查样本的个体的集合体。 它往往是对研究总体的进一步界定,即对时间、范围做更进一 步规定。
元素:则是构成总体的基本单位,是搜集信息的单位和 进行分析的基础。
2、样本
样本就是从总体中按一定方式抽取出的 一部分元素的集合。一个样本就是总体的一 个子集。
当一个总体其内部分层明显时,分层抽样能够克服简 单随机抽样的缺点 ,可以提高总体参数估计值的精 确度。 采用分层抽样的最基本目的,在于把异质性较强的总 体分成若干个同质性较强的子总体,以便提高抽样的 效率,达到更好的抽样效果。 有些研究不仅要了解总体的情形,而且还要了解某些 类别的情形,分层抽样可以同时满足这两个要求,因 为我们可以将每一类(层)看作一个总体。此外,对总 体的不同部分还可以采用不同的抽样方法。
(五)评估样本质量:
样本评估:对样本的质量、代表性、偏差等等进行初 步的检验和衡量,其目的是防止由于样本的偏差过大 而导致调查的失误。 方法:将可得到的反映总体中某些重要特征及其分布 的资料与样本中的同类指标的资料进行对比。
四、抽样设计的原则
目的性原则 可测性原则
可行性原则
经济性原则
例如:我们从2000户家庭的社区,抽取50户进
行消费状况的调查,而2000户家庭的名单是按照家庭
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三节 概率抽样方法
1、简单随机抽样 2、系统抽样 3、分层抽样 4、整群抽样 5、多段抽样
一、简单随机抽样
又称纯随机抽样,是概率抽样的最基本形式。 它是按照等概率原则,直接从含有N个元素 中的总体中抽样n个元素组成样本。抽样时 不进行任何分组排列,使总体中的任何个体 都有同等被抽中的机会。 常用的办法是抽签,但对于总体元素很多的 情形,采用随机数表来抽样。
4.抽样单位sampling unit:一次直接的抽样所使用的基
本单位。 从全国高校中抽取100个班级,抽样单位为班级 从全班50人中抽取10人构成小样本,个人(学生)是 抽样单位。
实际抽样中,抽样单位往往是多层次的。如调查家庭,通过县乡-村三级抽样,抽样单位为乡、村、家庭三种,分别为初级抽样 单位、次级抽样单位和终极抽样单位。
(4)在抽样框中,自A开始,每隔K个个体抽取 一个个体,即所抽取个个体编号分别为A,A+K, A+2K,﹍,A+(n-1)K。 (5)将这n个个体合起来,就构成了该总体的 一个样本。 例如在由1000个单位组成的总体中抽取100个样 本。先将1000个总体标上从1-1000的序号,再 在前10个中随机地抽取一个号,如2,再依次抽 取12,22,…,92,组成样本。
非概率抽样则主要依据研究者的主观意愿, 判断或是否方便等因素来抽取样本,它不 考虑抽样中的等概率原则,因而往往产生 较大的误差,难以保证样本的代表性。
分析
概率抽样的方法
简单随机抽样 系统抽样 分层抽样 整群抽样 多段抽样
非概率抽样
1、偶遇抽样 2、判断抽样 3、定额抽样 4、雪球抽样
例2:假设要在一栋公寓建筑物中选择公寓样 本。如果样本是从每个公寓的编码(如101, 102,103,104,201,202,203等等)中抽 出的话,那么所使用的抽样间隔,可能刚好 等于每层楼的户数或是每层楼户数的倍数。 这样选择的样本可能具有共同的特性,从而 产生偏误。
分层抽样(一)
分层抽样又称类型抽样,它是先将总体中的所有单 位按某种特征或标志(如性别、年龄、职业或地域 等)划分成若干类型或层次,然后再在各个类型或 层次中采用简单随机抽样或系统抽样的方法抽取一 个子样本,最后,将这些样本合起来构成总体的样 本。 如对某大学的学生进行分层抽样,首先要将所有的 学生按年级加以分类,然后再分别从一年级、二年 级、三年级和四年级的学生中,各抽出适当数量的 要素组成样本。
第六章 抽样
一、抽样的意义与作用 二、概率抽样的原理与程序 三、概率抽样方法 四、户内抽样与PPS抽样 五、非概率抽样方法 六、样本规模与抽样误差
普遍调查
普遍调查通常简称普查,它指的是对构成总 体的所有个体无一例外地进行调查。比如全 国人口普查,就是对全国所有人口逐个进行 调查。
1998年4,北京市海淀区某街道15-45岁居民对计划
生育的态度。 界定总体是达到良好的抽样效果的前提条件。如果 不清楚明确界定总体的范围与界限,即使采用最严格的 抽样方法,也可能抽出对总体严重缺乏代表性的样本来。
《文学文摘》是一本1890-1938年间美国颇为流 行的新闻杂志。1920年《文摘》杂志通过邮寄明 信片的方式,正确预测了当年的总统大选的结果。 在之后的1924、1928、1932年,也给出了准确 的预测。 但该杂志1936年美国总统大选的民意测 验,尽管调查了200万人,但是却得出了错误的结 果。但当年,盖洛普民意测验所只调查了3000人, 就对投票结果作出了准确的预测。 其中一个很重要的原因便是对抽取样本的总体缺乏 清楚认识和明确的界定。
随机数表中的数 码 8432990906 1053873020 9427410041 0139022507 9361404310 1359866042 6321912683 9420582507 2725651176
选用 的数 码
0906
不选原因
后4位大于3000 0041 2507 后4位大于3000 后4位大于3000 2683 与所选第3个数重
系统抽样(二)
需要注意的是,系统抽样有一个十分重要的前提 条件,就是总体中个体的排列相对于研究的变量来说, 应是随机的,即不存在某种与研究变量相关的规则分 布。否则,系统抽样的结果将会产生极大的偏差。 例1:在一项有关二战士兵的经典研究中,研究人员 从名册中每隔10个士兵抽出一个来进行研究。然而士 兵的名册时以下列组织方式来编排的:首先是中士, 接着是下士,其后才是二等兵;用一班一班的方式进 行编排,每班10个人。因此次名册中每隔10个就是中 士。如此系统抽样可能会得到一个完全是中士的样本, 也可能会得到一个完全不含中士的样本。
6.参数值/总体值
——是对总体元素特征的综合数量表现。 例如:全国妇女平均受教育年限 参数值只有通过总体的每一个元素都进行调查 或测量才到。
7.统计值/样本值
——是关于调查样本中的某一变量的综合描
述。
例如从一个样本中得到的妇女平均受教育年
限。
8 .抽样误差 样本代表性大小的一个标准,是用样本的统 计值推算总体的参数值是存在的偏差。 抽样中因误抄、计算错误等人为过失和其 他一些因违反随机原则而产生的误差并不是 抽样误差。
三、抽样设计的原则
1、目的性原则
即要以课题研究的总原则
指的是抽样设计能够从样本自身计算出有效的估计值或 抽样变动的近似值。
3、可行性原则
研究者所设计的抽样方案必须在实践中切实可行。
4、经济性原则
抽样方案的设计要与研究的可的资源相适应。
在各种随机事件的背后,存在着事件 发生的客观概率,这种概率决定着随 机事件的发展变化规律。概率抽样能 够很好地按总体内在结构中所蕴含的 各种随机事件的概率来构成样本,使 样本成为总体的缩影。
二、抽样的一般程序
1.界定总体 对抽取样本中的总体范围与界限作明确的界定。清 楚地说明研究对象的范围(时间、地点、人物),如
二、概率抽样的原理与程序
概率抽样的基本原理 抽样的一般程序 概率抽样的原则
一、概率抽样的基本原则
在概率抽样的过程中,我们要保证总体中的 每一个个体都有同等的机会入选样本,而且, 任何一个个体的入选与否,与其他个体毫不 相关、互不影响。(单选) 当总体情况不明时,无法做到随机抽样。
利用随机数表抽样的具体步骤: (1)先取得一份总体所有元素的名单(抽样框); (2)将总体中所有元素一一按顺序编号; (3)根据总体规模是几位数来确定从随机量表中选几 位数; (4)以总体规模为标准,对随机数表中的数码逐一进 行衡量并决定取舍; (5)根据总体规模的要求选择出足够的数码个数; (6)依据从随机数表中选出的数码,到抽样框中找出 它所对应的元素。
1176
简单随机抽样的特点: 简单随机抽样是概率抽样的理想类型,没有偏 见,简单易行,且在从随机样本的抽样到对总 体进行推断时,有一套健全的规则。 但是,当总体所含个体数目太多时,采用这种 抽样方式不仅费时多,工作繁杂且费用太高。 此外,这种抽样方法,在构成总体的个体差异 不大时,用之比较有效,而在总体异质性较高 时,误差较大。
是构成它的所有元素的集合。
人口普查——全国人口
某省大学生择
业观念调查——某省全体大学生
2.样本sample:从总体中按一定方式抽取 出来的一部分元素的集合,是总体的一个子 集。
从某省大学生总体中抽取1000名大学生,所 抽取的1000名大学生就构成一个样本。 3.抽样sampling:从总体中按一定方式抽取 样本的过程。 从17000名在校大学生构成的总体中,按照一 定方式抽取200名学生的过程。
普遍调查的特点
工作量大,费时、费力、费钱。 资料准确,适用了解总体的基本情况。 需要高度集中的组织和高度统一的安排。 调查项目不能多,只能了解某一方面必不 可少的基本情况。
二、抽样调查
抽样调查就是从所研究的总体中,按照一定 的方式选取一部分个体进行调查,并将从这 部分个体中所得到的调查结果推广到总体中 去。
抽样调查的特点(一)
抽样调查非常节省时间、人力和财力,这也 许是抽样调查最突出的优点。 抽样调查可以十分迅速地获得资料数据。
抽样调查的特点(二)
抽样调查可以比较详细地收集信息,获得内 容丰富的资料。 应用范围十分广泛。 准确性高。
第一节 抽样的意义与作用
一、抽样概念
1.总体population:调查研究的全部事物,
5.抽样框sampling frame:也称抽样范围,指一 次直接抽样时总体所有抽样单位的名单。
从某校的全体在校生中,直接抽取200名大 学生作为样本,该校全体学生名单就是该次抽 样的抽样框。
抽样框的数量抽样单位的层次相对应。 如对家庭的抽样中,有三个层次的抽样单位: 乡、村、家庭,则对应的抽样框也有三个:全 部乡的名单、乡样本中所有村的名单、村样本 中所有家庭的名单。
对样本的质量、代表性、偏差等等进行初步 的检验和衡量,防止由于样本的偏差国大导 致的失误。基本的方法是将可得到的反映总 体中某些重要特征及其分布的资料与样本中 的同类指标的资料进行对比。差别小,则说 明样本质量高。
样本评估实例
1 用小学生中独生子女的比重这一指标来衡量。 在现有资料,有两个结果与本研究所抽取的小学 生样本口径一致成或相似,可用作比较的参考对 象。 2 章永生1989年对北京两所小学1-6年级12个班及 三所中学18个班的调查结果,独生子女在小学生 中的比重为51.9%,非独生子女比重为48.1%,而 在风笑天研究的小学生样本中,二者的比重分别 为56.9%和43.1%,相差不大。
系统抽样(一)
系统抽样又称等距抽样或机械抽样。它是把总体的单位 进行编号排序后,再计算出某种间隔,然后按这一固定 的间隔抽取个体的号码来组成样本的方法。 具体步骤 (1)给总体中的每一个个体按顺序编号,即制定出抽 样框。 (2)计算出抽样间距。计算方法是用总体的规模除以 样本的规模。假设总体规模为N,样本规模为n,那么抽 样间距K就由下列公式导出: K= N÷ n (3)在最前面的K个个体中,采用简单随机抽样的方法 抽取一个个体,记下这个个体的编号A,称为随机起点。