抽样技术七章
第七章 抽样设计与推断(改)
第七章抽样设计与推断第一节抽样设计一、抽样推断与抽样设计的概念(一)抽样推断抽样推断(Sampling inference)是在抽样调查的基础上,利用样本的实际资料计算样本指标(统计量),并据以推算总体相应特征值(总体参数)的一种统计分析方法。
抽样推断具有如下特点:第一,抽样推断是建立在随机取样的基础上。
按随机原则抽取样本单位,是抽样推断的前提。
所谓随机原则就是在抽选调查单位的过程中,完全排除人为的主观因素的干扰,以保证使现象总体中的每一个个体都有一定的可能性被选中。
换句话讲,哪些单元能够被选作调查单位纯属偶然因素的影响所致。
这里需说明几点:①随机并非“随意”。
随机是有严格的科学含义的,可用概率来描述,而“随便”仍带有人为的或主观的因素,它不是一个科学的概念;②随机原则不等于等概率原则;③随机原则一般要求总体中每个单元均有一个非零的概率被抽中;④抽样概率对总体参数的估计有影响。
只有坚持抽取的随机原则,才能使被抽中单位的频数分布类型与调查对象相同,从而增强被抽中单位对总体的代表性,达到推断总体的目的。
第二,抽样推断是由部分推算整体的—种认识方法。
即对抽取的调查单位进行调查研究,取得调查单位的实际资料,计算出调查单位的指标数值,并据以推断和估计总体的指标数值。
第三,抽样推断以概率论中的大数法则和中心极限定理为理论依据。
第四,抽样误差可以事先计算和控制。
抽样调查除具有十分明显的特色之外,还在实际应用过程中发挥着突出的作用。
其一,抽样调查能够解决全面调查所无法解决的现象的调查问题。
在实际工作中,对某些现象常常可能一方面需要了解其全面情况,另一方面又由于现象自身的特性决定了无法通过全面调查获取资料。
此时,只有使用抽样调查。
该类现象主要有:(1)产品质量的破坏性检验。
如轮胎的里程寿命试验,青砖的抗折耐压试验,炮弹的杀伤力试验,弹簧的抗拉强度试验等等。
(2)无限总体的调查。
无限总体所包含的总体单位数目无限多个,无法一一调查。
第七章 抽样调查技术
13
一、简单随机抽样
(一)具体操作步骤:
第一,对总体的每个单位进行编号,总体单位数 为10,000的总体可编为00 001到期10,000号;
第二,在随机数码表(一般的数理统计书中都有 此表)中从任意一个编号数开始,向上、向下或 跳跃选取编号,在00 001和10,000之间选出200个 (样本单位数);
5
2015/12/22
(二)样本总体
概念: 也称抽样总体(sampled population)或者“子 样”、“样本”,是指从全及总体中抽取出来的 单位集合。 大样本与小样本: 样本总体通常是有限总体,它所包含的的总 体单位数目称为样本容量(通常用英文字母n来表 示)。一般来说,样本单位数达到或者超过30个 称为大样本,而在30个以下的称为小样本。
第二,等距抽样的效率取决于对总体进行 排列时所使用的标志值。在等距抽样中, 调研人员假设总体是有序的。
2015/12/22
23
三、分层抽样
(一)分层抽样的具体步骤 (二)分层抽样的方法 (三)分层指标的选择 (四)分层抽样的优缺点 (五)分层抽样适用的范围
2015/12/22
24
假如我们要进行北京市居民家用电器的拥 有状况调查,采用整群抽样方法,那么, 我们在北京市3,600个居民委员会中随机抽 取20个居委会,这20个居委会中的所有户都 成为我们的调查样本。
2015/12/22
32
(二)采用整群抽样的原因
原因一:当缺少基本单位的名单而难以 直接从总体中抽取所要调查的基本单位。 原因二:即使容易获得个体的抽样框, 但从费用上考虑,直接从个体抽样获得 的样本可能比较分散。 原因三:采用整群抽样是抽样调查本身 目的的需要。 原因四:如果某些总体的各个子总体之 间的差异不大。
抽样技术第7章-复合抽样
• 我们已经知道了复合调查大部分的组成部 分:随机抽样,比估计,分层和整群。现 在来看怎样把它们综合应用于一个抽样设 计中。
7.1.1 构建调查的框架
• 1.有放回的整群抽样 选取一个包含n个群 (psu)的有放回的样本,群i被选取的概率为
• ψi,群i的总量估计用 表示,然后用n个
值.
作为对总值的估计,并以此作为
7.2.2 自加权和非自加权样本
• 在自加权调查中,各个观测单元的抽样权重是 相等的,在没有无回答误差的情况下,自加权样本 被认为能代表总体,因为样本中每个观测单元代表 了总体中相同数目的未观测单元。除此之外,自加 权样本通常有较小的方差,样本统计量也更精确 (Kish 1992)。
• 自加权设计与等概率抽样是不同的概念。等概 率抽样是要求在一次抽样过程中,每个单元具有相 同的入样概率;自加权设计要保证每个单元最终入 选样本的概率相同。
3、估计每个地区有诊所的村庄的蚊帐总数,由于村 庄是从人口比例适中的地区抽取的,所以应用第6 章中的相关公式来估计总数及其方差。在无诊所 的村庄中应用同样的方法。
4、将每层(有诊所和无诊所的村庄)的蚊帐 总数加起来,估计每个地区的蚊帐总数, 将每层的估计方差相加得到地区的估计方 差。
5、现在,我们得到了每个地区的蚊帐估计总 数,应用两阶段整群抽样的相关计算公式 来估计每种地理区域总的蚊帐数。
这里 Ωhj 抽样权重可以看作是样本观测值 所 代表的总体观测值的数目。第h层中第j个单元入样
的概率为
,因此,抽样权重就是单元入
样概率的倒数:
。
抽样权重的加总就是总体大小N,每个抽样单元代 表了总体中一定数量的单元,因此,整个样本就代 表了整个总体。
• 分层抽样中的估计 是:
统计学课件-第七章抽样调查
分层抽样特点
03
04
05
适用于总体内部差异较 大的情况,能够提高样 本的代表性。
可以根据各层的具体情 分层抽样能够降低抽样 况采用不同的抽样方法, 误差,提高估计的精度。 灵活性强。
分层标准选择与确定
选择分层标准的原则
各层之间具有明显的 区分度,避免出现重 复或遗漏。
与调查目的密切相关, 能够反映总体内部差 异的标志。
3
灵活性高,可以在不同阶段采用不同的抽样方法 和技术。
多阶段抽样优缺点分析
• 节约成本,减少调查人员和资源的需求。
多阶段抽样优缺点分析
抽样误差可能增加
01
由于多阶段抽样的复杂性,可能导致抽样误差的增加。
对抽样设计的要求较高
02
需要仔细设计和规划每个阶段的抽样方法和样本量分配,以确
保抽样的有效性和代表性。
抽样调查作用
抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料, 因而,也可起到全面调查的作用。
抽样方法与类型
抽样方法
简单随机抽样、系统抽样、分层抽样和整群抽样。
抽样类型
概率抽样和非概率抽样。
抽样误差与置信水平
抽样误差
是指由于随机抽样的偶然因素使样本各单位的结构不足以代 表总体各单位的结构,而引起抽样指标和全局指标的绝对离 差。
成本考虑
当总体差异较大时,简单随机抽样的 精度可能受到影响。
对于大规模调查,简单随机抽样可能 需要较高的成本。
实施难度
在某些情况下,获取完整的抽样框可 能较为困难。
03 分层抽样技术及应用
分层抽样原理及特点
01
02
分层抽样原理:将总体 按照某种特征或标志分 成若干层,然后从每一 层中随机抽取一定数量 的样本,最后将这些样 本合并起来构成总体的 样本。
抽样技术第七章整群抽样ppt课件
NM
NM
故有 可推得
NM
2
(Yij Y )(Yik Y )
c
i1 jk
(M 1)(NM 1)S 2
c
1
NMSw2 (NM 1)S 2
1
Sw2 S2
13
ρc可估计为
ˆc
sb2
sb2 (M
sw2 1) sw2
y 的方差可写成如下形式:
《抽样技术》第七章
1
第七章 整群抽样
§7.1 概述 §7.2 群大小相等的情形 §7.3 群大小不相等的情形 §7.4 按与群大小成比例的不等概率抽样抽群
2
§7.1 概述
设总体由N个大单元,即初级单元组成,每个初级 单元又由若干个较小的次级单元或二级单元组成。 从总体中按某种方式抽取n个初级单元,观测其中所 包含的所有次级单元。这种抽样称为整群抽样。确 切地说,应称为单阶整群抽样。
1N N 1 i1
Yi Y
2 1 f nM
Sb2
s2 y 1 f
n
1 n
n 1 i1
yi y 2
1 f nM
sb2
其中f=n/N为抽样比。可见,sb2 是Sb2的无偏估计。
8
当n足够大时,总体均值Y 的置信度为1−α的置信区 间为:
y u 2s y
例7.1 在一次某城市居民小区居民食品消费量调查 中,以每个楼层(相当于居民小组)为群进行整群抽 样。每个楼层都有M=8个住户。用简单随机抽样在 全部N=510个楼层中抽取n=12个楼层。全部96个 样本户人均月食品消费额yij及按楼层的平均数yi 与 标准差si ,如下表所示。试估计该居民小区人均食 品消费额的户平均值 ,并给出其0.95的置信区间。
第七章抽样技术
随机数表法
随机数表法:又称乱数表法,其操作过程如下:先将 总体中的每个个体随机编号,然后从随机数表的任一 位置开始,或向左,或向右,或向上,或向下,或一 定间隔向一个固定方向顺序取数,选定的数字所对应 的单元即入样,重复的数字和没有对应单元的数字去 掉,直至抽足所需样本量为止。要注意的是,所有号 码的位数均应相同。
户转人表(KISH表)
1、确定户编号; 2、确定该户中符合调查对象条件的人数; 3、将符合条件的人按年龄大小的顺序排列; 4、查户转人随机抽样程序表,确定何人为被 调查的对象。
选择 户编号
尾数
1
2
3
4
5
6
7
8
9
0
符合条件数
1
2 3 4 5 6 7 8 9
1
2 1 3 4 5 6 7 8
抽样技术的类型 ★随机抽样与非随机抽样的涵义 ★随机抽样与非随机抽样的适用条件
抽样技术
随机抽样技术 非随机抽样技术 误差的来源
随机抽样技术 ★简单随机抽样 ★分层抽样 ★分群抽样 ★系统抽样 非随机抽样技术 ★便利抽样 ★判断抽样 ★配额抽样 ★滚雪球抽样
误差的来源 ★抽样误差
误差来源 与计算
抽样误差的计算 非抽样误差的计算
抽样技术的类型
抽样技术
随机抽样
简 单 随 机 抽 样 分 层 随 机 抽 样 分 群 随 机 抽 样
非随机抽样
系 统 抽 样
任 意 抽 样
判 断 抽 样ቤተ መጻሕፍቲ ባይዱ
配 额 抽 样
滚 雪 球 抽 样
随机抽样与非随机抽样的含义
随机抽样(probability sampling):也称概 率抽样,就是总体中的每一个体都具有相等的 机会被抽取为样本单位的抽样技术。 非随机抽样(non-probability sampling): 也称非概率抽样,指调研总体中的每一个体被 抽取的机会不平等。
第7章 抽样方法
分层抽样
所谓分层抽样,就是先依据某一种或某几种 特征,将总体划分成几个小的部分,每一个 部分称为一层或一类。然后,在每一个层次 中,采取简单抽样或系统抽样的方法抽取一 个子样本,最后,将这几个子样本合起来构 成总体的样本。
例如:某地共有居民20000户,按经济收入高低进 行分类,其中高收入的居民为4000户,占总体的 20%;中收入的居民为12000户,占总体的60%; 低收入的居民为4000户,占总体的20%。要从中抽 选200户进行购买力调查,则各类型应抽取的样本 单位数为: 经济收入高的样本单位数目为:200*20%=40户 经济收入中的样本单位数目为:200*60%=120户 经济收入底的样本单位数目为:200*20%=40户
较适用于同质性较高的总体
同学练习:
某学校有200位学生,采用等距离抽样方法抽 10个学生做样本。假设抽中的第一位学生排 在第三位,请问其他的样本单位的号码为?
整群抽样
整群抽样先要把调查总体划分为若干个群体, 然后用单纯随机抽样法,从中抽取某些群体 进行全面调查。 例如,要调查家庭副业发展情况,不是直接 抽取居民户.而是以村为单位,从中抽取若 干自然村,然后对中选村的全体居民户进行 调查。
• 样本平均数 x=∑xi / n • 样本标准差 S=√∑(xi- x)2 /n • 样本方差 S2=∑(xi - x)2 /n
6.总体与样本的相互关系 总体与样本的相互关系 样本是总体的缩影。 一次抽样时,一个样本单位必然同时又是一 个总体单位。但一个总体单位却不一定是一 个样本单位。 对一定的调查目的而言,总体是唯一的,样 本则不然。
第七章 抽样调查
胡林娜 温州职业技术学院
7.1抽样调查的基本概念
1.抽样调查的含义 抽样调查是按照一定的规则从总体中抽取 一部分个体单位作为样本,通过对样本的调 查研究所获得的信息资料,来推断总体的信 息资料的方法;因而抽样调查也称作抽样推 断。
第7章抽样调查和现场调查
(1)随机抽样技术的优点 ①随机抽样是从总体中按照随机原则抽取一部分单 位进行的调查 ②随机抽样技术能够计算调查结果的可靠程度 (2)随机抽样技术的不足 ① 对所有调查样本都给予平等看待,难以体现重点。 ② 抽样范围比较广,所需时间长,参加调查的人员 和费用多。 ③ 需要具有一定专业技术的专业人员进行抽样和资 料分析。一般调查人员难以胜任。
• (4)分层随机抽样技术
• 又称为分类随机抽样技术,是把调查总体按其属性
不同分为几个层次(或类型)然后在各层(或类型) 中随机抽取样本。
• 【观念应用7-2】 • 某地共有居民20000户,按经济收入高低进行分类, 其中高收入的居民为4000户,占总体的20%,中 收入为12000户,占总体的60%,低收入为4000 户,占总体的20%。要从中抽选200户进行购买力 调查,则各类型应抽取的样本单位数为:经济收 入高的样本单位数目为:200×20%=40(户)经 济收入中的样本单位数目为:200×60%=120(户) 经济收入低的样本单位数目为:200×20%=40 (户) • 【分析提示】样本单位数的抽取是按各种经济收 入的单位数量占总体单位数量的比例进行样本的 抽选。
• (3)分群随机抽样技术 • 分群随机抽样技术,又称整群抽样技术,是把调 查总体区分为若干群体,然后用单纯随机抽样法, 从中抽取某些群体进行全面调查。 • 运用分群抽样技术抽取样本,先要把调查总体区 分为若干个群体,然后用单纯随机抽样法,从中 抽取某些群体进行全面调查。如果不是对所抽取 的群体进行全面调查,而是进一步划分为若干个 小群体,再按随机原则抽取一个或一部分小群体 来调查,称为多段分群抽样。 • 运用分群抽样技术抽取样本,抽选工作比较简易 方便,抽中的单位比较集中,但是由于样本单位 集中在某些群体,而不能均匀分布在总体中的单 位,如果群与群之间差异较大,则抽样误差就会 增大。
7第7章 质量检验及抽样技术
27
二、抽样检验常用术语
7.不合格品:有一个或一个以上不合格的单位产品。
不合格品类型 A类 含义 又叫致命不合格品。有一个或一个以上A类不合格的 单位产品,也可能其中还有B类和/或C类不合格。 又叫严重不合格品。有一个或一个以上B类不合格的 单位产品,也可能其中还有C类不合格,但没有A类 不合格。 又叫轻微或一般不合格品。有一个或一个以上C类不 合格的单位产品,但没有A类和B类不合格。
32
二、抽样检验常用术语
13、接收质量限AQL:当一个连续系列批被提交验 收抽样时,可允许的最差过程平均质量水平。 • 接收质量限是对生产方的过程质量提出的要求, 是允许的生产方过程平均(不合格品率)的最大 值。 14、连续批: 待检批可利用最近已检批所提供质量 信息的连续提交检查批 ,称为连续批。 15、孤立批:指脱离已生产或汇集的批系列,不属 于当前检验批系列的批次,如:虽然连续生产20 批,但被20个客户购买,对每个客户而言,都是 得到1个孤立批。
11、批每百单位产品不合格数(计点):批中每百个单位产
品平均包含的不合格数,即C(批中的不合格数) / N(总体
或批量) ×100
30
二、抽样检验常用术语
12、过程平均不合格品率:在规定的时段或生产 量内平均的过程质量水平,即一系列初次交检 批的平均质量。
• 假设有k批产品,其批量分别为N1,N2,…,Nk, 经检验,其不合格品数分别为D1,D2,…,Dk, 则过程平均不合格率为:
抽样检验是本章讨论的主要内容。
10
四、质量检验的分类
3、按最多抽取的样本数分
• 一次抽样检验:就是从检验批中只抽取一个样本就能够对 该批产品做出是否接收的判断; • 二次抽样检验:最多抽取两个样本就能够对该批产品做出 是否接收的判断; • 多次抽样:在我国,允许最多抽取5个样本就能够对检验 批作出接收与否的判断; • 序贯抽样检验:不限制抽样次数,每次只抽取一个单位产 品(即样本量为1 ),直至能够判断批产品是否合格为止。
抽样技术 5 整群抽样
2.群内相关系数:是表达总体中群内小单元间相关程度 的一个指标。 定义:
(Y
E (Yij Y )(Yik Y ) E (Yij Y )
2 i 1 j k
N
M
ij
Y )(Yik Y )
2 NCM 2 ( Y Y ) ij i 1 j 1 N M
NM 2 (Yij Y )(Yik Y )
学生2
学生3 学生4 学生5 学生6
83
74 82 66 87
83
79 111 101 69
89
94 109 79 80
105
98 107 129 90
99
132 87 99 124
100
116 99 107 105
115
117 99 106 120
80
63 130 105 86
试估计该学校平均每个学生每周的零花钱,并给出置信 度为95%的置信区间。
11 22 17 26 16 27
12 33 17 40 24 17
13 15 10 4 6 8
14 17 18 12 11 10
15 13 9 5 7 9
16 18 23 13 15 8
17 33 5 26 30 11
18 26 15 13 17 3
19 7 32 4 6 9
20 15 1 1 6 5
2 ( Y Y ) i N
Y
N 1
i
Y
2
N 1
5.2 群规模大小相等时的估计
3、 V ( y ) 的样本估计为
1 f 2 1 f v( y ) sb nM n
M n s ( yi y)2 n 1 i 1
第七章审计抽样
• 非统计抽样 也称判断抽样 , 是指审计人 非统计抽样也称 判断抽样 也称 判断抽样, 运用专业经验和主观判断, 员 运用专业经验和主观判断 , 有目的地 从特定审计对象总体中抽取部分样本进 行审查, 行审查 , 并以样本的审查结果来推断总 体特征的抽样审计方法。 体特征的抽样审计方法。 • 采用这种方法能否取得成效, 取决于审 采用这种方法能否取得成效 , 计人员的经验和主观判断能力。 计人员的经验和主观判断能力。
• 广泛采用统计规模 – 总体各项目被抽取的机会是均等的 , 总体各项目被抽取的机会是均等的, 可以防止主观判断和随意性 – 能够计算抽样误差在预定范围内的概 并根据抽样推断的要求, 率 , 并根据抽样推断的要求 , 把这种 误差控制在预定范围之内 – 能够提高审计效率 , 并促使审计工作 能够提高审计效率, 规范化。 规范化。
• 抽样单位是指构成审计对象总体的单位 抽样单位是指构成审计对象总体的单位 是指构成审计对象总体的 项目。 项目。 • 审计人员应当根据审计目标及被审计单 位实际情况确定抽样单位。 位实际情况确定抽样单位。
(三)抽样风险和非抽样风险
• 审计抽样只与控制风险和检查风险相关。 审计抽样只与控制风险和检查风险相关。 只与控制风险和检查风险相关 • 审计人员在运用抽样技术时,会遇到两方 审计人员在运用抽样技术时, 面的不确定性因素 不确定性因素: 面的不确定性因素: – 直接与抽样相关的因素,由此造成的不 直接与抽样相关的因素, 确定性称为抽样风险 确定性称为抽样风险 – 与抽样无关的因素,由此造成的不确定 与抽样无关的因素, 性称为非抽样风险 性称为非抽样风险
• 非统计抽样可能比统计抽样花费的成本 要小, 要小,但统计抽样的效果则可能比非统 计抽样要好得多。 计抽样要好得多。 • 统计抽样能使审计人员量化控制抽样风 统计抽样能使审计人员量化 量化控制抽样风 险 • 广泛采用统计抽样的理论依据 广泛采用统计抽样的理论依据 – 有科学的数学依据 – 有健全的内部控制制度 – 有合理的经济依据
第七章整群抽样
第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
假如总体中的单元能够分成多级,则能够对前几级单元采纳多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最差不多单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采纳整群抽样的两个理由:- 抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采纳面访时更是如此;- 从总体中直截了当抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括两步:第一,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。
假如总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而能够创建地域框。
群的抽取能够采纳简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样一样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍旧是总体差不多单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。
因此,群间差异的大小直截了当阻碍到抽样误差的大小,而群内差异的大小则不阻碍抽样误差。
抽样技术第7章
n 表7—1 某银行客户的样本数据
抽样技术第7章
抽样技术第7章
抽样技术第7章
4.二重分层抽样样本量的最优分配
n 二重分层抽样中有两次抽样,这两次抽样的样本量,即 n'和 n,直接影响估计的精度。
n 第一重抽样 n'越大,对分层信息的了解和估计就越精 确,从而可以减少估计量的方差;同样,第二重抽样 n越 大,估计量的方差越小。
抽样技术第7章
二重抽样与两阶段抽样
n 二者都可被视为分阶段抽样方法; n 差异:
n 两阶段抽样是先从总体N个单元(初级单元)中抽出n个样 本单元,却并不对这n个样本单元中的所有小单元(二级 单元)都进行调查;二重抽样则不同,要对第一重(相)样本
进行调查以获取总体的某些辅助信息。
n 两阶段抽样的第一阶段抽样单位和第二阶段抽样单位往 往是不同的;而二重抽样的第二重样本则往往是第一重 样本的子样本。
n 关于二重抽样对无回答数据的调整估计量参见第10章的相关 内容。
抽样技术第7章
三、为比率的二重抽样
抽样技术第7章
1.二重抽样比估计的抽样方法
抽样技术第7章
2.二重抽样的比估计及其性质
抽样技术第7章
抽样技术第7章
抽样技术第7章
抽样技术第7章
【例7.2】
n 某住宅小区共有200个住户,现欲估计小区住户家庭月平均收入 的平均水平。家庭收入的数据不易调查,而家庭支出的资料相 对容易获取,而且家庭月平均收入与家庭月平均支出之间强相 关,因此拟采用二重抽样比估计方法。先从住户中随机抽取100 个住户作为第一重样本,调查家庭月平均支出,结果家庭月平均 支出的样本均值为1 500元;然后从这100个住户中随机抽选10 户作为第二重样本,调查家庭月平均收入和家庭月平均支出,资 料见表7—2。试估计该小区家庭月平均收入,并计算估计量标 准误差。
第七章 抽样技术测验
抽样技术测验一、填空题1、抽样调查是按照_____________从总体中抽取一部分单位进行观测,并根据这部分单位的资料推断______________的一种方法。
2、抽样调查的组织方式主要有_______________ 、_______________ 等距抽样和整群抽样等。
3、在抽样推断中,按照随机原则从总体中抽取出来的那一部分单位叫做___________4、____________是抽样调查中不可避免和误差。
5、提高估计和区间估计必须具备____________、误差范围和___________三个基本要素。
6、简单重复抽样情况下,如果其他条件不变,仅将误差范围缩小1/2,则抽样单位数目必须__________;若将误差范围扩大一倍,则抽样单位数目将__________。
二、单项选择题1、在抽样推断中,必须遵循()抽取样本。
A 随意原则B 随机原则C 可比原则D 对等原则2、能够事先加以计算和控制和误差是()A 抽样误差B 登记误差C 系统性误差D 测量误差3、抽样调查的主要目的在于()A 计算和控制抽样误差B 了解全及总体单位的情C 用样本来推断总体D 对调查单位作深的研究4、某企业连续生产,为检查产品质量,在24小时中每隔30分钟取下一分钟的产品进行全部检查,这是()A 整群抽样B 简单随机抽样C 类型抽样D 纯随机抽样5、在抽样调查中,无法避免的误差是()A 登记误差B 系统性误差C 计算误差D 抽样误差6、置信区间的大小表达了区间估计的()A 可靠性B 准确性C 显著性D 及时性7、抽样推断中的概率保证程度表达了区间估计的( )A 显著性B 准确性C 可靠性D 规律性8、样本指标和总体指标()A 前者是个确定值,后者是个随机变量B 前者是个随机变量,后者是个确定值C 两者均是确定值D 两者均是随机变量9、对标志变异程度较大的总体进行抽样调查时,宜采用()A 纯随机抽样B 等距抽样C 类型抽样D 整群抽样10、成数方差的最大值,是当P值趋近于()A 0.1B 0.9C 0.8D 0.511、计算必要抽样数目时,若总体方差末知,应当从几个可供选择的样本方差挑选出数值()A 最小的B 任意的C 最大的D 适中的12、在同等条件下,重复抽样与不重复抽样相比较,其抽样平均误差()A 前者小于后者B 前者大于后者C 两者相等D 无法确定哪一个大13、允许误差反映了样本指标与总体指标之间的()A 抽样误差的平均数B 抽样误差的标准差C 抽样误差的可靠程度D 抽样误差的可能范围14、根据组(群)间方差的资料计算抽样平均的抽样组织方式是()A 纯随机抽样B 机械抽样C 类型抽样D 整群抽样15、从1、2、3、4、5,五个数构成的总体中不重复地随机抽取两个作为样本,则对于所有可能样本的样本均值,以下说法正确的是()A 样本均值的实际抽样误差的最大值为2B 样本均值为3的概率是25%C 样本均值为3的概率为40%D 以上都不对三、多项选择题1、影响抽样误差的主要因素有()A 抽样数目的多少B 总体标志变异程度的大小C 不同的组织方式D 抽样周期的长短E 不同抽样方法2、要提高抽样推断的精确度,可采用的方法有()A 增加样本数目B 减少样本数目C 缩小总体被研究标志的变异程度D 改善抽样的组织方式E 改善抽样的方式3、要增大抽样推断的概率保证程度,可采用的方法有()A 增加抽样数目B 增大概率度C 增大抽样误差范围D 缩小抽样误差范围E 缩小概率度4、在简单重复随机抽样条件下,欲使误差范围缩小1/2,其他要求保持不变,则样本容量必须()A 增加2倍B 增加3倍C 增加到4倍D 减少2倍E 减小3倍5、在区间估计中,如果其他条件保持不变,概率保证程度与精确度之间存在下列关系()A 前者愈低,后者也愈低B 前者愈高,后者也愈高C 前者愈低,后者愈高D 前者愈高,后者愈低E 两者呈相反方向变化6、由于以下原因引起的误差中,不属于抽样误差的是()A 被调查者隐瞒了自己的非法收入,将自己的月收入填报为1000元B 由于调查员的失误,将数字1568填报为1658C 入户调查时被调查者不在家,调查根据自己的估计将户主的收入填报为1500元D 调查者按自己的主观愿望选择样本单位所造成的误差E 以上都不对7、根据抽样调查,某地区10户居民家庭月消费(元)与月收入的资料,配合了反映家庭消费收入关系的回归方程。
第七章市场调查方式(抽样技术)
具体做法: A、抽签法(有重复和不重复抽样两种选择)
先给调查总体的每个单位编号,然后将号码写在卡片上搅拌均匀, 任意从中抽选,抽到一个号码,就对上一个单位,直到抽足预先 规定的项目为止。适用于总体单位较少的情况。
B、乱数表(随机数表)法 优点:完全排除了抽样中主观因素的干扰、简单易行 缺点:在调查总体单位差异小(同质总体)情况下,调查结果 具有代表性,否则会产生较大误差 适用范围:总体单位明确、总体单位数较少、总体各单位间差 异程度较小
14
1
合 计
1 30
50
20
100
第四步:具体抽样 优点:较简单易行、准确度较高;节省费用, 能较快地获得市场信息 缺点:若调查者对调查总体不了解,会产生较 大误差 适用范围:调查者对调查总体了解
(二)随机抽样
严格按随机原则从调查总体中 抽取样本单位的调查方式。
1、简单随机抽样(纯随机抽样)
含义:在总体单位中,不进行任何有目的 的选择,完全按随机原则抽取样本单位 的方式。
具体做法:
第一步:对样本总体进行分类; 第二步:确定每类样本的分配数额; 第三步:编制样本交叉配额分配表; 第四步:具体抽样 仍以上例为例,采用相互控制配额抽样 第一步、第二步(略) 第三步:编制样本交叉配额分配表
高收入 民族 汉 族 回 族 其他民族
中收入
低收入
合计
21 8
35
14 6 0
70 28 2
2、分层随机抽样(类型随机抽样、分类 随机抽样)
( 1 )含义:将总体单位按某一标准(有关标 志)分组,然后在各个类型组中,按随机原 则抽取样本单位的方式。 (2)具体做法: 第一步:选择有关标志对总体进行划分; 第二步:确定各组的样本分配数额 方法:等比例和不等比例 等比例:ni = n× (Ni / N) 不等比例: ni = n×(Ni· Si /∑Ni· S i)
07第七章等距抽样
第一节 第二节 第三节 第四节
等距抽样概述 等距抽样的实施方法 总体参数的估计 其它形式的等距抽样
第一节 等距抽样概述
一、等距抽样的概念
等距抽样也称系统抽样或机械抽样。它是将总体 各抽样单元按一定的标志和顺序排列以后,每隔 一定的距离(间隔)抽取一个单元组成样本进行调 查。
(一)估计量
设等距样本为表中第i列单元,且i是随机决 定的,总体均值的估计量用表示,则:
ysy
yi
1 n
n j 1
yij
是 Y 的无偏估计。
若N≠nK,则上述估计量是有偏的,但当n充
分大时,其偏倚可以充分小。
(二)估计量的方差
如前所述,如果总体单元是按无关标志排 列的,则其方差可按简单随机抽样去做。 若总体单元是按有关标志排列的,则此时 的等距抽样可以看作是整群抽样或分层抽 样的特例,因此,等距抽样估计量的方差 可以比照整群抽样或分层抽样的方法构造, 有几种表示方法。
(5)若总体中的单元呈周期性的变化,等 距抽样的精度可能很高也可能很差。这时 要慎重地选择K。
第二节 等距抽样的实施方法
一、随机起点等距抽样 二、循环等距抽样 三、中点等距抽样 四、对称等距抽样法 五、两端修正法 六、总体有周期性变化时的等距抽样 七、累计和等距抽样
一、随机起点等距抽样
法,设i为1~N中的随机数。 (1)若i+(n-1)K≤N,这时n个样本单元不经
过yN,则第1个样本单元和第n个样本单元 的权数分别为:
1 n[2i (n 1)K (N 1)] 2(n 1)K
(2)若i+(n-1)K>N,设yN以后的样本单元有 n2个,则第1个样本单元和第n个样本单元 的权数分别为:
第七章审计抽样技术的应用..
4.定义误差构成的条件
(1)在控制测试中,误差是指控制偏差率;
(2)在细节测试中,误差是指认定的错报金额。
5、确定样本规模
◆样本规模是指从总体中选取样本项目的数量。
◆影响样本规模的因素包括:
影响因素 可接受的抽样风 险 可容忍误差
( 2 )未能适当地定义控制偏差或错报,导致 注册会计师未能发现样本中存在的偏差或错报。
例如,注册会计师在测试现金支付授权控制的 有效性时,未将签字人未得到适当授权的情况 界定为控制偏差。
(3)选择了不适于实现特定目标的审计程序。
例如,注册会计师通过观察固定资产来证实其所 有权就达不到测试目标。
2、在细节测试时应关注的抽样风险
(1)误受风险(“β风险”)
是指审计人员推断某一重大错报不存在而实际存 在的风险。
即抽样结果表明账户余额不存在重大错报而实际 上存在重大错报的可能性。
(2)误拒风险 是指审计人员推断某一重大错报存在而实际上不存 在的风险。 即抽样结果表明账户余额存在重大错报,而实际上 不存在重大错报的可能性。
注册会计师必须详细了解代表总体的实物,确定代 表总体的实物是否包括整个总体。
例如:
1)如果将特定日期的所有应收账款余额定义为总体,代表 总体的实物就是打印的该日客户应收账款余额明细表; 2)如果将某一测试期间的销售收入定义为总体,代表总体 的实物就可能是记录在销售明细账中的销售交易,也可能 是销售发票; 3)如果认为代表总体的实物遗漏了应包含在最终评价中的 总体项目,注册会计师应选择新的实物,或对被排除在实 物之外的项目实施替代程序。
(2 )如果总体项目存在重大的变异性,注册会 计师应当考虑分层;
第七章 等距抽样
PPT文档演模板
第七章 等距抽样
¡ 三、中点等距抽样
¡ 1953年麦多为克服随机起点等距抽样容易 产生系统性偏差的缺点,提出中点等距抽 样(即抽取中心位置的样本)法:计算出抽 样间隔K后,以第一组的组中点为起点, 等距抽取单元组成样本。如果K为奇数, 以(K+1)/2为起点,K为偶数,以K/2或 (K+2)/2为起点。
¡ 在N≠nK时,把总体中的N个单元按一定顺序排 列成一个首尾相接的环(圆形图),取最接近于 N/n的整数为抽样间隔K,然后在1到N的单元中, 随机抽取一个单元(设为第i单元)作为起点,再 沿着圆圈按一定方向每间隔K抽取一个单元,直 到抽够n个单元为止。按此方法,可以保证样本 量n不变。不过此时首尾两个样本单元的间隔不 一定恰好为K,它可能小于K,也可能大于K。
PPT文档演模板
第七章 等距抽样
(2)若i+(n-1)K>N,设yN以后的样本单元有 n2个,则第1个样本单元和第n个样本单元 的权数分别为:
PPT文档演模板
第七章 等距抽样
六、总体有周期性变化时的等距抽样
有一些总体,其单元的标志值在随时间的自然排列 顺序中,会呈现某种明显或不明显的周期变化趋势。 如季节性消费商品的销售量,随一年四季的变化而 呈现出周期变化。还有些总体,反映出不明显的周 期影响。对有周期变化趋势的总体进行等距抽样时, 抽样间隔K的选择,对估计效率的影响是极为重要 的。为了说明问题,我们不妨假定总体单元标志值 的变化为一正弦曲线。
PPT文档演模板
第七章 等距抽样
[i+jK,(N-jK)-i+1],[j=0,1,…, (n/2)-1]
当n为奇数时,式中的j由0变到[(n-1)/2]-1为止。 然后,再加上中间一个抽样间隔中的第i+(n1)K/2个单元。(我国抽样调查工作者提出在中间 一个抽样间隔抽取中点处的一个单元。)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
第9页/共36页
三、群内相关系数与设计效应
❖ 群内相关系数
c
E(Yij Y E(Yij
)(Yik Y Y )2
)
❖ 上式中的分子为
NM
(Yij Y )(Yik Y )
i1 jk
NM (M 1) 2
第10页/共36页
上式中的分母为
NM
i1
(Yij Y )2
j 1
NM
1S2
NM
NM
❖ 当 Sw2 S 2时,ρc<0。
❖
ρc的取值范围是
1, M 1
1
。
❖ 例7.2 估计例7.1中居民食品消费支出调查以楼层(
居民小组)为群的群内相关系数与设计效应。
第13页/共36页
四、总体比例的估计
❖ 设总体中具有某种特征的单元的比例为P,总体第i 个群的比例为Pi (i=1, ⋯, N) ,则有
7
第7页/共36页
8
第8页/共36页
❖ 解 N=510, n=12, M=8, f=0.02344
y
1 12
12 i1
yi
2620.5 12
218.375
s2
y
112 510 12
1 12 1
12 i1
yi
y
2
144.3089
s y 144.3089 12.013
故Y 的0.95置信区间为 218.375±1.96×12.013=(194.83, 241.92)
平衡,二是从抽样实施的组织管理等因素来考虑。
2
第2页/共36页
§7.2 群大小相等的情形
❖ 一、记号 ❖ 二、总体均值的估计 ❖ 三、群内相关系数与设计效应 ❖ 四、总体比例的估计
3
第3页/共36页
一、记号
❖ 记Yij为总体第i群中第j个次级单元的观测值 (i=1, ⋯, N;j=1, ⋯, M,M是群的大小);
故有 ❖ 可推得
NM
2
(Yij Y )(Yik Y )
c
i1 jk
(M 1)(NM 1)S 2
c
1
NMSw2 (NM 1)S 2
1
Sw2 S2
第11页/共36页
❖ ρc可估计为
ˆc
sb2
sb2 (M
sw2 1) sw2
❖ y 的方差可写成如下形式:
V y 1 f
n
NM 1 M 2 N 1
1
第1页/共36页
❖ 采用整群抽样的理由: (1)缺少次级单元的抽样框 (2)实施便利,节省费用
❖ 群划分的原则: 群的划分应尽可能使群与群之间的差异小,而群内 差异则愈大愈好。这样,每个群都具有足够好的代 表性。如果所有的群都相似,那么抽少数群就可获 得相当好的精度。
❖ 实际中,一般群内差异小而群间差异大。 ❖ 至于群规模的选择,一是取决于精度与费用之间的
1 NM
N i 1
M
Yij
j 1
Y M
1 N
N
Yi ,
i 1
总方差(总均方):
y
1 nM
n i 1
M
yij
j 1
y M
1 n
n i 1
yiS2Biblioteka 1NMNM 1 i1 j1
Yij Y
2
,
s2 1
nM
nM 1 i1 j1
2
yij y
群间均方:
Sb2
M N 1
N i 1
Yi Y
N
P
Ai
i1
NM
1 N
N
Pi
i1
又设样本群数为n,样本第i群中具有某种特征单元
的比例为pi (i=1, ⋯, n),则总体比例P的估计量为
p
1 n
n i1
pi
14
第14页/共36页
它是无偏的,
N
V p 1 f
Pi P2
i1
n N 1
n
s2 p 1 f
pi p2
i1
n n 1
yij是样本第i群中第j个次级单元的观测值 (i=1, ⋯, n;j=1, ⋯, M)。
第i群的总值:
M
M
Yi Yij , yi yij
j 1
j 1
第i群的平均值: Yi Yi M , yi yi M
平均群总值:
Y
1 N
N
Yi ,
i1
y
1 n
n i1
yi
4
第4页/共36页
均值:
Y
,
, yn 是它的一个简单随
1 N
N
Yi
i1
的无偏估计,且
V y 1 f n
1N N 1 i1
Yi Y
2 1 f nM
Sb2
s2 y 1 f
n
1 n
n 1 i1
yi y 2
1 f nM
sb2
其中f=n/N为抽样比。可见,sb2 是Sb2的无偏估计。
第6页/共36页
§7.1 概述
❖ 设总体由N个大单元,即初级单元组成,每个初级 单元又由若干个较小的次级单元或二级单元组成。 从总体中按某种方式抽取n个初级单元,观测其中所 包含的所有次级单元。这种抽样称为整群抽样。确 切地说,应称为单阶整群抽样。
❖ 如果总体中的单元可以分成多级,则可以对前几级 单元采用多阶抽样,而在最后一阶中对该级抽样单 元(称为整群抽样单元或简称为群 )中所包含的全 部最低级单元进行观测,即是多阶整群抽样。
2
,
群内均方:
sb2
M n 1
n i 1
yi y 2
Sw2 N
1 M 1
NM
Yij Yi
i1 j1
2
,
sw2 n
1 M 1
nM i1 j1
yij yi
2
S2
1 NM
1
N
1 Sb2
N
M
1 Sw2
5
第5页/共36页
二、总体均值的估计
❖
机Y1样, 本,Y。N 构故成y 一 1n个in总1 y体i 是,Yy1
❖ 当n足够大时,总体比例P的置信度为1−α的置信区 间为
p±uα/2s(p)
15
第15页/共36页
❖ 例7.3 在例7.1中,对某居民小区居民进行食品消费调查的同 时,也进行了电话拥有情况的调查。下表是12个样本楼层装 有电话的住户数ai及在楼层8户中所占的比例pi的资料,试对 该小区的电话拥有率P进行估计。
S
2
1
M
1 c
1 f nM
S 2 1 M
1 c
❖ 对简单随机抽样
Vran y
1 f nM
S2
第12页/共36页
❖ 设计效应
deff
Vy Vran y
NM
M N
1
1
1
M
1 c
1
M
1 c
❖ 当群内均方Sw2 0时,ρc=1;
❖ 当群内均方与总方差相等,即 Sw2 S 2 时,
ρc=−1/(NM−1)≈0;
❖ 当n足够大时,总体均值Y 的置信度为1−α的置信区 间为:
y u 2s y
❖ 例7.1 在一次某城市居民小区居民食品消费量调查 中,以每个楼层(相当于居民小组)为群进行整群抽 样。每个楼层都有M=8个住户。用简单随机抽样在 全部N=510个楼层中抽取n=12个楼层。全部96个 样本户人均月食品消费额yij及按楼层的平均数yi 与 标准差si ,如下表所示。试估计该居民小区人均食 品消费额的户平均值 ,并给出其0.95的置信区间。