第六章抽样估计案例
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:对某山区的林采蓄积量作抽样调查。将总体50块面积相等的地 划为10个区,每个区包括5个地块。采用两阶段抽样,先从10个区 选中30%,再从选中的区域中抽取60%的地块组成样本进行调查。
2.抽样误差
抽样误差地概念 抽样误差的侧度
抽样误差
----指所选取的样本的结果不能
完全代表总体而导致的误差。
样本容量如何确定呢?
样本容量的确定
样本容量 指样本中含有的总体单位的 数目,通常用n 来表示。 当 n < 30,称为小样本。
一般来讲:当 n ≥ 30,称为大样本;
确定适当样本容量的意义:
若n过大,调查工作量增大,体现不出抽样 调查的优越性;
若n 过小,抽样误差会增大,抽样推断就 会失去价值。
排序标志
无关标志
有关标志
间隔距离:
N k n
N:总体单位数 n:需要抽取的样本单位数
例:从某企业5000名职工中抽取100人进行家庭收入水平调查。 样本的距离=
5000 50 100
起点的选择:按姓氏排序,在第一个间隔中随机选取。
优点:
1.能保证被抽取的单位在总体中均匀分布 2.能使抽样过程简化
因 此:理论上讲,抽样误差一般指随机误差, 而不包括登记性误差和系统性偏差。
影响抽样误差的因素
总体各单位的差异程度:
标准差越大,抽样误差越大;
样本单位数的多少:
n 越大,抽样误差越小; 抽样方法:不重复抽样比重复抽样小; 抽样组织方式:简单随机抽样最大。
抽样误差的侧度
(一)抽样实际误差 (二)抽样平均误差 (三)抽样极限误差
N
i i 1
k
i
类型抽样确定各组样本的方法:
N1
总体N
n1 n2
n3
比例抽样
n1
Ni n N
N2
N3
适宜抽样
n1
Ni i n N i i
例:某项粮食播种面积20000亩,其中有平原和山区两种地形。以类型 抽样的方法了解平均粮食产量。
地形 全部面积(Ni) 样本面积(ni)
nk n1 n2 n N1 N 2 Nk N
类型适宜抽样:考虑各类型标志变动程度 i 不同,变动程度大的组
要多抽样,变动程度小的类型组可少抽样,使得各类型组的变动程度 Ni n i 在所有类型变动程度之和 N 中的比例相同,等同于 或 N
k i i i 1
n
ni n
N i i
E
L
M
例:从某县100个村中抽出10个村,进行全面调查,就可以大致了 解农村家庭副业发展情况。
5. 多阶段抽样
总体包含的单位很多,分布很广,要通过一次抽样抽选样本很困 难,此时,可以将其分成若干阶段,然后逐阶段进行抽样,以完成 整个抽样过程。 特点:多个阶段、多种方法综合抽样,优点是降低抽样成本。
抽样估计中的基本概念
(一)总体和样本 (二)总体指标和样本指标 (三)重复抽样和不重复抽样
总体和样本
总体:研究现象的全体,由所研究范围
内具有某种相同性质的全体单位所组成 的整体。通常用N表示。
属性总体 品质标志
总 体
变量总体 数量标志
样本(子样):从总体中随机抽取出来,
代表总体的那部分单位的集合。 样本单位数,又称样本容量,通常用n表 示。
第六章 抽样估计
主要内容
1.抽样估计概述 2.抽样误差 3.抽样估计的方法 4.样本容量的确定
抽样调查的程序
定 义 总 体 及 样 本 确 定 样 本 容 量 进 入 调 查 阶 段
设 计 抽 样 方 案
选 择 抽 样 框
选 择 抽 样 方 法
选择抽样框
抽样框就是所有总体单位的集合, 是总体的数据目录或全部总体单位 的名单。 根据抽样框可以重新界定总体。如 抽样框是电话簿,则家庭成员总体 可以被重新界定为列入电话簿中的 那部分家庭的成员。
第 个 观察值
第二个观察值
1
2
3
4
.2 .1
1 2 3 4
1.0 1.5 2.0 2.5
1.5 2.0 2.5 3.0
2.0 2.5 3.0 3.5
2.5 3.0 3.百度文库 4.0
0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
抽样实际误差
在一次具体的抽样调查中,由随机 因素引起的样本指标与总体指标之间的 离差。 抽样实际误差是无法计算的。同时, 抽样实际误差仅仅是一系列可能出现的 误差数值之一,因此,抽样实际误差没 有概括所有可能产生的抽样误差。
抽样平均误差
反映抽样误差一般水平的一个指标。 是指抽样平均数的标准差或抽样成数的标准 差。 设以 x 表示样本平均数的抽样平均误差, 以 P 表示样本成数的抽样平均误差,M表示 全部可能的样本数目,则有:
确定样本容量的意义
小样本容量 节省费用但 调查误差大 调查误差 样本容量 调查费用
找出在限定费用 范围内的最大样 本容量
找出在规定误差 范围内的最小样 本容量
大样本容量 调查精度高 但费用较大
总体指标和样本指标
总体指标:根据总体中各单位的标志值
或标志属性计算的,反映总体数量特征 的综合指标。
总体是唯一确定的 抽样估计 样本数据(已知)
总体指标的数值也是唯一确定的
推断和估计
总体指标(未知)
总体指标:参
数(未知量)
统计推断
样本总体指标:统
计量(已知量)
注意
总体是唯一确定 的,样本总体不唯一
对于变量总体,常用的总体指标有总体 平均数 、总体标准差
设总体变量X为:X1,X2,X3…,XN,则有:
或
或
X
m i 1
i m
X fi
样本均值的抽样分布
(例题分析)
总体分布
.3 P(X)
抽样分布
.3 .2 .1 0
.2 .1 0
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
X
= 2.5
σ2 =1.25
X 2 .5
2 X 0.625
在实际抽样调查中,总体单位 数N常常很大,样本单位数n一般也 不小于30,由此产生的所有样本数 目是极大的,不可能抽完所有可能 的样本;同时,在开展抽样调查之 前,总体指标是未知的。因此,实 际工作中,定义式缺乏可操作性。
量又较大。
优点:比简单纯随机抽样更精确,能以较少的抽样单位数得到较准确的
推断结果。特别是当总体各单位变量值大小悬殊、各组标志变动程度很 大时,划分类型能保证各组都有选中的机会。
• 类型抽样分类
类型比例抽样:按统一的比例来确定各类型组应抽选的样本单位数,
即各类型中抽取的样本单位数 ni 占各类型组所有单位数 Ni 的比例 是相等的,等同于样本单位总数 n 占总体单位数 N 的比例
抽样框
例 如:要从商学院的全体学生中抽取
500名学生作为调查样本,则商学院全 体在校生的名单就是这次抽样的样本框; 如果是从该校所有班级中抽取部分班级 的全体同学作为调查样本,则此时的抽 样框就是全校所有班级的名单,因为此 时的抽样单位已经不再是单个的学生, 而是单个的班级。
注 意:一般街道居委名录、企
样本 从总体中抽出的部分单位 统计量 样本容量 样本平均数 样本比率 样本方差 样本标准差
n x p s2 s
总体 研究对象的全部单位 参数 总体容量 总体平均数 总体比率 总体方差 总体标准差
N
P
符号
2
随机抽样设计
1. 纯随机抽样(简单随机抽样)
对总体不做任何分类或排序,完全按随机原则抽样。
x
2 ( x X )
M
P
2 ( p P )
M
(例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总 体的均值、方差及分布如下 总体分布
.3
均值和方差
x
i 1
N
i
.2 .1 0
1 2 3 4
N1 P N
,
N 0 N N1 Q 1 P N N
样本指标:根据样本各单位标志值或标志
属性计算的综合指标,也称统计量,它是 来估计和推断总体参数的。 与总体指标相对应,有样本平均数、样本 成数及样本标准差等。
设样本变量x的观察值为:x1,x2,…,xn,则:
样本平均数:
x x n
理论基础:
大数法则、中心极限定理 大数法则:关于大量的随机现象具有稳定性质的 法则。它论证了抽样平均数趋近于总体平均数的 趋势,为抽样估计提供了重要的依据。 中心极限定理:研究变量和分布序列的极限定理。 如果总体变量存在有限的平均数和方差,那么不 论这个总体变量分布如何,随着抽样单位数n的增 加,抽样平均数的分布将趋近于正态分布。
2
fi
i 1
对于属性总体,最常用的指标是成数。
总体成数表示总体中具有某种性质的单位数 在总体全部单位数中所占的比重,以P表示;总
体中不具有某种性质的单位数在总体全部单位数 中所占的比重则以Q表示。 设总体N个单位中,有N1个单位具有某种性质, N0个单位不具有某种性质,N1+ N0=N,则有:
同一总体单位有可能被重复抽中, 而且每次抽取都是独立进行
不重复抽样
抽出 个体 特点
又被称作不重置抽样、不 放回抽样 登记 特征 继续 抽取
同一总体中每个单位被抽中的机会并 不均等,在连续抽取时,每次抽取都 不是独立进行。
是最常用的抽样方法,用于无限总体和许多 有限总体样本单位的抽样。
名称 定义 特征
业名录、电话本、花名册、俱 乐部名录、黄页簿、工商局企 业登记库、行业年鉴等都是市 场调查中常用的抽样框。
1.抽样估计的概述
概念:
在抽样调查的基础上,用样本的实际资料计算样 本指标,并据此估计和推断总体相应数量特征的 一种统计推断方法。
特点:
随机原则抽取; 部分单位推断总体; 误差可算可控; 基于概率的一种统计推断方法。
误差种类
登记误差 误差 系统性误差 代表性误差 随机误差
样本单位的结构与总 体单位结构分布不一 致而产生的误差。
三种误差的区别:
登记误差:由于人的主观失误在观察、
登记、计算时造成的误差,可以避免。 系统性误差:由于有意识选取调查单 位造成的系统偏差,理论上可以避免。 随机误差:由于按照随机原则抽取样本 而产生的误差,无法避免但可以控制。
3
4
1
2 3 4
1,1
2,1 3,1 4,1
1,2
2,2 3,2 4,2
1,3
2,3 3,3 4,3
1,4
2,4 3,4 4,4
(例题分析)
计算出各样本的均值,如下表。并给出样本均 值的抽样分布
16个样本的均值(x)
.3
P (X )
适用范围: 总体规模不大,内部差异较小。
例:一个班组有A、B、C、D、E 5个工人,随机抽取2个工人的日 工资数作为了解整个班组平均工资水平的样本。 可能的结果是
样本号 A A B C D E B C D E
有放回抽样:25个样本 不放回抽样:20个样本
2. 等距抽样(机械抽样或系统抽样)
将总体按某一标志值顺序排列,然后相等距离或相等间隔抽取样本 单位。
N
N i 1
2 .5
2
2 ( x ) i
N
1.25
(例题分析)
现从总体中抽取n=2的简单随机样本,在重复抽 样条件下,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个)
第一个 观察值
第二个观察值
1
2
或
xf x f
或
S
样本标准差: 样本方差: 样本成数:
S
2 ( x x )
n
2 ( x x )
( x x) f
2
f
S
2
n1 p n
n
或
S
2
( x x) f
2
f
样本成数的标准差:
S
p(1 p)
重复抽样
抽出 个体 特点
又称作重置抽样、有放回抽样 登记 特征 放回 总体 继续 抽取
应用中的注意事项:
注意抽样间隔或样本距离和现象本身的节奏性和循环周期相 重合的问题
3. 类型抽样(分类抽样或分层抽样)
先将总体中的所有单位按某个标志分组,然后从各组按纯随机抽样或 等距抽样方式抽样。采用这种方法,由于各单位之间的差异因划类或分 层而缩小,这就比较容易选出有代表性的样本
适用范围:总体情况复杂,各类型或层次之间的差异较大而总体容
平原 山区
合计
14000 6000
20000
4. 整群抽样
将总体按某个标志分为多个群,按纯随机抽样方式或等距抽样方式, 抽取若干群,然后对所抽中的各群中的全部单位一一进行调查。
适宜范围:不适合单个抽样的场合,就可采用整群抽样方式。 优缺点:调查方便,但抽样误差较大。
总群数 R =13 A B C F D G H K I J C G D K n=nc+nd+ng+nk 样本数 r =4 样本容量