第六章抽样估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
误差种类
登记误差 误差 系统性误差 代表性误差 随机误差
样本单位的结构与总 体单位结构分布不一 致而产生的误差。
三种误差的区别:

登记误差:由于人的主观失误在观察、
登记、计算时造成的误差,可以避免。 系统性误差:由于有意识选取调查单 位造成的系统偏差,理论上可以避免。 随机误差:由于按照随机原则抽取样本 而产生的误差,无法避免但可以控制。

理论基础:
大数法则、中心极限定理 大数法则:关于大量的随机现象具有稳定性质的 法则。它论证了抽样平均数趋近于总体平均数的 趋势,为抽样估计提供了重要的依据。 中心极限定理:研究变量和分布序列的极限定理。 如果总体变量存在有限的平均数和方差,那么不 论这个总体变量分布如何,随着抽样单位数n的增 加,抽样平均数的分布将趋近于正态分布。
N1 P N

N 0 N N1 Q 1 P N N

样本指标:根据样本各单位标志值或标志
属性计算的综合指标,也称统计量,它是 来估计和推断总体参数的。 与总体指标相对应,有样本平均数、样本 成数及样本标准差等。

设样本变量x的观察值为:x1,x2,…,xn,则:
样本平均数:
x x n


抽样估计中的基本概念



(一)总体和样本 (二)总体指标和样本指标 (三)重复抽样和不重复抽样
总体和样本

总体:研究现象的全体,由所研究范围
内具有某种相同性质的全体单位所组成 的整体。通常用N表示。
属性总体 品质标志
总 体
变量总体 数量标志

样本(子样):从总体中随机抽取出来,
代表总体的那部分单位的集合。 样本单位数,又称样本容量,通常用n表 示。
N
N i 1
2.5
2
2 ( x ) i
N
1.25
(例题分析)
现从总体中抽取n=2的简单随机样本,在重复抽 样条件下,共有42=16个样本。所有样本的结果为

所有可能的n = 2 的样本(共16个)

第一个 观察值


第二个观察值

1


2

例:对某山区的林采蓄积量作抽样调查。将总体50块面积相等的地 划为10个区,每个区包括5个地块。采用两阶段抽样,先从10个区 选中30%,再从选中的区域中抽取60%的地块组成样本进行调查。
2.抽样误差


抽样误差地概念 抽样误差的侧度
抽样误差
----指所选取的样本的结果不能
完全代表总体而导致的误差。
总体指标的数值也是唯一确定的
推断和估计
总体指标(未知)
总体指标:参
数(未知量)
统计推断
样本总体指标:统
计量(已知量)
注意
总体是唯一确定 的,样本总体不唯一
对于变量总体,常用的总体指标有总体 平均数 、总体标准差
设总体变量X为:X1,X2,X3…,XN,则有:



X
m i 1
i m
X fi
抽样框

例 如:要从商学院的全体学生中抽取
500名学生作为调查样本,则商学院全 体在校生的名单就是这次抽样的样本框; 如果是从该校所有班级中抽取部分班级 的全体同学作为调查样本,则此时的抽 样框就是全校所有班级的名单,因为此 时的抽样单位已经不再是单个的学生, 而是单个的班级。

注 意:一般街道居委名录、企
N
i i 1
k
i

类型抽样确定各组样本的方法:
N1
总体N
n1 n2
n3
比例抽样
n1
Ni n N
N2
N3
适宜抽样
n1
Ni i n N i i

例:某项粮食播种面积20000亩,其中有平原和山区两种地形。以类型 抽样的方法了解平均粮食产量。
地形 平原 山区 合计 全部面积(Ni) 14000 6000 20000 样本面积(ni)


3



4
1
2 3 4


1,1
2,1 3,1 4,1
1,2
2,2 3,2 4,2
1,3
2,3 3,3 4,3
1,4
2,4 3,4 4,4
(例题分析)
计算出各样本的均值,如下表。并给出样本均 值的抽样分布

16个样本的均值(x)

.3
P (X )
适用范围: 总体规模不大,内部差异较小。
例:一个班组有A、B、C、D、E 5个工人,随机抽取2个工人的日 工资数作为了解整个班组平均工资水平的样本。 可能的结果是
样本号 A A B C D E B C D E
有放回抽样:25个样本 不放回抽样:20个样本
2. 等距抽样(机械抽样或系统抽样)
将总体按某一标志值顺序排列,然后相等距离或相等间隔抽取样本 单位。
同一总体单位有可能被重复抽中, 而且每次抽取都是独立进行
不重复抽样
抽出 个体 特点
又被称作不重置抽样、不 放回抽样 登记 特征 继续 抽取
同一总体中每个单位被抽中的机会并 不均等,在连续抽取时,每次抽取都 不是独立进行。
是最常用的抽样方法,用于无限总体和许多 有限总体样本单位的抽样。
名称 定义 特征
确定样本容量的意义
小样本容量 节省费用但 调查误差大 调查误差 样本容量 调查费用
找出在限定费用 范围内的最大样 本容量
找出在规定误差 范围内的最小样 本容量
大样本容量 调查精度高 但费用较大
总体指标和样本指标

总体指标:根据总体中各单位的标志值
或标志属性计算的,反映总体数量特征 的综合指标。
总体是唯一确定的 抽样估计 样本数据(已知)
4. 整群抽样
将总体按某个标志分为多个群,按纯随机抽样方式或等距抽样方式, 抽取若干群,然后对所抽中的各群中的全部单位一一进行调查。
适宜范围:不适合单个抽样的场合,就可采用整群抽样方式。 优缺点:调查方便,但抽样误差较大。
总群数 R =13 A B C F D G H K I J C G D K n=nc+nd+ng+nk 样本数 r =4 样本容量
x
2 ( x X )
M
P
2 ( p P )
M
(例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总 体的均值、方差及分布如下 总体分布
.3
均值和方差

x
i 1
N
i
.2 .1 0
1 2 3 4
样本 从总体中抽出的部分单位 统计量 样本容量 样本平均数 样本比率 样本方差 样本标准差
n x p s2 s
总体 研究对象的全部单位 参数 总体容量 总体平均数 总体比率 总体方差 总体标准差
N

P
符号
2
随机抽样设计
1. 纯随机抽样(简单随机抽样)
对总体不做任何分类或排序,完全按随机原则抽样。
第 个 观察值

第二个观察值

1
2


3


4
.2 .1
1 2 3 4
1.0 1.5 2.0 2.5
1.5 2.0 2.5 3.0
2.0 2.5 3.0 3.5
2.5 3.0 3.5 4.0
0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
抽样实际误差

在一次具体的抽样调查中,由随机 因素引起的样本指标与总体指标之间的 离差。 抽样实际误差是无法计算的。同时, 抽样实际误差仅仅是一系列可能出现的 误差数值之一,因此,抽样实际误差没 有概括所有可能产生的抽样误差。
抽样平均误差


反映抽样误差一般水平的一个指标。 是指抽样平均数的标准差或抽样成数的标准 差。 设以 x 表示样本平均数的抽样平均误差, 以 P 表示样本成数的抽样平均误差,M表示 全部可能的样本数目,则有:


因 此:理论上讲,抽样误差一般指随机误差, 而不包括登记性误差和系统性偏差。
影响抽样误差的因素
总体各单位的差异程度:
标准差越大,抽样误差越大;
样本单位数的多少:
n 越大,抽样误差越小; 抽样方法:不重复抽样比重复抽样小; 抽样组织方式:简单随机抽样最大。
抽样误差的侧度


(一)抽样实际误差 (二)抽样平均误差 (三)抽样极限误差
第六章 抽样估计
主要内容



1.抽样估计概述 2.抽样误差 3.抽样估计的方法 4.样本容量的确定
抽样调查的程序
定 义 总 体 及 样 本 确 定 样 本 容 量 进 入 调 查 阶 段
设 计 抽 样 方 案
选 择 抽 样 框
选 择 抽 样 方 法
选择抽样框


抽样框就是所有总体单位的集合, 是总体的数据目录或全部总体单位 的名单。 根据抽样框可以重新界定总体。如 抽样框是电话簿,则家庭成员总体 可以被重新界定为列入电话簿中的 那部分家庭的成员。
应用中的注意事项:
注意抽样间隔或样本距离和现象本身的节奏性和循环周期相 重合的问题
3. 类型抽样(分类抽样或分层抽样)
先将总体中的所有单位按某个标志分组,然后从各组按纯随机抽样或 等距抽样方式抽样。采用这种方法,由于各单位之间的差异因划类或分 层而缩小,这就比较容易选出有代表性的样本
适用范围:总体情况复杂,各类型或层次之间的差异较大而总体容

2
fi

i 1
对于属性总体,最常用的指标是成数。
总体成数表示总体中具有某种性质的单位数 在总体全部单位数中所占的比重,以P表示;总
体中不具有某种性质的单位数在总体全部单位数 中所占的比重则以Q表示。 设总体N个单位中,有N1个单位具有某种性质, N0个单位不具有某种性质,N1+ N0=N,则有:
样本均值的抽样分布
(例题分析)
总体分布
.3 P(X)
抽样分布
.3 .2 .1 0
.2 .1 0
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
X
= 2.5
σ2 =1.25
X 2.5 2 X 0.625
在实际抽样调查中,总体单位 数N常常很大,样本单位数n一般也 不小于30,由此产生的所有样本数 目是极大的,不可能抽完所有可能 的样本;同时,在开展抽样调查之 前,总体指标是未知的。因此,实 际工作中,定义式缺乏可操作性。
nk n1 n2 n N1 N 2 Nk N
类型适宜抽样:考虑各类型标志变动程度 i 不同,变动程度大的组
要多抽样,变动程度小的类型组可少抽样,使得各类型组的变动程度 Ni n i 在所有类型变动程度之和 N 中的比例相同,等同于 或 N
k i i i 1
n
ni n
N i i
量又较大。
优点:比简单纯随机抽样更精确,能以较少的抽样单位数得到较准确的
推断结果。特别是当总体各单位变量值大小悬殊、各组标志变动程度很 大时,划分类型能保证各组都有选中的机会。
• 类型抽样分类
类型比例抽样:按统一的比例来确定各类型组应抽选的样本单位数,
即各类型中抽取的样本单位数 ni 占各类型组所有单位数 Ni 的比例 是相等的,等同于样本单位总数 n 占总体单位数 N 的比例
E
L
M
例:从某县100个村中抽出10个村,进行全面调查,就可以大致了 解农村家庭副业发展情况。
5. 多阶段抽样
总体包含的单位很多,分布很广,要通过一次抽样抽选样本很困 难,此时,可以将其分成若干阶段,然后逐阶段进行抽样,以完成 整个抽样过程。 特点:多个阶段、多种方法综合抽样,优点是降低抽样成本。
排序标志
无关标志
有关标志
பைடு நூலகம்
间隔距离:
N k n
N:总体单位数 n:需要抽取的样本单位数
例:从某企业5000名职工中抽取100人进行家庭收入水平调查。 样本的距离=
5000 50 100
起点的选择:按姓氏排序,在第一个间隔中随机选取。
优点:
1.能保证被抽取的单位在总体中均匀分布 2.能使抽样过程简化
业名录、电话本、花名册、俱 乐部名录、黄页簿、工商局企 业登记库、行业年鉴等都是市 场调查中常用的抽样框。
1.抽样估计的概述


概念:
在抽样调查的基础上,用样本的实际资料计算样 本指标,并据此估计和推断总体相应数量特征的 一种统计推断方法。


特点:
随机原则抽取; 部分单位推断总体; 误差可算可控; 基于概率的一种统计推断方法。

xf x f

S
样本标准差: 样本方差: 样本成数:
S
2 ( x x )
n
2 ( x x )
( x x) f
2
f
S
2
n1 p n
n

S
2
( x x) f
2
f
样本成数的标准差:
S
p(1 p)
重复抽样
抽出 个体 特点
又称作重置抽样、有放回抽样 登记 特征 放回 总体 继续 抽取
样本容量如何确定呢?

样本容量的确定
样本容量 指样本中含有的总体单位的 数目,通常用n 来表示。 当 n < 30,称为小样本。
一般来讲:当 n ≥ 30,称为大样本;
确定适当样本容量的意义:
若n过大,调查工作量增大,体现不出抽样 调查的优越性;
若n 过小,抽样误差会增大,抽样推断就 会失去价值。
相关文档
最新文档