第六章-抽样调查

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

X
, 2 n

2.德莫福-拉普拉斯中心极限定理:
X~Nnp,npq
大样本的平均数近似服从正态分布。
第三节 抽样平均误差
一、抽样误差的概念及其影响程度
在统计调查中,调查资料与实际情况不 一致,两者的偏离称为统计误差。
登记误差 统计误差代表性误差随 偏机 差误差实 抽际 样误 平差 均误差
• 全及指标:反映总体数量特征的指标。 其数值是唯一的、确定的。
• 抽样指标:根据样本分布计算的指标。 是随机变量。
全及指标和抽样指标
总体



样本

全及指标
X
、2
P
抽样指标
平均数
x
标准差、方差 S、 S2
成数
p
变量总体和属性总体
• 变量总体各单位标志值可用数量表示
X X
抽样误差即指随机误差,这种误差是 抽样调查固有的误差,是无法避免的。
实 际 误 差 指 样 本 指 标 和 总 体 指 标 之 间 数 量 上 的 差 别 , 即 xX、 pP。
二、抽样平均误差
抽样平均误差实际上是样本指标的标 准差。通常用μ表示。在N中抽出n样本, 从排列组合中可以有各种各样的样本组。
三、大数定理与中心极限定理
一、全及总体和抽样总体
全及总体:即总体,所要调查观察的全 部事物。总体单位数用N表示。
抽样总体:即样本,抽取出来调查观察的 单位。抽样总体的单位数用n表示。
n ≥ 30 大样本 n < 30 小样本
注 总体是唯一的、确定的,而样本是不确定的、 可变的、随机的
全及指标和抽样指标
注 抽样误差是由于抽样的随机性而产生的样本
指标与总体指标之间的平均离差。
按照定义:
x
(xX )2 K
重复抽样分布--样本平均数的分布
• 某班组5个工人的日工 资为34、38、42、46、 50元。
• = 42
• 2 = 32
• 现用重复抽样的方法 从5人中随机抽2个构 成样本。共有52=25个 样本。如右图。
N
• 总体成数P是指具有某种特征的单位在总体中 的比重。成数是一种结构相对数,设总体单 位总数目是N,总体中有该特征的单位数是N1。 设x是0、1变量,则有:
P N1 N
样本成数
• 现从总体中抽出n个单位,如果其中有相应特 征的单位数是n1,则样本成数是:
p n1 n
• P也是一个随机变量,利用样本平均数的分布
2. 说明样本指标和总体指标相差的 一般范围。
第四节 全及指标的推断
一、优良估计
• 无偏性 • 一致性 • 有效性
二、点估计
• 点估计的含义:直接以样本指标作为相应 全及指标的估计量。
x X

p

P

S
2


2
例 在 全 部 产 品 中 , 抽 取 100件 进 行 仔 细 检 查 , 得
m n

p
1

当试验次数n充分大时,可以用 频率代替概率。
大数定理的意义:个别现象受偶然因素影响,但是,对总体 的大量观察后进行平均,就能使偶然因素的影响相互抵消, 从而使总体平均数稳定下来,反映出事物变化的一般规律。
中心极限定理
中心极限定理:
1.独立同分布中心极限定理:
x
~
N

A B DC D E
A B EC D E
– 考虑顺序时:样本个数=Nn=52=25
– 不考虑顺序时:样本个数= CN nn-1((NN-1n)-!n1)!!
不重复抽样
• 例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2
A
A
B
B
AC BC
D
D
C D

E
考虑顺序时:样本个数
解:
(1)

2
n
(1 )
12 2 (1
100
) 1.19(千克 )
x
n
N
100 10000
(2) 若以概率 95.45%(t 2)保证,该农场 10000 亩小麦的平均
亩产量的可能范围为:
X x 400 2 1.19 397.62 ~ 402.38( 千克 ) x
样本
34,34 34,38 34,42 34,46 34,50 38,34 38,38 38,42 38,46 38,50 42,34 42,38 42,42 42,46 42,50
样本平 均数 x
34 36 38 40 42 36 38 40 42 44 38 40 42 44 46
样本
46,34 46,38 46,42 46,46 46,50 50,34 50,38 50,42 50,46 50,50

p
n
在不重复抽样情况下:
p (1 p ) n

(1 )
p
n
N

某玻璃器皿厂某日生产15000只印花玻璃杯,现 按重复抽样方式从中抽取150只进行质量检验,结 果有147只合格,其余3只为不合格品,试求这批印 花玻璃杯合格率(成数)的抽样平均误差。
N 15000 n 150
p 147 98% 150
• 抽样极限误差是根据研究对象的变异程度 和分析任务的性质来确定的在一定概率下 的允许误差范围。
四、区间估计
• 区间估计的含义:根据样本指标和抽样误差去推断 全及指标的可能范围,它能说清楚估计的准确程度 和把握程度。
p(xXx)1
• 其中: 1-α(0<α<1)称为置信度;α是区间估计的
性质结论,即有:
E(p) p
p
np 1 p
n-1
样本容量与样本个数
• 样本容量:一个样本中所包含的单位数, 用n表示。
• 样本个数:又称样本可能数目,指从一 个总体中所可能抽取的样本的个数。对 于有限总体,样本个数可以计算出来。 样本个数的多少与抽样方法有关。
二、抽样方法
显著性水平,其取值大小由实际问题确定,经常取 1%、5%和10%。
参数估计的两个要求:
– 精度:估计误差的最大范围,通过极限 误差来反映。显然,Δ越小,估计的精度 要求越高,Δ越大,估计的精度要求越低。 极限误差的确定要以实际需要为基本标 准。
– 可靠性:估计正确性的一个概率保证, 通常称为估计的置信度。
第六章 抽样调查
第一节 抽样调查的意义 第二节 抽样调查的基本概念 第三节 抽样平均误差 第四节 全及指标的推断 第五节 抽样方案设计 第六节 必要抽样单位数的确定 第七节 假设检验
第一节 抽样调查的意义
一、抽样调查的概念 抽样调查是按随机原则,从全部研
究对象中抽取一部分单位进行观察,并 根据样本的实际数据,对总体的数量特 征做出具有一定可靠程度的估计和判断 其中心问题是如何根据已知的部分资料 来推断未知的总体情况。
x1
x1
x2
x2
x3
x3
x4
表示有(1)100%的
区间包含了X
x4
当F(t)=68.27%时,抽样极限误差等于抽样平均误差 的1倍(t=1); 当F(t)=95.45%时,抽样极限误差等于抽样平均误差 的2倍(t=2); 当F(t)=99.73%时,抽样极限误差等于抽样平均误差 的3倍(t=3);
E
PNn

N! E
(N-n)!
A B DC
E
A B EC D
B
AC BC
C
D
E
D
D
D
E
E
E
• 不考虑顺序时:样本个数
CNn (N-Nn!)!n!
E
三、大数定理
lni m p1n
n i1
xi
X
1

当样本容量n 充分大时,可以用 样本平均估计总体平均。
limp n
• 验证了以下两个结论:
E(x)X 2 ( x ) 2
n
• 抽样平均数的标准差 反映所有的样本平均 数与总体平均数的平 均误差,称为抽样平 均误差,用 表示。
x
x
n
取得σ的途径有:
1. 用过去全面调查或抽样调查的资料,若同时 有n个σ的资料,应选用数值较大的那个;
2. 用样本标准差S代替全及标准差σ; 3. 在大规模调查前,先搞个小规模的试验性的
p
p(1 p) n
0.98(10.98) 1.14% 150
若按不重复抽样方式:
p
p(1 p) (1 n )
n
N
0.98(10.98) (1 150 ) 1.1374%
150
15000
抽样误差的作用
1. 在于说明样本指标的代表性大小。
误差大,则样本指标代表性低; 误差小,则样本指标代表性高; 误差等于0,则样本指标和总体指标一样大。
解: 抽样一级品率:
2 N n

n N1
但实际中,往往N很大,n很小,故改用下列公式:
2
n
(1 )
x
nN
上例中,若为不重复抽样,则:

400 (1
100
) 1.99(小时)
x 100 10000
(二) 成数的抽样平均误差
已知:成数的方差为p(1-p)
在重复抽样情况下:
p (1 p )
重复抽样:又称有放回抽样。

1 ,1 ,1 , LL
5000 5000 5000
不重复抽样:又称不放回抽样。

1 ,1 ,1 , LL
5000 4999 4998
重复抽样
• 例如从A、B、C、D、E五个字母中随机
抽取两个作为样本。N=5,n=2
A B AC D E
A B BC D E
A B CC D E
可见,抽样极限误差,即扩大或缩小了以后 的抽样误差范围。
四、全及平均数和全及成数的推断
在概率F(t)的保证下:
x Xx
x
x
pp Ppp
即:全及平均数(成数)抽样平均数(成数)t
例1
某农场进行小麦产量的抽样调查,该农场 小麦播种面积为10000亩,采用不重复的简单 随机抽样从中选100亩作为样本,进行实割实 测,得到样本的平均亩产量为400千克,样本 标准差为12千克。(1)求抽样平均误差; (2)以95.45%的概率保证,该农场平均亩 产量的范围;(3)以99.73%的概率保证, 该农场平均亩产量的范围。
某灯泡厂从一天所生产的产品10,000个中抽 取100个检查其寿命,得平均寿命为2000小时 (假设为重复抽样),根据以往资料:σ =20小 时,
202 2(小时) x 100
根据以往资料,产品质量不太稳定,若σ =200 小时,
于是 : 2(0小)时
2.不重复抽样:
x
(3) 若以概率 99.73%(t 3)保证,该农场 10000 亩小麦的平均 亩产量的可能范围为:
X 400 3 1.19 396.43 ~ 403.57( 千克 )
例2
某机械厂日产某种产品8000件,现采用纯 随机重复抽样方式,从中抽取400件进行观 察,其中有380件为一级品,试以概率 95.45%的可靠程度推断全部产品的一级品率 的范围。
根据中心极限定理,得知当n足够大时, 抽样总体为正态分布,根据正态分布规律可 知,样本指标是以一定的概率落在某一特定 的区间内,统计上把这个给定的区间叫抽样 极限误差,也称置信区间,即在概率F(t)的 保证下:
抽样极限误差△=tμ,(t为概率度)
x的抽样分布
68.27%的样本
X x X X x
调查来确定S,代替σ; 4. 用估计的方法。
抽样平均误差的影响因素:
1. 全及总体标志变异程度。——正比关系 2. 抽样单位数目的多少。 ——反比关系 3. 不同的抽样方式。 4. 不同的抽样组织形式。
随机抽样的抽样平均误差
(一) 平均数的抽样平均误差 重复抽样
Байду номын сангаас

x
n
或 2
x
n

样本平 均数 x
40 42 44 46 48 42 44 46 48 50
重置抽样分布--样本平均数的分布
样本平均数 x
34 36 38 40 42 44 46 48 50 合计
频数
1 2 3 4 5 4 3 2 1
25
E(x)xff 42(元)
2(x)(x X f)2f16(元 2)
到 平 均 重 量 x1002克 , 合 格 率 p98% , 我 们 直 接 推 断 全 部 产 品 的 平 均 重 量 X1002克 , 合 格 率 P 98% 。
三、全及指标估计概述
• 设待估计的全及指标是 X ,用以估计该
参数的统计量是 x ,抽样估计的极限误
差是 x ,即:
x X x
二、抽样调查的特点
1.抽样调查是非全面调查。 2.抽样调查是用样本的指标数值去推算总体 的指标数值。 3.抽样调查是按随机原则抽选调查单位。 4.抽样调查中产生的抽样误差,可以事先计 算并加以控制。
第二节 抽样调查的基本概念
一、全及总体和抽样总体 二、抽样方法
1.重复抽样分布 2.不重复抽样分布
相关文档
最新文档