t统计学 第六章 抽样调查
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样平均误差的影响因素:
1. 2. 3. 4. 全及总体标志变异程度。——正比关系 抽样单位数目的多少。 ——反比关系 不同的抽样方式。 不同的抽样组织形式。
随机抽样的抽样平均误差
(一) 平wk.baidu.com数的抽样平均误差
重复抽样
x 或 x n 2 n
例
某灯泡厂从一天所生产的产品10,000个中抽 取100个检查其寿命,得平均寿命为2000小时 (假设为重复抽样),根据以往资料:σ =20小 时, 202 2(小时) 100
x
根据以往资料,产品质量不太稳定,若σ =200 小时,
于是: 20(小时)
2.不重复抽样:
x
2
Nn
n
N 1
但实际中, 往往N很大,n很小,故改用下列公式: x 2 n (1 n N )
上例中,若为不重复抽样,则: x 400 100 (1 100 10000 ) 1.99(小时 )
p
np 1 p n-1
样本容量与样本个数
• 样本容量:一个样本中所包含的单位数, 用n表示。 • 样本个数:又称样本可能数目,指从一 个总体中所可能抽取的样本的个数。对 于有限总体,样本个数可以计算出来。 样本个数的多少与抽样方法有关。
二、抽样方法
重复抽样:又称有放回抽样。
可见,抽样极限误差,即扩大或缩小了以后 的抽样误差范围。
四、全及平均数和全及成数的推断
在概率F(t)的保证下: x X x p Pp 即:全及平均数(成数) 抽样平均数(成数) t
x x p p
例1
某农场进行小麦产量的抽样调查,该农场 小麦播种面积为10000亩,采用不重复的简单 随机抽样从中选100亩作为样本,进行实割实 测,得到样本的平均亩产量为400千克,样本 标准差为12千克。(1)求抽样平均误差; (2)以95.45%的概率保证,该农场平均某 产量的范围;(3)以99.73%的概率保证, 该农场平均某产量的范围。
解:
(1) x
2
n N 100 10000 ( 2) 若以概率95.45%(t 2)保证,该农场10000亩小麦的平均 亩产量的可能范围为: X x x 400 2 1.19 397 .62 ~ 402.38( 千克) (3) 若以概率99.73%(t 3)保证,该农场10000亩小麦的平均 亩产量的可能范围为: X 400 3 1.19 396 .43 ~ 403.57( 千克)
x X x
• 抽样极限误差是根据研究对象的变异程度 和分析任务的性质来确定的在一定概率下 的允许误差范围。
四、区间估计
• 区间估计的含义:根据样本指标和抽样误差去推断 全及指标的可能范围,它能说清楚估计的准确程度 和把握程度。
p( x X x ) 1
• 其中: 1-α(0<α<1)称为置信度;α是区间估计的 显著性水平,其取值大小由实际问题确定,经常取 1%、5%和10%。
x
n
2 ( x) ( x X ) f 16(元2 )
2
f
取得σ的途径有:
1. 用过去全面调查或抽样调查的资料,若同时 有n个σ的资料,应选用数值较大的那个; 2. 用样本标准差S代替全及标准差σ; 3. 在大规模调查前,先搞个小规模的试验性的 调查来确定S,代替σ; 4. 用估计的方法。
• 全及指标:反映总体数量特征的指标。 其数值是唯一的、确定的。 • 抽样指标:根据样本分布计算的指标。 是随机变量。
全及指标和抽样指标
总体 样本
全及指标
抽样指标 平均数
X
x
S、 S2
p
、2
P
标准差、方差
成数
变量总体和属性总体
• 变量总体各单位标志值可用数量表示
第六章 抽样调查
第一节 第二节 第三节 第四节 第五节 第六节 第七节
抽样调查的意义 抽样调查的基本概念 抽样平均误差 全及指标的推断 抽样方案设计 必要抽样单位数的确定 假设检验
第一节 抽样调查的意义
一、抽样调查的概念 抽样调查是按随机原则,从全部研 究对象中抽取一部分单位进行观察,并 根据样本的实际数据,对总体的数量特 征做出具有一定可靠程度的估计和判断 其中心问题是如何根据已知的部分资料 来推断未知的总体情况。
N 15000 p n 150 147 98% 150 p (1 p ) 0.98 (1 0.98) p 1.14% n 150 若按不重复抽样方式:
p
p (1 p ) n 0.98 (1 0.98) 150 (1 ) (1 ) 1.1374% n N 150 15000
重置抽样分布--样本平均数的分布
样本平均数 x 34 36 38 40 42 44 46 48 50 合计 频数 1 2 3 4 5 4 3 2 1 25
• 验证了以下两个结论:
E ( x) X
2 ( x)
2
n
E ( x) xf 42(元) f
• 抽样平均数的标准差 反映所有的样本平均 数与总体平均数的平 均误差,称为抽样平 均误差,用 表示。 x
三、大数定理与中心极限定理
一、全及总体和抽样总体
全及总体:即总体,所要调查观察的全 部事物。总体单位数用N表示。 抽样总体:即样本,抽取出来调查观察的 单位。抽样总体的单位数用n表示。 n ≥ 30 大样本 n < 30 小样本
注 总体是唯一的、确定的,而样本是不确定的、 可变的、随机的
全及指标和抽样指标
登记误差 偏差 统计误差 代表性误差 实际误差 随机误差 抽样平均误差
抽样误差即指随机误差,这种误差是 抽样调查固有的误差,是无法避免的。
实际误差指样本指标和总体指标之间数 量上的差别,即 x X 、 p P 。
二、抽样平均误差
抽样平均误差实际上是样本指标的标 准差。通常用μ表示。在N中抽出n样本, 从排列组合中可以有各种各样的样本组。
注 抽样误差是由于抽样的随机性而产生的样本 指标与总体指标之间的平均离差。
按照定义:
(x X ) K
2
x
重复抽样分布--样本平均数的分布
样本 样本平 均数 x 34 36 38 40 42 36 38 40 42 44 38 40 42 44 46 样本 46,34 46,38 46,42 46,46 46,50 50,34 50,38 50,42 50,46 50,50 样本平 均数 x 40 42 44 46 48 42 44 46 48 50
(二) 成数的抽样平均误差
已知:成数的方差为p(1-p)
在重复抽样情况下: p(1 p) n 在不重复抽样情况下:
p
p(1 p) n (1 ) n N
p
例
某玻璃器皿厂某日生产15000只印花玻璃杯,现 按重复抽样方式从中抽取150只进行质量检验,结 果有147只合格,其余3只为不合格品,试求这批印 花玻璃杯合格率(成数)的抽样平均误差。
B C D E
A B
C
N! (N - n)!
B
C D E
n PN
D E
D
A B C E
E
A B C D
A
•
不考虑顺序时:样本个数
B C D E
B
C D E
C
D E
n CN
D
E E
N! (N - n)!n!
三、大数定理
1 n lim p xi X 1 n n i 1
抽样误差的作用
1. 在于说明样本指标的代表性大小。
误差大,则样本指标代表性低; 误差小,则样本指标代表性高; 误差等于0,则样本指标和总体指标一样大。
2. 说明样本指标和总体指标相差的 一般范围。
第四节 全及指标的推断
一、优良估计
• 无偏性 • 一致性 • 有效性
二、点估计
• 点估计的含义:直接以样本指标作为相应 全及指标的估计量。
例
1 1 1 , , ,L L 5000 5000 5000
不重复抽样:又称不放回抽样。 1 1 1 , , ,L L 例 5000 4999 4998
重复抽样
• 例如从A、B、C、D、E五个字母中随机 抽取两个作为样本。N=5,n=2
A A B C D E B A B C D E
C
A B C D E
D
A B C D E
E
A B C D E
– 考虑顺序时:样本个数=Nn=52=25 C N n - 1 ( N n -1)! – 不考虑顺序时:样本个数= n ( N -1)!n!
不重复抽样
• 例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2
A A
•
考虑顺序时:样本个数
参数估计的两个要求:
– 精度:估计误差的最大范围,通过极限 误差来反映。显然,Δ越小,估计的精度 要求越高,Δ越大,估计的精度要求越低。 极限误差的确定要以实际需要为基本标 准。 – 可靠性:估计正确性的一个概率保证, 通常称为估计的置信度。
根据中心极限定理,得知当n足够大时, 抽样总体为正态分布,根据正态分布规律可 知,样本指标是以一定的概率落在某一特定 的区间内,统计上把这个给定的区间叫抽样 极限误差,也称置信区间,即在概率F(t)的 保证下:
x X p P S 2 2
例 在全部产品中,抽取100件进行仔细检查,得
到平均重量x 1002克,合格率p 98%,我们直接推 断全部产品的平均重量X 1002克,合格率P 98%。
三、全及指标估计概述
• 设待估计的全及指标是 X ,用以估计该 参数的统计量是 x ,抽样估计的极限误 差是 x ,即:
中心极限定理
中心极限定理: 1.独立同分布中心极限定理:
2 x ~ N X, n
2.德莫福-拉普拉斯中心极限定理:
X ~ N np, npq
大样本的平均数近似服从正态分布。
第三节 抽样平均误差
一、抽样误差的概念及其影响程度
在统计调查中,调查资料与实际情况不 一致,两者的偏离称为统计误差。
当样本容量n 充分大时,可以用 样本平均估计总体平均。
m lim p p 1 n n
当试验次数n充分大时,可以用 频率代替概率。
大数定理的意义:个别现象受偶然因素影响,但是,对总体 的大量观察后进行平均,就能使偶然因素的影响相互抵消, 从而使总体平均数稳定下来,反映出事物变化的一般规律。
X X
N
• 总体成数P是指具有某种特征的单位在总体中 的比重。成数是一种结构相对数,设总体单 位总数目是N,总体中有该特征的单位数是N1。 设x是0、1变量,则有:
N1 P N
样本成数
• 现从总体中抽出n个单位,如果其中有相应特 征的单位数是n1,则样本成数是: n1 p n
• P也是一个随机变量,利用样本平均数的分布 性质结论,即有: E ( p) p
二、抽样调查的特点
1.抽样调查是非全面调查。 2.抽样调查是用样本的指标数值去推算总体 的指标数值。 3.抽样调查是按随机原则抽选调查单位。 4.抽样调查中产生的抽样误差,可以事先计 算并加以控制。
第二节 抽样调查的基本概念
一、全及总体和抽样总体 二、抽样方法
1.重复抽样分布 2.不重复抽样分布
• 某班组5个工人的日工 资为34、38、42、46、 50元。 • = 42 • 2 = 32
• 现用重复抽样的方法 从5人中随机抽2个构 成样本。共有52=25个 样本。如右图。
34,34 34,38 34,42 34,46 34,50 38,34 38,38 38,42 38,46 38,50 42,34 42,38 42,42 42,46 42,50
抽样极限误差△=tμ,(t为概率度)
x的抽样分布
68.27%的样本
X x X
x1 x1
X x
x2
表示有(1 ) 100%的 区间包含了X
x2 x3 x3
x4
x4
当F(t)=68.27%时,抽样极限误差等于抽样平均误差 的1倍(t=1); 当F(t)=95.45%时,抽样极限误差等于抽样平均误差 的2倍(t=2); 当F(t)=99.73%时,抽样极限误差等于抽样平均误差 的3倍(t=3);