统计学原理-第六章 抽样调查(复旦大学第六版)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
全体。其单位数用N来表示。
2.样本总体:简称样本,是从全及总体中随机
抽取出来,代表全及总体部分单 位的集合体。单位数用n表示。
5
二.全及指标和抽样指标
(一)全及指标
X 总体平均数: X N 总体成数:P
2
XF 或X F Q=
2 2
N1 N N
(X-X) 总体方差: = 总体标准差:= (X-X)
N N 1 N 2 N n 1 N! c n! n! N n ! 4 3 2 1 2 例如C4 6 2 1 2 1
n N
(四)不考虑顺序的重复抽样数目
n n DN CN n 1
例如D C
2 4
2 4 2 1
表6-5 抽样产品使用寿命资料表
使用时间 (小时) 900以下 900-950 950-1000 1000-1050
抽样检查 灯泡数
2 4 11 71
使用时间 (小时) 1050-1100 1100-1150 1150-1200 1200以上 合计
抽样检查 灯泡数
84 18 7 3 200
25
质量规定,使用寿命在 1000 小时以上者为合格品, 200 (2 4 11) 183 则电灯泡合格率 p 91.5% 200 200 电灯泡平均使用时间 x 1057 小时 , 标准差=53.63小时 灯泡使用时间抽样平均 误差 : 重复抽样: x
8
不重复抽样方法:从总体N个单位中要随机 抽取容量为n的样本,每次从总体中抽取一 个,连续进行n次抽选,构成抽样样本。每 次抽出一个单位记录其有关标志表现后不再 放回总体中,不再进行下一次的抽选。因此, 不重复抽样的样本有如下特别之处: (1)实质上等于一次性抽取n个抽样样本 (2)抽选的结果不是相互独立的,第一次 抽选的结果影响下一次抽样。每一试验的概 率不同。
0.915 0.085 200 (1 ) 1.952% 200 10000
27
第四节 全及指标的推断
一、抽样推断要求
用抽样指标估计总体指标就该有三个要求或标准, 满足了这三个要求,就可以认为是合理的估计或优良 估计。
1、无偏性 即用抽样指标估计总体指标,要求所有可能样本 指标的平均数等于被估计总体指标。
31
2、抽样极限误差
抽样极限误差:是抽样指标与全及指标离差绝对值。
设 x 与 p 分别表示抽样平均数 与抽样成数的抽样极限 误差,则有 x x X X x x X x x x X x x X x x p p P Pp p P p p p P p p P p p
2
n (1 ) n N
2
20
(二)抽样成数的抽样平均误差
N1 p 占全及总体的比重: 具有某一标志的单位数 N N0 q 数占全及总体的比重: 不具有这一标志的单位 N N1 N 0 1 pq N N q 1 p
21
表6-4
交替标志的平均数和标准差计算表
交替 单位数 变量 标志 (成数) ×成 (变 数 量)
x
x E ( x)
2
18
说明:根据数理统计理论,在重复抽样条件下, 抽样平均误差与全及总体的标准差成正比例关系。 与抽样总体单位平方根成反比关系。
19
在不重复抽样情况下,抽样平均误差计算公式如下:
x x
N n 250 4-2 ( )= ( ) =9.13(件) n N 1 2 4-1
X源自文库
1
2
3
正态分布及其曲线下的面积图
34
以上述灯泡使用时间的检验为例,说明抽样推断方法: 已知:
x 1057 小时,合格率 p 91.5%, 灯泡使用时间抽样平均 误差 x 3.7922 小时 合格率的平均误差 p 1.972% 当t 1,概率保证为 68.27%, x 1 3.9722 3.9722 小时 1053 .21小时 X 1060 .79小时 p 1 0.01972 1.972% 则89.53 % P 93.47%
35
当t 2时,概率保证为 95.45 % x 2 3.7922 7.58小时 则1049 .42小时 X 1064 .58小时 p 2 0.01972 3.944% 则87.55% P 95.44%
(一)抽样调查的目的是由部分来推断总体 (二)抽选部分单位时要遵循随机原则(排除主观性) (三)会产生抽样误差,抽样误差可以计算,并且可 以控制。
3
三.抽样调查的适用范围
(一)有破坏性、有消耗性的调查。
(二)理论上可以进行全面调查,但实际上不可行, 如:职工家庭生活调查等。
(三)能节省人力、费用和时间,而且比较灵活。
Ex X
28
2、一致性 当抽样单位数充分大时,抽样指标和未知 的总体指标之间的绝对离差为任意小的可能性 也趋于必然性。
x X 任意小
3、有效性
即用抽样指标估计总体指标,要求作为优良估 计量方差应该比其他估计量的方差小。
2
x X f
2
f
2
x X f
x E ( x)
400 225 25 0
离差平方
2
5 6 7 8
9 10 11 12
50 50 50 50
70 70 70 70
40 50 70 80
40 50 70 80
45 50 60 65
55 60 70 75
-15 -10 0 5
-5 0 10 15
225 100 0 25
25 0 100 225
X 40+50+70+80 240 X= = = =60 (件) N 4 4
15
如果采取重复抽样方法,则所有可能样本以及平均产量 资料如表6-1、表6-2
表6-2 序号 1 2 3 4 合计 全及指标方差计算表 产量离差 X-X -20 -10 10 20 - 离差平方 (X-X)2 400 100 100 400 1000 产量 X 40 50 70 80 240
5 4 3 2 1 C 10 2 1 3 2 1
2 5
11
四、抽样调查的理论依据
1、大数定律 2、中心极限定律
12
第三节 抽样平均误差
一.抽样误差的概念 抽样误差:是指样本指标和总体指标之间数量上的差别。 二.影响抽样平均误差的因素 1.全及总体标志的变动程度 2.抽样单位数的多少 3.抽样组织的方式
样本标准差:=
( x x)
n
2
x x f 或 f x x f 或 f
2 2 2
7
三.抽样方法和样本可能数目
抽样方法分:重复抽样和不重复抽样。 重复抽样方法:从总体N个单位中随机抽取 容量为n的样本,每次从总体中抽取一个, 把他看做是一次试验,连续进行n次试验构 成抽样样本。每次抽出一个单位记录其有关 标志表现后又放回总体中,重新进行下一次 的抽选。因此,重复抽样的样本是由n次相 互独立的连续试验所组成。每次试验是在完 全相同的条件下进行的。每个单位中选或不 中选的机会在每次都完全一样。
2 ( X - X ) 1000 标准差= = =15.81(件) N 4
16
表6—1 序 号
1 2 3 4
全及指标方差计算表 平均数离差
样本变量 X (1) (2)
40 40 40 40 40 50 70 80
样本平均 数 x
40 45 55 60
x E(x)
-20 -15 -5 0
2
53.632 3.7922 (小时) n 200
不重复抽样: x
2
n (1 ) n N
53.632 200 (1 ) 3.7541 (小时) 200 10000
26
灯泡合格率的抽样平均 误差 : 重复抽样: p 不重复抽样: p p (1 P ) 0.915 0.085 1.972% n 200 p (1 P ) n (1 ) n N
13
四.抽样平均误差的计算
抽样平均误差:是抽样平均数的标准差或成数标准差。 (一)抽样平均数的抽样平均误差
x
x E ( x)
2
样本可能数目 K
样本平均数的平均数 E(x)
=X 样本可能数目
14
x
例如,有4个工人,各人每月产量分别是40,50, 70,80件,现在随机从中抽取2人,并求平均加工 零件数,用以代表4人总体的平均产量水平。
1
本章主要内容:
1.抽样调查的意义 2.抽样调查的基本概念及理论依据 3.抽样平均误差 4.全及指标的推断
5.抽样方案设计
6.必要抽样单位数的确定 7.假设检验
2
第一节 抽样调查的意义
一.抽样调查的概念
抽样调查:按照随机的原则从总体中抽取一部分单位 进行观察,并对总体进行推断。
二.抽样调查的特点
2
N
X X F 或 F X X F 或 F
2 2
N 0 N-N1 = =1-P N N
6
(二)抽样指标
x 样本平均数: x n n1 样本成数:p , n (x x) 样本方差: =
2 2
xf 或x f n0 n n1 q 1 p n n n
17
序号
13 14 15 16
合计
样本变量 X (1) (2) 80 40 80 50 80 70 80 80 ---
样本平 均数 x
平均数离差
x E(x)
0 5 15 20 --
x E ( x)
0 25 225 400 2000
离差平方
2
60 65 75 80
960
960 样本平均数的平均数 E ( x) 60(件) 样本可能数目 16 2000 抽样平均误差 x 11.18(件) 样本可能数目 16 15.81 抽样平均误差 x 11.18(件) n 2
(四)在有些情况下,抽样调查的结果比全面调查要准确
(五)用抽样调查的资料修正和补充全面调查资料
(六)抽样调查方法可以用于工业生产过程中的质量控制
(七)利用抽样推断的方法,可以对于某种假设进行检验
4
第二节 抽样调查的基本 概念及理论依据
一.全及总体和抽样总体
1.全及总体:简称总体,是指所要认识对象的
32
3.可信程度(教材333页,正态概率表)
x x X t x p p P t p t x x X
x
p
n pP P1 P n
t
p
P F (t ) 概率P与概率度是一对函数关 系。
33
3
2
1
68.27% 95.45% 99.73%
2 2 p
2
q
q p p q qp(q p) qp 1 1 2 p(1 p)
2 2
p(1 p)
23
重复抽样成数的平均误 差: p 不重复抽样成数的平均 误差: p
p(1 p) n p(1 P) n (1 ) n N
24
例,某灯泡厂对10000个产品进行使用寿命检验,随机抽 取2%样本进行测试,所得资料见表6-5所示
(一)考虑顺序的不重复抽样数目
N! A N ( N 1)(N 2) ( N n 1) ( N n)! 4 3 2 1 2 例如A4 12 2 1
n N
(二)考虑顺序的重复抽样数目
B N
n N 2 4
n 2
例如 B 4 16
10
(三)不考虑顺序的不重复抽样数目
离差
离差 平方
离差平方 乘权数
x 合格品 不合格 合计 1 0 -
f P q P+q=1
xf p 0 P
x-x (x-x)2 1-p 0-p - (1-p)2 (0-p)2 -
(x-x)2f (1-p)2p (0-p)2q q2p+p2q=qp
22
xf 1 p 0 q p x= p pq 1 f ( x x) f (1 p) p (0 p) pq f
/
/ 2
f
29
二、抽样推断的方法
(一)点估计
点估计也叫定值估计(直接估计),就是把样本平 均数或样本或成数直接作为总体平均数或总体成数 的估计值。
XX
P P
30
(二)区间估计
1.区间估计的意义
在一定概率的保证下,用样本指标去推 断总体指标,在考虑抽样误差的前提下,使 得总体指标落到某一范围之内,即根据抽样 指标定出置信区间和置信度。
2.样本总体:简称样本,是从全及总体中随机
抽取出来,代表全及总体部分单 位的集合体。单位数用n表示。
5
二.全及指标和抽样指标
(一)全及指标
X 总体平均数: X N 总体成数:P
2
XF 或X F Q=
2 2
N1 N N
(X-X) 总体方差: = 总体标准差:= (X-X)
N N 1 N 2 N n 1 N! c n! n! N n ! 4 3 2 1 2 例如C4 6 2 1 2 1
n N
(四)不考虑顺序的重复抽样数目
n n DN CN n 1
例如D C
2 4
2 4 2 1
表6-5 抽样产品使用寿命资料表
使用时间 (小时) 900以下 900-950 950-1000 1000-1050
抽样检查 灯泡数
2 4 11 71
使用时间 (小时) 1050-1100 1100-1150 1150-1200 1200以上 合计
抽样检查 灯泡数
84 18 7 3 200
25
质量规定,使用寿命在 1000 小时以上者为合格品, 200 (2 4 11) 183 则电灯泡合格率 p 91.5% 200 200 电灯泡平均使用时间 x 1057 小时 , 标准差=53.63小时 灯泡使用时间抽样平均 误差 : 重复抽样: x
8
不重复抽样方法:从总体N个单位中要随机 抽取容量为n的样本,每次从总体中抽取一 个,连续进行n次抽选,构成抽样样本。每 次抽出一个单位记录其有关标志表现后不再 放回总体中,不再进行下一次的抽选。因此, 不重复抽样的样本有如下特别之处: (1)实质上等于一次性抽取n个抽样样本 (2)抽选的结果不是相互独立的,第一次 抽选的结果影响下一次抽样。每一试验的概 率不同。
0.915 0.085 200 (1 ) 1.952% 200 10000
27
第四节 全及指标的推断
一、抽样推断要求
用抽样指标估计总体指标就该有三个要求或标准, 满足了这三个要求,就可以认为是合理的估计或优良 估计。
1、无偏性 即用抽样指标估计总体指标,要求所有可能样本 指标的平均数等于被估计总体指标。
31
2、抽样极限误差
抽样极限误差:是抽样指标与全及指标离差绝对值。
设 x 与 p 分别表示抽样平均数 与抽样成数的抽样极限 误差,则有 x x X X x x X x x x X x x X x x p p P Pp p P p p p P p p P p p
2
n (1 ) n N
2
20
(二)抽样成数的抽样平均误差
N1 p 占全及总体的比重: 具有某一标志的单位数 N N0 q 数占全及总体的比重: 不具有这一标志的单位 N N1 N 0 1 pq N N q 1 p
21
表6-4
交替标志的平均数和标准差计算表
交替 单位数 变量 标志 (成数) ×成 (变 数 量)
x
x E ( x)
2
18
说明:根据数理统计理论,在重复抽样条件下, 抽样平均误差与全及总体的标准差成正比例关系。 与抽样总体单位平方根成反比关系。
19
在不重复抽样情况下,抽样平均误差计算公式如下:
x x
N n 250 4-2 ( )= ( ) =9.13(件) n N 1 2 4-1
X源自文库
1
2
3
正态分布及其曲线下的面积图
34
以上述灯泡使用时间的检验为例,说明抽样推断方法: 已知:
x 1057 小时,合格率 p 91.5%, 灯泡使用时间抽样平均 误差 x 3.7922 小时 合格率的平均误差 p 1.972% 当t 1,概率保证为 68.27%, x 1 3.9722 3.9722 小时 1053 .21小时 X 1060 .79小时 p 1 0.01972 1.972% 则89.53 % P 93.47%
35
当t 2时,概率保证为 95.45 % x 2 3.7922 7.58小时 则1049 .42小时 X 1064 .58小时 p 2 0.01972 3.944% 则87.55% P 95.44%
(一)抽样调查的目的是由部分来推断总体 (二)抽选部分单位时要遵循随机原则(排除主观性) (三)会产生抽样误差,抽样误差可以计算,并且可 以控制。
3
三.抽样调查的适用范围
(一)有破坏性、有消耗性的调查。
(二)理论上可以进行全面调查,但实际上不可行, 如:职工家庭生活调查等。
(三)能节省人力、费用和时间,而且比较灵活。
Ex X
28
2、一致性 当抽样单位数充分大时,抽样指标和未知 的总体指标之间的绝对离差为任意小的可能性 也趋于必然性。
x X 任意小
3、有效性
即用抽样指标估计总体指标,要求作为优良估 计量方差应该比其他估计量的方差小。
2
x X f
2
f
2
x X f
x E ( x)
400 225 25 0
离差平方
2
5 6 7 8
9 10 11 12
50 50 50 50
70 70 70 70
40 50 70 80
40 50 70 80
45 50 60 65
55 60 70 75
-15 -10 0 5
-5 0 10 15
225 100 0 25
25 0 100 225
X 40+50+70+80 240 X= = = =60 (件) N 4 4
15
如果采取重复抽样方法,则所有可能样本以及平均产量 资料如表6-1、表6-2
表6-2 序号 1 2 3 4 合计 全及指标方差计算表 产量离差 X-X -20 -10 10 20 - 离差平方 (X-X)2 400 100 100 400 1000 产量 X 40 50 70 80 240
5 4 3 2 1 C 10 2 1 3 2 1
2 5
11
四、抽样调查的理论依据
1、大数定律 2、中心极限定律
12
第三节 抽样平均误差
一.抽样误差的概念 抽样误差:是指样本指标和总体指标之间数量上的差别。 二.影响抽样平均误差的因素 1.全及总体标志的变动程度 2.抽样单位数的多少 3.抽样组织的方式
样本标准差:=
( x x)
n
2
x x f 或 f x x f 或 f
2 2 2
7
三.抽样方法和样本可能数目
抽样方法分:重复抽样和不重复抽样。 重复抽样方法:从总体N个单位中随机抽取 容量为n的样本,每次从总体中抽取一个, 把他看做是一次试验,连续进行n次试验构 成抽样样本。每次抽出一个单位记录其有关 标志表现后又放回总体中,重新进行下一次 的抽选。因此,重复抽样的样本是由n次相 互独立的连续试验所组成。每次试验是在完 全相同的条件下进行的。每个单位中选或不 中选的机会在每次都完全一样。
2 ( X - X ) 1000 标准差= = =15.81(件) N 4
16
表6—1 序 号
1 2 3 4
全及指标方差计算表 平均数离差
样本变量 X (1) (2)
40 40 40 40 40 50 70 80
样本平均 数 x
40 45 55 60
x E(x)
-20 -15 -5 0
2
53.632 3.7922 (小时) n 200
不重复抽样: x
2
n (1 ) n N
53.632 200 (1 ) 3.7541 (小时) 200 10000
26
灯泡合格率的抽样平均 误差 : 重复抽样: p 不重复抽样: p p (1 P ) 0.915 0.085 1.972% n 200 p (1 P ) n (1 ) n N
13
四.抽样平均误差的计算
抽样平均误差:是抽样平均数的标准差或成数标准差。 (一)抽样平均数的抽样平均误差
x
x E ( x)
2
样本可能数目 K
样本平均数的平均数 E(x)
=X 样本可能数目
14
x
例如,有4个工人,各人每月产量分别是40,50, 70,80件,现在随机从中抽取2人,并求平均加工 零件数,用以代表4人总体的平均产量水平。
1
本章主要内容:
1.抽样调查的意义 2.抽样调查的基本概念及理论依据 3.抽样平均误差 4.全及指标的推断
5.抽样方案设计
6.必要抽样单位数的确定 7.假设检验
2
第一节 抽样调查的意义
一.抽样调查的概念
抽样调查:按照随机的原则从总体中抽取一部分单位 进行观察,并对总体进行推断。
二.抽样调查的特点
2
N
X X F 或 F X X F 或 F
2 2
N 0 N-N1 = =1-P N N
6
(二)抽样指标
x 样本平均数: x n n1 样本成数:p , n (x x) 样本方差: =
2 2
xf 或x f n0 n n1 q 1 p n n n
17
序号
13 14 15 16
合计
样本变量 X (1) (2) 80 40 80 50 80 70 80 80 ---
样本平 均数 x
平均数离差
x E(x)
0 5 15 20 --
x E ( x)
0 25 225 400 2000
离差平方
2
60 65 75 80
960
960 样本平均数的平均数 E ( x) 60(件) 样本可能数目 16 2000 抽样平均误差 x 11.18(件) 样本可能数目 16 15.81 抽样平均误差 x 11.18(件) n 2
(四)在有些情况下,抽样调查的结果比全面调查要准确
(五)用抽样调查的资料修正和补充全面调查资料
(六)抽样调查方法可以用于工业生产过程中的质量控制
(七)利用抽样推断的方法,可以对于某种假设进行检验
4
第二节 抽样调查的基本 概念及理论依据
一.全及总体和抽样总体
1.全及总体:简称总体,是指所要认识对象的
32
3.可信程度(教材333页,正态概率表)
x x X t x p p P t p t x x X
x
p
n pP P1 P n
t
p
P F (t ) 概率P与概率度是一对函数关 系。
33
3
2
1
68.27% 95.45% 99.73%
2 2 p
2
q
q p p q qp(q p) qp 1 1 2 p(1 p)
2 2
p(1 p)
23
重复抽样成数的平均误 差: p 不重复抽样成数的平均 误差: p
p(1 p) n p(1 P) n (1 ) n N
24
例,某灯泡厂对10000个产品进行使用寿命检验,随机抽 取2%样本进行测试,所得资料见表6-5所示
(一)考虑顺序的不重复抽样数目
N! A N ( N 1)(N 2) ( N n 1) ( N n)! 4 3 2 1 2 例如A4 12 2 1
n N
(二)考虑顺序的重复抽样数目
B N
n N 2 4
n 2
例如 B 4 16
10
(三)不考虑顺序的不重复抽样数目
离差
离差 平方
离差平方 乘权数
x 合格品 不合格 合计 1 0 -
f P q P+q=1
xf p 0 P
x-x (x-x)2 1-p 0-p - (1-p)2 (0-p)2 -
(x-x)2f (1-p)2p (0-p)2q q2p+p2q=qp
22
xf 1 p 0 q p x= p pq 1 f ( x x) f (1 p) p (0 p) pq f
/
/ 2
f
29
二、抽样推断的方法
(一)点估计
点估计也叫定值估计(直接估计),就是把样本平 均数或样本或成数直接作为总体平均数或总体成数 的估计值。
XX
P P
30
(二)区间估计
1.区间估计的意义
在一定概率的保证下,用样本指标去推 断总体指标,在考虑抽样误差的前提下,使 得总体指标落到某一范围之内,即根据抽样 指标定出置信区间和置信度。