统计学原理——抽样调查
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x
(x )2
4000 18.2(6 元)
M
12
x
2 (N n)
n N 1
1000 (4 2) 18.2(6 元) 2 41
抽样平均误差
②样本成数(比例)的抽样平均误差
总体中具有某种特征的单位占全部总体单位数的比例称为总体比
例,记作 ,P样本中具有此种特征的单位占全部样本单位数的比例 称为样本比例,记作 。 p
或:
p
p(1 p) (1 n )
n
N
0.8 0.2 (1 500 ) 1.78%
500
100000
例7.3:对某天生产的2000件电子元件的耐用时间 进行全面检测,又抽取5%进行复测
耐用时间 (小时) 3000以下 3000-4000 4000-5000 5000以上 合计
全面检测 (件) 50 600 990 360 2000
重复抽样条件下:
p
P(1 P) n
不重复抽样条件下:
p
P(1 P) (1 n )
n
N
例7.2 要估计某地区100000名适龄儿童的入学率, 随机从这一地区抽取500名儿童,检查有400 名儿童入学,求抽样误差。
p 400 80% 500
p
p(1 p) n
0.8 0.2 1.78% 500
则称 X 服从标准正态分布,记作 X ~ N(0 ,1)。
标准正态分布的分布密度 (x) 和分布函数 (x) 的性质如下: (1)(x) 是偶函数,即 (x) = (x) (2)(x) =1- (x)
(一)概念
抽样分布是样本统计量的概率分布。从一个总体中随 机抽取容量相等的样本,根据样本资料计算某一统计量 所有可能的概率分布,称为这个统计量的抽样分布。
(二)种类
精确分布/小样本分布:大多数是在正态 分布总体条件下得到的,但应用不广
渐近分布/大样本分布:样本容量无限增 大时统计量的极限分布,可看作是抽 样分布的一种近似
(x )2
x
M
8000 22.36(元) 16
x
n
31.62 22.36(元) 2
不重复抽样
x x 样本变量 样本平均
平均数离差 离差平方
x E(x) x E(x)2
1
70 90
80
2
70 130
100
3
70 150
110
4
90 70
80
5
90 130
110
6
90 150
120
7
抽样极限误差
①样本平均数的抽样极限误差:以绝对值形
式表示的样本平均数的抽样误差的可能范围,用 符号表示为:
x x
即:
x
x
x
抽样极限/允许误差
②样本比例的抽样极限误差:以绝对值形式表示
的样本比例的抽样误差的可能范围,用符号表示为:
p P p
即:
Pp p Pp
第二节 抽样分布
一、抽样分布的概念和种类
总体方差: 2
总体标准差:
样本指标符号
样本容量: n
样本平均数: x
样本成数: p
样本方差: S 2
样本标准差: S
第二节 抽样推断的基本原理
一、抽样推断的方法论基础
(一)大数定律:当试验次数足够多时,事件 发生的频率无穷接近于该事件发生的概率。
lim n
P(
1 n
n i 1
xi
) 1
应用于抽样调查有如下结论:随着样本容量n 的增加,样本平均数将接近于总体平均数。
110元, 31.62元
可能产生的样本如下:
重复抽样
x x 样本变量 样本平均
1
70 70
70
样本平均 2
70 90
80
数的平均 数等于总
3 4 5
70 130 70 150 90 70
100 110 80
体平均数 6
90 90
90
7
90 130
110
8
90 150
120
9
130 70
100
x
(xi )2
m
其中, xi:为各个可能样本的平均数
:为总体平均数
m :为重复抽样条件下所有可能的样本数
抽样平均误差
实际抽样推断中采用的公式
重复简单随机抽样: x
2
n
不重复简单随机抽样: x
2 (N n)
n N 1
其中, 2 为总体方差;
N n
N 1 为不重复抽样的修正因子。
重复抽样
常见的抽样分布
(一)正态分布 1.正态分布:如果随机变量的概率密度函数为:
f (x)
1
x 2
e 2 2
2π
-∞< x<+∞
其中, 、 为常数且 >0,则称X 服从参数
为 、
X N( 2 )
的正态分布,记作 ~
,。
*正态分布是最常见的抽样分布。
常见的抽样分布
2.标准正态分布:在正态分布中,当参数 =0, =1时,
抽样复测 (件) 2 30 50 18 100
根据规定耐用时间在3000小时以下为不合格 品,根据以上资料,计算该电子元件平均耐 用时间及合格率的抽样平均误差
平均耐用时间的抽样平均误差
x xf
重置抽样:
2500
f
50
.
.
.
.
.x550n20
551100 361000
74.24小时
2000
4330(小时) 不重置抽样:
(三)重复抽样和不重复抽样
1.重复抽样:又称有放回的抽样,从总体中抽取样本时, 每次被抽中的单位都再被放回总体中参与下一次抽样。 2.不重复抽样:又称无放回的抽样,总体中随机抽选的 单位经观察后不放回到总体中,即不再参加下次抽样。
**思考与讨论
从容量为N的总体中随机抽取容量为n的样本,根
据概率论与数理统计知识,讨论重复抽样和不重复抽样 中各单位依次被抽中的概率,并比较在同等条件下,哪 种抽样的代表性好。
(x x)2 f f
x
2
(1
n
)
nN
(2500
4330)2
50 ..... (55505011403030)2 316000
2000
(1
)
72.36小时
100 2000
5551100
合格率的抽样平均误差
P 2000 50 97.5% 2000
重置抽样:
p
P(1 P) n
0.975 0.025 1.56% 100
不重置抽样:
p
P(1 P() 1 n )
n
N
0.975 0.025 (1 100 ) 1.52%
100
2000
三、影响抽样误差的因素
1、抽样单位数的多少
抽样误差大小与抽样单位数的多少成反比
2、总体标志的变异程度
抽样误差大小与总体标志的变异程度成正比
3、抽样组织方式影响
不重复抽样误差小于重复抽样误差
10 150 70
110
0
11 150 90
120
10
12 150 130
140
30
E(x) 合计x
—
M
1320
0
抽样实际
1320 110(元)
误差
12
抽样平均误差
①抽样平均数的平均误差
概念:就是抽样平均数的标准差,反映抽样平均数的
所有可能值对总体平均数的平均离散程度,记作x 。
定义公式:
(二)概率抽样与非概率抽样
1.概率抽样:又称随机抽样,是按随机原则抽取样本单 位。本章所指的均为概率抽样。
2.非概率抽样:又称非随机抽样,是指从研究的目的和 需要出发,根据调查者的经验或判断,从总体中有意识 地抽取部分单位构成样本。
**应用举例:重点调查、典型调查应为非概率抽样。
二、抽样及抽样估计中的相关概念
合计
—
抽17样60实际
0
误差
不重复抽样
x x 样本变量 样本平均
平均数离差
x E(x)
1
70 90
80
-30
2
70 130
100
-10
3
70 150
110
0
4
90 70
80
-30
5
90 130
110
0
6
90 150
120
10
7
130 70
100
-10
8
130 90
110
0
9
130 150
140
30
(二)抽样估计的特征
1.抽样估计是由部分推断总体的一种认识方法。 2.抽样估计建立在随机取样的基础上。 3.抽样估计运用的是不确定的概率估计方法。 4.抽样估计的误差可以事先计算并加以控制。
二、抽样及抽样估计中的相关概念
(一)全及总体和样本 1.全及总体:是由被调查对象的全部单位所构成的集
合体,简称总体。
总体容量:总体中的单位数,用N表示。
2.样本:样本是从总体中抽取的进行调查的部分单位的 集合体,又称抽样总体。
样本容量:样本中的单位数,用n表示。 大样本和小样本:n≥30时称大样本,n<30称小
样本。 **应用:在班级40名学生中随机选取15人进行健康状况
调查,说明其中的总体、样本及容量。
二、抽样及抽样估计中的相关概念
本章难点:抽样误差的相关概念、不同已知条件下的 区间估计方法。
第一节 抽样和抽样估计中的基本 概念
一、抽样估计的概念和特征
(一)抽样及抽样估计的概念 1.抽样即抽样调查,是指在总体中选取部分单位组
成样本并收集样本单位的数据资料的过程。
2.抽样估计是在抽样调查的基础上,利用样本的
数据资料计算样本指标,以样本特征值对总体特征 值做出具有一定可靠程度的估计和判断。
(二)中心极限定理
只要样本容量n充分大的条件下,不论总 体的变量分布是否属于正态分布,抽样平 均数也趋于正态分布。
二、抽样估计的基本要求
无偏性:抽样指标的平均数等于全及指标 一致性:样本单位数逐渐增大,样本指标越来越
接近全及指标
有效性:估计量方差越小越有效。
例如抽样平均数与总体平均数的方差比总体内部各个变量 与总体平均数的方差小,因此抽样平均数估计总体平均数 比总体的单个变量更有效
130 70
100
8
130 90
110
9
130 150
140
10 150 70
110
11 150 90
120
12 150 130
140
-30
900
-10
100
0
0
-309000010100
-10
100
0
0
30
900
0
0
10
100
30
900
合计
—
1320
0
4000
E(x) x 1320 11(0 元) M 12
x x 样本变量 样本平均
平均数离差
x
1
70 70
70
-40
2
70 90
80
-30
3
70 130
100
-10
4
70 150
110
0
5
90 70
80
-30
6
90 90
90
-20
7
90 130
110
0
8
90 150
120
10
9
130 70
100
-10
10 130 90
110
0
11 130 130
130
20
二、抽样及抽样估计中的相关概念
(四)抽样框
1.概念:抽样框是包括全部抽样单位的名单框架。 2.形式 名单抽样框:如学生名单、职工名单、企业名单等。
区域抽样框:如将一个城市按行政区划分为若干区、 街道、居委会等。 时间抽样框:如对流水线上的产品每隔一定时间抽取一 定单位。
二、抽样及抽样估计中的相关概念
第七章 抽样与抽样估计
学习目的及重难点提示
本章学习目的
了解抽样估计的概念和特征、抽样调查的组织方式。 领会抽样估计中的相关概念。 掌握抽样估计中常用的统计量(均值、方差、标准差、 成数)。 掌握正态分布总体参数的估计方法(点估计、区间估 计)。
本章重难点提示
本章重点:抽样估计的相关概念、抽样分布、样本统 计量、区间估计方法。
E(x) x
10 11
130 90 130 130
110 130
M 12 130 150
140
1760 16
13
110(11元45 )
16
150 150 150 150
70 90 130 150
110 120 140 150
平均数离差
xX
-40 -30 -10
0 -30 -20
0 10 -10 0 20 30 0 10 30 40
(2)抽样平均误差:是指所有可能的样本指标与总体 指标之间的平均差异程度,即样本估计值的标准差。
(3)抽样极限/允许误差:又称置信区间,是指一定 概率下抽样误差的可能范围,说明样本估计量在总体参 数周围变动的范围,记作Δ。
例7.1,设有4个工人,其每周工资分别为70,90, 130,150元,从4人中随机抽取2人构成样本:
第 三 节 抽样误差
一、统计误差类型
调查误差:技术性、登记性、责任性误差
代表性误差
系统性误差
随机误差
实际误差 抽样平均误差
二、抽样误差
1.抽样误差
抽样误差是指不包括登记性误差和系统性误差在内的 随机误差,它衡量了抽样估计的精确度。
2.与抽样误差有关的三个概念
(1)抽样实际误差:指某一次具体抽样中,样本指标 值与总体参数真实值之间的偏差。
12 130 150
140
30
13 150 70
110
0
14 150 90
120
10
15 150 130
140
30
16 150 150
150
40
合计
—
1760
0
离差平方
x E(x)2
1600 900 100
0 900 400
0 100 100
0 400 900
0 100 900 1600
8000
E(x) x 1760 11(0 元) M 16
(五)总体参数和样本统计量
1.总体参数:是反映总体数量特征的数值。在抽样推断
中,参数是未知的、待估计的确定值。
2.样本统计量:是根据样本资料计算的反映样本数量特 征的变量,它的值随着样本的不同而变化,因此是一个 随机变量。
表7-1 总体参数和样本统计量符号
总体指标符号
总体容量: N
总体平均数:
总体成数: P