统计学第七章抽样推断syong

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 抽样推断
❖本章内容
第一节 抽样推断概述 第二节 抽样推断的几个基本概念 第三节 抽样误差 第四节 参数估计的一般问题 第五节 一个总体参数的区间估计 第六节 样本容量的确定——抽样方案设计
❖ 本章重点 ❖ 第三、五、六节内容 ❖ 本章难点 ❖ 第三、五节内容 ❖ 具体要求 ❖ 理解-抽样推断的含义、作用及基本概念 ❖ 掌握-抽样误差的计算、参数估计的方法等。
§7.1抽样推断概述
一、抽样推断的概念
“抽样推断、抽样调查和抽样估计”基本上 是相同的意思。『回顾第二节“抽样调查”的概 念』
抽样推断是按照随机原则从全部研究对象中 抽取一部分单位进行观察,并根据被抽取的那部 分单位的数量特征,运用一定的数理统计方法, 对总体的数量性作出具有一定可靠程度的估计和 判断。
• 二、抽样推断的特点

1、抽样推断是非全面调查。可以节省人力
物力和财力,取得事半功倍的效果。

2、抽样推断是按随机原则抽选调查单位。

3、抽样推断是用样本的指标数值去推算总
体的指标数值。

4、抽样推断运用的是概率原理。

5、抽样推断中产生的误差可以事先计算并加
以控制。
• 三、抽样推断的作用(适用范围)

1、对无限总体全面情况的了解,必须采用抽
样推断。
• 2、对破坏性或消耗性检查,必须采用抽样调
查。
• 3、对某些可以但事实上不必或不可能进行全
面调查的现象总体,可以采用抽样推断获取相关
资料。
• 4、抽样调查可以对全面调查得来的资料进行
验证,并据以进行补充和修改。
• 5、抽样推断可以用于生产过程的质量控制。
§7.2抽样推断的几个基本概念
一、全及总体和抽样(样本)总体
1、全及总体又称母体,简称总体,它是指所要认 识的,具有某种共同性质的许多单位的集合体。
组成全及总体的单位称为总体单位,全及总体的单 位数一般用N表示。
2、抽样总体又称子样,简称样本,是从全及总体 中随机抽取的那一部分单位所构成的集合体。
组成抽样总体的单位称为样本单位,样本单位数亦 称样本容量,一般用n表示。
样本单位数的范围:1<n<N
n

抽样比例N:
• 大样本:n≥30;小样本:n<30

重点理解:如果说对于一次抽样调查,
全及总体是唯一确定的,那么抽样总体就不是
这样,样本是不确定的,一个全及总体可能抽
出很多个样本总体,样本的个数和样本的容量
有关,也和抽样的方法有关。
二、样本容量和样本个数
• 1.样本容量:是指一个样本所包含的单位数, 通常用n表示。(总体单位数用N表示)
• 2.样本个数:样本可能数目,是从一个总体中 可能抽取的样本个数。
• 如:样本容量为n
• 重复抽样:样本个数为 N n
• 不重复抽样:样本个数为
N(N 1)(N 2) (N n 1) PNn
三、总体指标和样本指标
• 1.总体指标(参数)
i. 总体平均数 ii. 总体成数
X
N
• 当研究的是总体个单位的属性特征时,
只能用一定的术语来描述,所以就应该计算
比重结构指标,称为总体成数。用大写 P
表示,它说明了总体中具有某种标志的单位
数在总体中所占的比重。
• 设总体N个单位中,有N1个单位具有某 种属性,N0个不具有某种属性, N1 +N0=N, P为总体中具有某种属性的单位数所占的比 重,Q为布局有某种属性的单位所占的比重, 则总体成数为:
P N1 N
Q N0 N N1 1 P NN
iii. 总体标准差、总体方差
2 X X 2
N
2.样本指标(统计量)
i.
样本平均数
x x
ii. 样本成数
n
pˆ n1 n
q n0 n n1 1 pˆ nn
iii. 样本标准差、样本方差
s2 x x 2
n 1
• 四、重复抽样和不重复抽样

抽取样本有两种基本方法,不同的方法会影响抽样
的误差。

1、重复抽样(重置抽样、放回抽样)

基本的特点和做法

样本个数的计算:Nn(可重复排列数)

2、不重复抽样(不重置抽样、不放回抽样)

基本的特点和做法

样本个数的计算: (不重复排列数)

N(N-1)(N-2)......(N-n+1)=N!/(N-n)!

以上都是考虑顺序的抽样!
§7.3 抽样误差
一、 抽样误差
1 抽样误差的概念
一般地说,抽样误差是指根据样本数据计算而得的样本 统计量值与被它估计的未知的总体参数真值之间的差值。
抽样误差
样本统计量值 总体参数真值 例 如
均值抽样误差
x
X
15
2、统计调查误差的种类 (1)登记性误差(工作误差)
调查过程中由于主客观原因在登记、汇总、计算、过录 中所产生的差错。
(2)代表性误差 用部分推算总体时产生的误差。 ①偏差(系统性误差):由于抽样调查没有遵循随机原
则而产生的误差。 ②随机误差 (偶然性误差):在没有登记性误差又遵循
了随机原则的情况下,所产生的样本指标与被它估计的总体相 应指标的差数。

• 3、抽样误差的进一步理解

※它就是指随机误差;

※它是一个随机变量;

※它是抽样推断中不可避免不可消除的误差;

※抽样误差的大小反映了样本代表性的高低;

※它可以用数理统计方法进行计算和控制。
• 二、抽样平均误差
1.抽样平均误差的含义:

抽样平均误差从一般意义上说是所有样本指标与总体
指标差数的平均水平,它反映了抽样指标与总体指标的平
均离差程度。 实质就是所有可能出现的样本指标的标准差。
一全及总体可抽取的样本有多个 每个样本都可以计算出相应的样本指标(抽样平均数或
抽样成数指标) 样本指标和总体指标的抽样误差各不相同(随机变量)
为了测定样本(指标)的代表性程度的高低,单独用 某一次的抽样误差来衡量是不科学的,因此就需要采用一 定的方法(求标准差的方法)计算所有抽样误差的平均数, 这就是抽样平均误差。同时它在参数估计中也要用到。 •
【例】假设从4个生产汽车零件的工人总体抽取2人进 行抽样调查,来推断4个工人的平均日产量。4 个工人 的日产量分别为:x1=1、x2=2、x3=3 、x4=4 (单位:件 )。可得总体的均值、方差及分布如下
总体分布
.3 P
.2
.1 0
1
234
均值和方差
N
xi
i1 2.5
N
N
(xi )2
2 i1
1.25
N
现从总体中抽取n=2的简单随机样本,在重复抽 样条件下,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个)
第一个
第二个观察值
观察值
1
2
3
4
1
1,1
1,2
1,3
1,4
2
2,1
2,2
2,3
2,4
3
3,1
3,2
3,3
3,4
4
4,1
4,2
4,3
4,4
计算出各样本的均值,如下表。
16个样本的均值(x)
第一个
第二个观察值
观察值
1
2
3
4
1
1.0
1.5
2.0
2.5
2
1.5
2.0
2.5
3.0
3
2.0
2.5
3.0
3.5
4
2.5
3.0
3.5
4.0
样本平均数
x
1 1.5 2 2.5 3 3.5 4
概率
P(x)
1/16 2/16 3/16 4/16 3/16 2/16 1/16
样本平均数的均值
n
X
xi
i 1
M
1.0 1.5 16
4.0
2.5

X xi P(x) 11/16 1.5 2 /16 3.5 2 /16 41/16
2.5
抽样平均误差是所有样本指标与总体指标离差的平均水平
,所以有以下计算
M
X
(xi )2
i1
M
(1 2.5)2 (1.5 2.5)2 (4 2.5)2 16
0.7906 (件)
2 X
0.625
0.7906件的含义是,对于16个样本,无论抽到哪个样本 平均来说误差为0.7906件。
从以上计算中可以看出:
(1)抽样平均误差就是抽样指标的标准差, 所以也称为抽样标准误差或估计标准误。
(2)抽样平均误差(即抽样指标的标准差) 比总体标准差小的多,仅为总体标准差的 1 。
n
2.抽样平均误差的计算
l 依据抽样分布的基本原理,可以利用以下计算公式直接计算出 相应样本统计量的抽样平均误差。
l (1)样本均值的抽样平均误差
D重复抽样条件下: xn
( D不重复抽样条件下: 2 N n
x
n N 1
Q 一般情况下N比较大 N 1 ≈ N
N n N 1
1
n N
\
x
2 n
(1
n N
)
26
抽样平均误差
(2)样本成数的抽样平均误差
D重复抽样条件下:
p (1 p)
p
n
D不重复抽样条件下:
p
p
(1 n
p
)
N N
n 1
p
(1 n
P)
(1
n N
)
27
抽样平均误差(举例)
l 【 例 】 从 10000
名 学 生 中 抽 查 解:已知N=10000,n=200, x =1.65m,σ = 0.28,p = 30%
200 名 测 得 平 均 身 高 为 1.65m , 已知学生身高的 总体标准差 σ=0.28 。 其 中 女 生占全部学生的 比 重 30% 。 求 学 生平均身高和女 生比重的抽样平 均误差。
➢ 在重复抽样的条件下:
0.28 0.0198 x n 200
p
P(1 P )
n
0.3 (1 0.3)
200
3.24%
➢ 在不重复抽样的条件下:
x
2 n
(1
n N
)
0.282(1 200 ) 0.0196
200 10000
p
P
(1P
n
)
(1
n N
)
0.3
(1 0.3) 200
(1
12000000)
3.21%
28

※在没有总体方差和标准差时怎么办?

(用样本的相关指标代替即可)
计算公式汇总:
抽样平均数 x
n
x
n
重复抽样 1 n 不重复抽样
N
抽样成数 p
p n
P(1 P) n
重复抽样
p
P(1 P) 1 n 不重复抽样
n
N
• 三、影响抽样(平均)误差的因素

1、抽样单位数目的多少;

2、总体被研究标志的变异程度;

3、抽样方法和组织形式的不同。
§7.4 参数估计的一般问题
一. 估计量与估计值 二. 评价估计量的标准 三. 点估计与区间估计
一、估计量与估计值
(estimator & estimated value)
1. 估计量:用于估计总体参数的随机变量
– 如样本均值,样本比例、样本方差等
– 例如: 样本均值就是总体均值 的一个估计量
2. 参数用 表示,估计量用ˆ 表示
3. 估计值:估计参数时计算出来的统计量的 具体值
– 如果样本均值 x =80,则80就是的估计值
二、评价估计量的标准
1. 无偏性(unbiasedness)
• 无偏性:估计量抽样分布的数学期望等于 被

估计的总体参数
P(ˆ)
无偏
有偏
A
B
ˆ
2.有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计量
,有更小标准差的估计量更有效
P(ˆ)
ˆ1 的抽样分布
B
A
ˆ2 的抽样分布
ˆ
3.一致性
(consistency)
• 一致性:随着样本容量的增大,估计量的

值越来越接近被估计的总体参数
P(ˆ) 较大的样本容量 B
较小的样本容量
A
ˆ
三、点估计与区间估计
参数估计的方法
估计方法
点估计
区间估计
(一)点估计
(point estimate)
1. 用样本的估计量直接作为总体参数的估计 值
▪ 例如:用样本均值直接作为总体均值的估计 ▪ 例如:用两个样本均值之差直接作为总体均
值之差的估计
• 2. 没有给出估计值接近总体参数程度 的信息
(二)区间估计
(interval estimate)
1. 在点估计的基础上,给出总体参数估计的一个区间 范围,该区间由样本统计量加减抽样误差而得到的
2. 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量
– 比如,某班级平均分数在75~85之间,置信水平是95%
置信区间
样本统计量 (点估计)
置信下限
置信上限
区间估计的图示
X z 2 X
X
- 2.58x
X
-1.65 x
+1.65x + 2.58x
-1.96 x
+1.96x
90%的样本
95% 的样本
99% 的样本
• 抽样极限误差(抽样允许误差、抽样边际误 差)

含义: 抽样极限误差是指抽样指标和总体指标
之间抽样误差的可能范围。即 zα 2σX ,也可用E表
示。
E zα 2σX

意义:由于抽样误差是一个随机变量,因此在实
际工作中到底允许抽样误差在一个什么样的范围内,
这要根据实际情况来定。
影响区间宽度(E)的因素
1. 总体数据的离散程度,用 来测度
2. 3.
样本容量, X 置信水平 (1 -
),n 影响
z
的大小
置信水平
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例称为置信水平
相关文档
最新文档