第6章 抽样推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X1,X2,…,Xn的样本平均数x 服从数学期望为,方差
为 2 /的n 正态分布,即 ~ x
N
, 2 n
采用统计量Z,将非标准正态分布转化为标准正态分布,
Z x ~N(0,1) / n
对于给定的置信概率 1 a ,可以查正态分布表,
得出相应的临界值 Z / 2 (即概率度t)使得:
P Z / 2 Z Z / 2 1 a
(四)样本容量——指一个样本所包括的单位数。
(五)抽样比例——抽样比例是指在抽取样本时,所抽取的样 本单位数与总体单位数之比。
(六)样本个数——指从总体中可能抽取的最多的样本数量。
1、重复抽样: (1)考虑顺序: M = N n (2)不考虑顺序: M = (N + n- 1)! n!(N - 1)!
统计推断的过程
总体
样
样本统计量
本
例如:样本均
值、比例、方
差
(二)特点
1、按照随机原则抽取部分单位,抽样推断运 用概率估计的方法。
2、部分单位 总体。 3、抽样误差可以计算和控制。
(三)抽样推断的内容
参数估计 依据所获得的样本观察资料,对所 研究现象总体的水平、结构、规模等数量特 征进行估计。
p
M
例
五户家庭三月份购买福利彩票的支出:
10元,20元,30元,40元,50元
X 30元
现从五户中抽取二户作调查,
如果为重复抽样(考虑顺序)
52=25(种)
排列组合如下:
抽取样本
10 10 10 20 10 30 10 40 10 50 20 10 20 20 20 30 20 40 20 50 30 10 30 20 30 30
例 某灯泡厂从一天所生产的产品10,000个中抽取100
个检查其寿命,得平均寿命为2000小时,根据以往 资料σ=20小时,试求抽样平均误差。
重复抽样:
不重复抽样:
2
202 (2 小时)
x
n
100
2
n
(1 )
202 (1
假设检验 利用样本的实际资料来检验事先对 总体某些数量特征所作的假设是否可信的一 种统计分析方法。
二、抽样推断的作用
抽样调查方法是市场经济国家在调查方法
上的必然选择,和普查相比,它具有准确度高、 成本低、速度快、应用面广等优点。
建立起以周期性普查为基础、经常性抽样调 查为主体,必要的统计报表、重点调查、综合 分析等为补充的国家统计调查方法体系,是我 国统计方法制度改革的指导思想。
1.实际工作不可能进行全面调查观察,而又需要了解
其全面资料的事物;
2.虽可进行全面调查观察,但比较困难或并不必要;
3.对普查或全面调查统计资料的质量进行检查和修正;
4.抽样方法适用于对大量现象的观察,即组成事物总
体的单位数量较多的情况;
5.利用抽样推断的方法,可以对于某种总体的假设进
行检验,判断这种假设的真伪,以决定取舍。
2. 说明样本指标和总体指标相差的一般范围。
二、抽样平均误差
(一)概念 抽样平均误差是所有可能出现的样本指标的标 准差。反映样本指标与总体指标之间误差的一般水 平。通常用μ表示。
即是由于抽样的随机性而产生的样本指标与总 体指标之间的平均离差。
(二)理论公式
( x X )2
x
M
( p P )2
抽取样本
30 40 30 50 40 10 40 20 40 30 40 40 40 50 50 10 50 20 50 30 50 40 50 50 合计
抽取样本
10 10 10 20 10 30 10 40 10 50 20 10 20 20 20 30 20 40 20 50 30 10 30 20 30 30
2500 10(元)
x
M
25
(三)实际计算公式 (以纯随机抽样为例) 1.重复抽样
2
x
n
2.不重复抽样
p(1 p)
p
n
2
n
(1 )
x
n
N
p(1 p) n
(1 )
p
n
N
总体方差未知时解决方法:
1、用样本方差代替
用 s2代替2 用(1-)代替p(1-p)
2、用过去全面调查的资料,也可以用过去 抽样调查的资料代替。
(一)大样本统计量分布的依据-中心极限定理
1、正态分布
(1)正态分布模型
如果连续型随机变量X的概率密度的函数为:
p x
1
e
x 2
2 2
2
x
其中σ>0,μ和σ均为常数,则称X服从参数为 μ和σ的正态分布,记作X~(μ,σ2)。
(2)正态分布的分布函数
FX
PX
x
X
pxdx
(x)dx
2、不重复抽样:
(1)考虑顺序: M = N ! (N - n)!
(2)不考虑顺序: M = N ! n!(N - n)!
可能样本数目的计算公式
不重复抽样
考虑 顺序
ANn
N! (N n)!
重复抽样
BNn N n
不考 虑顺 序
CNn
N! n!(N n)!
DNn
DNn
(N n 1)! n!(N 1)!
三、抽样推断的基本概念
(一) 全及总体和抽样总体(总体和样本)
全及总体:所要调查观察的全部事物。
总体单位数用N表示。
抽样总体:抽取出来调查观察的单位。
抽样总体的单位数用n表示。 n ≥ 30 大样本 n < 30 小样本
(二) 抽样方法 1、重复抽样: 1
N
2、不重复抽样: 1 、 1 、 1 ...... 1 N N 1 N 2 N n
第六章 抽样推断
第六章 抽样推断
§1抽样推断有关概念与理论依据 §2抽样误差 §3抽样估计和推算 §4抽样推断的组织形式
第一节 抽样推断ቤተ መጻሕፍቲ ባይዱ关概念与理论依据
一、抽样推断的意义、内容
(一)概念
按照随机原则从总体中抽取一部分单位进行 观察,并根据被抽取的那部分单位的结果,对总 体作出具有一定可靠程度的推断 。
但对较小的n值,t分布与标准正态分布之间有较大
差异.且P{|T|≥t0}≥P{|X|≥t0},其中X ~N(0,1),即在t分 布的尾部比在标准正态分布的尾部有着更大的概率.
t 分布的数学期望与方差
设T~t
(n),则E(T)=0,D(T)=
n
n
2
.
(n 2)
设(X1,X2,…,Xn)为来自正态总体
样本平均数 x 误差 x X
10
-20
15
-15
20
-10
25
-5
30
0
15
-15
20
-10
25
-5
30
0
35
5
20
-10
25
-5
30
0
2 xX
400 225 100 25
0 225 100 25
0 25 100 25 0
抽取样本 样本平均数 x 误差 x X
30 40
35
5
30 50
40
10
t分布的概率密度函数为
f(t)
(n
2
1)
n (n2)
(1
t2 n
)
n1
2,
(
t
)
其图形如图5-6所示(P106),其形状类似标准正态分布
的概率密度的图形.
当n较大时, t分布近似于标准正态分布.
当n较大时, t分布近似于标准正态分布.
一般说来,当n>30时,t分布与标准正态分布N(0,
1)就非常接近.
N(1 ,2)和N(2 ,2)的样本,且它们相互独立,则统计量
T
X
Y Sn
(1 2)
1 n1
1 n2
~
t(n1 n2 2)
(5.10)
其中
Sn
(n1
1)S12 n1
(n2
n2 2
1)S22
,
S12、S22 分别为两总体的样本方差.
2 ——分布
定义 设总体 X ~ N 0,1 , X1, X 2,..., X n 是 X
∑XF X= ∑F
总体方差
σ2 =
Σ(X-X)2 N
σ2 =
Σ(X-X)F2 ΣF
总体成数 P = N1 N
成数方差 σ2 = P(1-P)
统计量
研究数量 标志
研究品质 标志
样本平均数
x
=
∑x n
x
=
∑xf ∑f
样本方差
s2
(x x)2
n
s2
(x x)2 f
f
样本成数
p
=
n n
成数方差 s2 p(1 p)
(1)独立同分布的中心极限定理
设随机变量X1,X2,…,Xn相互独立,服从同一分
布,且有有限的数学期望 和方差 2 ,则随机变量
n
Xi n
Y i1
n
的分布函数 Fn (x) 满足如下极限式
lim n
Fn
(
x)
lim
n
P
n i 1
Xi n n
x
x
1
t2
e 2 dt
2
定理的应用:对于独立的随机变量序列 X n ,不管
Xi (i 1, 2, , n) 服从什么分布,只要它们是同分布,
且有有限的数学期望和方差,那么,当n充分大时,这
n
些随机变量之和 Xi 近似地服从正态分布N n, n 2 i 1
(2)棣莫弗—拉普拉斯中心极限定理
定理 设随机变量 n 服从二项分布 B(n, p) ,则对
于任意区间 [a,b] ,恒有
抽样误差就是指样本指标和总体指标之间
数量上的差别,即 -X 、p-P 。
登记误差
统计误差
代表性误差
系统性误差
随机误差
抽样实际误差 抽样平均误差
抽样误差即指随机误差,这是抽样调查 固有的误差,是无法避免的。
抽样误差的作用:
1. 在于说明样本指标的代表性大小。
误差大,则样本指标代表性低; 误差小,则样本指标代表性高; 误差等于0,则样本指标和总体指标一样大。
(七) 置信度
置信度也称为可靠度,或置信水平、置信系数。 即 在抽样对总体参数作出估计时,由于样本的随机性, 其结论总是不确定的。因此,采用一种概率的陈述方 法,也就是数理统计中的区间估计法,即估计值与总 体参数在一定允许的误差范围以内,其相应的概率有 多大,这个相应的概率称作置信度。
四、抽样推断的理论依据
重复抽样和不重复抽样会产生三个差别: 抽取的样本数目不同 抽样误差的计算公式不同 抽样误差的大小不同
(三) 参数和统计量
(全及指标和抽样指标、总体指标和样本指标)
全及指标:全及总体的那些指标。 抽样指标:抽样总体的那些指标。
参数
研究总体中 的数量标志
研究总体中 的品质标志
总体平均数
∑X X= N
40 10
25
-5
40 20
30
0
40 30
35
5
40 40
40
10
40 50
45
15
50 10
30
0
50 20
35
5
50 30
40
10
50 40
45
15
50 50
50
20
合计
-
-
2 xX 25 100 25 0 25 100 225 0 25 100 225 400 2 500
( x X )2
x
P
Z
/2
/
n
Z /2
1 a
P
x
Z
/
2
n
x Z /2
1
a
n
即在给定的显著性水平 a 下,总体均值
在 1 a 的置信概率下的置信区间为
x Za / 2
n
,x
Z
a
/
2
n
第二节 抽样误差
一、抽样误差的概念及种类
在抽样调查中,总体指标与样本指标不一致,两者 的偏差称为抽样误差。
1
e dx
(
x )2 22
2
x t 2
1 et2dt 1
(3)一般正态分布的标准化
若 X N , , 2
对其进行“标准化”变换,即令
Z X
则 Z N 0,1
2 、中心极限定理
一般意义: 无论随机变量服从何种分布,只要样本容量足够
大,都可以近似地看作是服从正态分布。中心极限 定理说明,大量相互独立的随机变量和的概率分布 是以正态分布为极限的。由于正态分布在概率论中 占有的中心地位,中心极限定理因此而得名。
的一个样本,
则称统计量
2
X12
X
2 2
X
2 n
服从自
由度为n的 2 分布,记作 2 ~ 2 (n)
自由度是指独立随机变量的个数, df n
n个相互独立的标准正态分布之平方和 服从自由度为n的 2 分布
五、抽样推断的基本原理
举例说明
例 总体方差已知时总体均值μ的区间估计
当X~ N,, 2 可以证明抽自该总体的简单随机样本
lim P a
n np
b b
1
t2
e 2 dt
n
np(1 p) a 2
二项分布的极限分布是正态分布
即如果 X ~ B(n, p) ,则
P a
n np
b b
1
t2
e 2 dt (b) (a)
np(1 p) a 2
一般地,如果 X ~ B(n, p) ,则
Pa
X
b
P
a np
X~N( , 2)的样本,则统计量
T
X S
n
~
t(n 1)
(5.9)
证 由于 X 与S 2相互独立,且
U
X
n
~
N(0,1),
(n 1)S 2
2
~
2(n 1)
由定义5.4得
X
n
(n 1)S 2
2
(n 1)
X S
n
T
~
t(n 1)
设(X1,X2,…,Xn1)和(Y1,Y2,…,Yn2) 分别是来自正态总体
X np
b np
np(1 p) np(1 p) np(1 p)
( b np ) ( a np )
np(1 p)
np(1 p)
(二)小样本统计量的分布律 1、 t分布及小样本均值的分布律
设随机变量X~N(0,1),Y~ 2(n) ,
且X与Y相互独立,则称统计量
T
X Y
n
服从自由度为n的t分布或学生氏分布,记作T ~t(n).