统计学教程(含spss)四参数估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
是
是
否
σ值是否已知
是否为大样本 n≥30
否
是
总体是否近
否
似正态分布
是
否
σ值是否已知
用样本标准差s 估计δ
用样本标准差s 估计δ
__
x z 2 n
__
x z 2
s n
__
x z 2 n
__
x t 2
s n
将样本容量 增加到n≥30 以便进行区间
估计
np 5 n(1 p) 5
p~N P,P1 P
D 1 n
n xi i1
1 n2
n
D
i 1
xi
2 n
抽样分布
若总体X~N , 2 , x1, x2 , xn 是取自总体的随机样本,
x 1 n
n
xi
i 1
,则
x~
N
,
2
n
;
x n
~
N 0,1
总体为正态概率分布时,对任何样本容
x 量的 的分布均为正态分布。
中心极限定理(central limit theorem)
它是点估计量的具体的取值点估计量pointestimator提供总体参数点估计的样本统计量标准误差standarderror点估计量的标准差中心极限定理centrallimittheorem当样本容量大的时候用正态分布近似样本均值的分布和样本比率的抽样分布区间估计intervalestimate总体参数估计值的一个范围确信该范围包括参数的值在内抽样误差sampleerror无偏估计值如样本均值与所估计的总体值如总体均值之差的绝对值置信水平confidencelevel与区间估计相联系的置信度边际误差marginerror置信区间中从点估计值中所加上或减去的值t分布tdistribution概率分布的一族当总体是正态或者近似正态概率分布并且总体标准差未知情况下对总体均值进行区间估计时常用到该分布自由度degrees分布的参数计算总体均值的区间估计中所用的t分布的自由度为n1其中n是简单单随机样本的样本容量结束案例51某学者估计某城市一个家庭所收到的邮件中大约有70是广告
P1 P —总体的方差
n —样本容量
N —总体容量
对于 p,满足下面两个条件时认为样本容量足够大: —— np 5
—— n(1 p) 5
当样本容量足够大时, p 的抽样分布可用正态近似,即:
p~N P,P1 P
n
pP
P1 P
~N
0,1
n
0.40
0.35 p 的分布
0.30
0.25
0.20
从一批灌装产品中,随机抽取20灌,得样本方差为0.0025。试以95%的置 信度,估计总体方差的存在区间。
n 1 s2 2 n 1 s2
2 2
2 1 2
n 1 s2
2 0.025
2
n 1 s2
2 0.975
19 0.0025 2 19 0.0025
32.8523
8.90655
自有限总体的简单随机抽样
简单随机样本
12
7
3
23
2
23
25
9
36
38
无限总体
抽样方法
自无 限总 体的 简单 随机 抽样
简单随机样本
自无限总体抽取样本,采用无放回抽样。如 果满足以下两个条件,则称简单随机抽样: ——每个个体来自同一个总体 ——样本中每个个体的抽取是独立的
抽样分布
确定性
总体
理 论 上 可 计 算
f x
x
n
x 2
f x
1
e 2 2 x
2
x
抽样分布
E(x)
x
标准正态分布
f
x
n
1
x2
e2
2
0
x
总体X的分布
中心极限定理对三个总体作用的图示
样 本 均值的 分 布
n=2
n=5
抽样分布 n=30
抽样分布
Ep P
E p —随机变量p的数学期望 P —总体比率
p
P1 P
n
p —随机变量 p 的标准差
Z 2 1.96
总体方差最大值 为0.5×0.5=0.25
n
Z
2
2 P1
P
1.96 2
0.5 1
0.5
2
0.052
385
总体方差的区间估计
若总体X~N, 2 ,
x1, x2 , xn是取自总体的随机样本
则n 1s2 2~ 2 n 1
2 1 2
n 1 s2
2
2
2
2 1 2
1
2 2
n 1 s2 2 n 1 s2
自由度为2
自由度为5
n 1s 2 2 n 1s 2
2 2
2 1 2
显著性水平α下,σ2 的置信区间
n
2
1s 2 2 n 1
,
n
2 1
1s 2 2 n 1
自由度为10
0 n 1s2 2 的抽样分布 2分布
n 1s2
2
总体方差的区间估计
0.20
0.15
0.10
0.05
2600
3400
4200
5000
抽样分布
1000名公司员工总体,500个容 量为30的简单随机样本的平均年薪、 大学毕业生比率、年薪标准差的分布 直方图。
0.40
0.35 p 的分布
0.30
0.25
0.20
0.15
0.10
0.05 0.32
0.48
0.64
0.80
抽样分布
自正态总体抽样时,总体均值与总体中位数相同,而中位数的 标准误差大约比均值的标准误差大25%。因此,样本均值更有效。
x 的抽样分布
M e的抽样分布
____
X
有效性
一致性
如果 lim
P
1(为任意小数,n
为样本容量)
n
则称 为的满足一致性标准的点估计量
ˆ1的抽样分布 ˆ2的抽样分布
x s 2 p 均为一致性估计量
Ex
x E x —随机变量 的数学期望
—总体均值
设总体均值为μ总体方差为σ2 ,则有:
E
x
E 1 n
n i 1
Hale Waihona Puke xi1 nnExi
i 1
xn
x x —随机变量 的标准差 —总体的标准差
n —样本容量 N —总体容量
设总体均值为μ总体方差为σ2 ,则有:
D
x
抽样(sampling)
样本容量(sample size) n=10
样本(sample)
31
27
30
29
28
有限总体
32
41
13
33
26
25
34
38
40
39
36
37
12
14
35
42
23
1
24
2
17
22
15
43
16
44
20
21
91
18
11
45
10
3 4
9
8
7
6
5
抽样方法
总体中每一个体以相等的概率被 抽出,称简单随机抽样。有放回抽样 与无放回抽样之分。自有限总体的简 单随机抽样,特指有放回抽样。
2 1800000
500
0.05
Z 2 1.96
n
Z2 2 2 2
1.962
1800000 5002
27.65
28
一家市场调研公司想估计某地区有彩色电视机的家庭所 占的比率。该公司希望对 P 的估计误差不超过0.05,要求可 靠程度为 95%,应取多大容量的样本?
0.05
0.05
x1 , x2 , xn是取自总体 的随机样本 则有
n 1 s 2 2 ~ 2 n 1
5000
样本容量与抽样分布
n 100
400 x
E ( x) 与样本容量无关
x
n
与样本容量有关
51800
n 30
730.30 x
点估计的概念 估计量的优良性
点估计
点估计的概念
某连续生产线上生产的灯泡的使用寿命X服从正态分布N(μ,δ2),其中μ和δ2是未 知总体参数。从中随机抽取5只灯泡,测得使用寿命分别为1529小时、1513小时、1600 小时、1527小时、1111小时。试估计μ和δ2。
0.0014 2 0.0053
1 95%
0.025
0
2 0.975=8.90655
0.025
2 0.025=32.8523
n
总体比计的区间估计
Z
pP
P1 P
~N
0,1
n
p
P1 P
n
显著性水平α下,P在1- α置信水平下的置信区间:
p Z 2
p1 p
n
, p Z 2
p1
n
p
2
2
z 2 p
P
z 2 p
总体比计的区间估计
某企业在一项关于职工流动原因的研究中,从企业前职工的总体中随机抽选了200人 组成一个样本。在对其进行访问时,有140说他们离开该企业是由于同管理人员不能融洽 相处。试对由于这种原因而离开企业的人员的真正比率构造95%的置信区间。
n
总体方差已知时总体均值的区间估计
一批零件的长度服从正态分布,从中随机抽取9件,测得其平均长度为21.4毫米。已 知该批零件长度的标准差为0.15毫米,试以95%的把握程度,估计该批零件平均长度的存 在区间。
__
X~,0.152 n 9 0.15 1 0.95 x 2.14
0.05 0.025 Z 1.96
p 0.7 n 200 1 0.95
n1 p 2000.3 60 5
np 200 0.7 140 5 Z 2 1.96
p Z 2
p1
n
p,
p
Z 2
p1
n
p
0.7 1.96
0.71 0.7,0.7 1.96
200
0.71 0.7
200
0.636,0.764
允许误差(permissible)
__
x 26
0.05
n 100 30
s2 34
1 0.95
0.025
2
t n 1 t0.02599 1.984 2
__
x
t
2
s __ n , x t 2
s n
26 1.984
34 ,26 1.984 100
34 100
24.84,27.16
总体均值区间估计程序
总体均值的区间估计
n较大时的抽样分布 n较小时的抽样分布
两个无偏点估计量的抽样分布
ˆ
ˆ
两个不同容量样本的点估计量的抽样分布
总体均值的区间估计 总体比率的区间估计
样本容量的确定 总体方差的区间估计
区间估计
总体均值的区间估计
总体方差已知时总体均值的区间估计 总体方差未知时总体均值的区间估计
总体方差已知时总体均值的区间估计
x
t
2
s n
,
__
x
t
2
s n
0.4
0.3
0.2 0.1
总体方差未知时总体均值的区间估计
__
Z x ~N 0,1
n
__
t x ~tn 1
sn
标准正态分布 自由度为20的t-分布
自由度为10的t-分布
0.0
-3
-2
-1
0
1
2
3
总体方差未知时总体均值的区间估计
某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼为26 分钟,样本方差为34。试以95%的置信水平估计该大学全体学生平均每天参加体育 锻炼的时间。
___
x
x 1529 1513 1600 1527 1411 1516
n
5
s2
x
___
x
2
1529 15162
1411 15262
4595
n 1
5 1
从总体中抽取一个样本,构造适当的统计量 ,来估计对应的总体参数 。
无偏性 有效性 一致性
估计量的优良性
如果 E
总体参数
确
定 性
X
P
随机抽样
随机性 样本
随机性
计算
统计量
x ps
样本统计量做为随机变量, 具有特定的概率分布。
把握住他们的分布规律就 找到了推断总体参数的依据。
0.30
0.25
x 的分布
0.20
0.15
0.10
0.05
50000 51000 52000 53000 54000
0.30
s 0.25
的分布
则称统计量
是总体参数
的无偏估计量
无偏性
E
参数θ等于抽样分布的均值
(无偏估计量)
E
偏差
E
参数θ不等于抽样分布的均值
(有偏估计量)
E
___
x
Ep P
E s 2 2
注意E sn2 2
如果D1
D2
则称统计量 1 是较 2 有效的估计量
1的抽样分布
2 的抽样分布
有效性
2
2
__
x
Z
2
n
__
, x
Z 2
n
21.4 1.96 0.15 ,21.4 1.96 0.15
9
9
21.302,21.498
总体方差已知时总体均值的区间估计
某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻 炼为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻 炼的时间(已知总体方差为36)。
0.15
0.10
0.05 0.32
0.48
0.64
0.80
抽样分布
0.30
0.25
s 的分布
0.20
0.15
0.10
0.05
2600
3400
4200
s2 服从卡方分布,但其分布函 数不便于用数学式直接表达。可以 得出与其相联系的一个服从自由度 为 n-1的卡方分布的统计量。
若总体X~N, 2 ,
2 36
__
x 26
n 100 30 1 0.95
0.05
0.025
2
Z 1.96 2
__
x
Z
2
__
n
,
x
Z 2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
X~N, 2
x__
~N
, 2
n
显著性水平α下,μ的1- α置信区间:
__
参数 估计
用SPSS作参数估计
抽样与抽样分布 点 估 计 区间估计
参数 估计
抽样与抽样分布
抽样方法 抽样分布 样本容量与抽样分布
总体容量(population size) N=45