参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
得:
(1 1 0 ) 81 .5 7 62 5 (1 1 0 ) 81 .57 65
1.0 92
2 .70
38.5 6 6 8 227.2 85 71
两边开平方,得标准差的置信区间:
6.2 2 0 1.6 05 8 30
五、单侧置信区间
根据问题的性质将待估总体指标的上置信限或下置信 限指定在其上界或下界值上,并根据给定的置信概率 求出另一置信限而得到的置信区间。
概率等于事先给定的概率1 ,即有等式:
P (ˆ ˆ) 1
L
U
成立,则该区间 (ˆL,ˆU)就称为未知总体参数的置信区间。
21
二、总体均 值的区间估 计
是
否
总体正态?
σ2已知?
是
否
n≥30?
是
否
xZ 2 n
xt 2 s n
xZ 2 n
增大n; 非参数 方法等。
实际中总体方差总是未知的, 因而这是应用最多的公式。在 大样本时t值可以用z值来近似。
置信区间
置信下限
估计值(点估计)
置信上限
2
5.1 点估计
参数估计的一些基本概念 构造估计量的方法——矩法估计 判断估计量优劣的标准 估计量的标准误差
3
一、参数估计的一些基本概念
总体
样本
参数
?
统计量
算术平均数 x
中位数 M e
用来推断总体参数的统计量称为估计量(estimator), 其取值称 为估计值(estimate) 。 同一个参数可以有多个不同的估计量。 参数是唯一的,但估计量(统计量)是随机变量,取值是不确 定的。
对于给定的置信概率 1,若有:
P (ˆ ) 1
L
U
或者,有:
P ( ˆ) 1
L
U
则称区间 (ˆL,U) 和 (L,ˆU) 为总体指标 的单侧置
信区间。
31
5.4 关于抽样误差的几个概念
实际抽样误差 标准误 最大允许误差
32
实际抽样误差
样本估计值与总体真实值之间的绝对离差称为实际
14
5.2 抽样分布
抽样分布的概念 基本的抽样分布
15
5.2 抽样分布
一、抽样分布的概念 对于给定的总体和抽样方式及样本容量,样本指标取值的
概率分布就称为抽样分布。 精确分布:确定样本容量下的抽样分布。目前已导出的样
本统计量的精确分布都是在正态总体条件下的抽样分布, 并且主要用在样本容量较小的情况下,所以精确分布也称 为正态总体小样本分布。 极限分布(任意分布):样本容量趋于无穷大时的抽样分 布。极限分布一般是在不限定总体分布的具体形式下导出 的,并且只能在样本容量较大时使用,所以极限分布又称 为任意总体大样本分布。
9.5 1.661353
s Example
n
用Excel分析工具库的
“描述统计”可以得 到左边的结果。
置信下限等于 27.191-1.661=25.53
置信上限等于 27.191+1.661=28.85 2
结论:我们有95%的
把握(置信度)认为
s t 2
n
区间[25.53,28.852] 包含总体的真实值。
因为总体均值是非随机的 。
置信区间的Excel模拟
26
三、总体比例的置信区间
当 n p ˆ5,n (1p ˆ)5 时总体比例的置信区间
可以使用正态分布来进行区间估计。(样本比例记
为 pˆ ,总体比例记为p)
z pˆp ~N(0,1) p(1p)
n
pˆZ2
pˆ(1pˆ) n
27
总体比例的置信区间:例子
率 1 之下,服从自由度为(n-1)的t分布。
总体均值的置信区间为:
xt2nxt2n
23
例子:Biblioteka Baidu
儿童电视节目的赞助商希望了解儿童每周看电视 的时间。下面是对100名儿童进行随机调查的结果(小 时)。计算平均看电视时间95%的置信区间。
39.7 19.5 34.7 27.0 41.3 15.1 20.5 31.3 18.3 17.0 21.5 29.9 15.0 16.4 36.8 23.4 24.1 28.9 23.4 24.4 40.6 46.4 23.6 39.4 35.5 19.5 29.3 31.2 20.6 34.9 15.5 31.6 38.9 38.7 27.2 26.5 14.7 15.6 28.4 24.0 43.9 20.6 29.1 9.5 21.0 42.4 13.9 32.8 29.8 32.9 33.0 38.0 28.7 20.6 19.7 38.6 37.1 17.0 15.1 23.4 21.0 21.8 29.3 21.3 22.8 23.4 32.5 11.3 43.8 30.8 15.8 23.2 20.3 33.5 30.0 37.8 24.4 26.9 29.0 27.7 27.1 22.0 36.1 23.0 22.1 26.5 22.9 26.9 30.2 25.2 23.8 35.3 21.6 35.7 30.8 22.7 24.5 21.9 26.5 50.3
估计量的数学期望与总体待估参数的真值相等:
P(ˆ ) E(ˆ)
无偏
有偏
A
B
ˆ
6
样本方差无偏性的证明(重复抽样)
E(s2)E
(xi x)2 1 E n1 n1
[(xi )(x)]2
1 E[
n1
(xi )2 2
(xi )(x)n(x)2]
1 [
n1
E(xi )2 nE(x)2]
1
(n2
根据中心极限定理得 到的近似结果。 σ未知时用s来估计。
22
(一)大样本情形下总体均值的区间估计
由中心极限定理可知,对于大样本而言,样本均值的 概率分布总可以近似地看作是正态分布。
总体均值的置信区间为: xZ2nxZ2n
(二)小样本情形下总体均值的区间估计
对来自正态分布总体的一个小样本,在给定的置信概
0.2 1 70.0 2 1 5
结论:我们有90%的把握认为悉尼青少年中每天都抽 烟的青少年比例在19.55%~23.85%之间。
28
四、总体方差的区间估计(*)
总体服从正态分布,均值μ未知时:关于 2 的以下随机变量服从卡方分布:
n1)s2 2
~2n1)
总体方差在置信水平1-α下的置信区间为:
24
平均 标准误差
中位数 众数
标准差 方差 峰度 偏度 区域
最小值 最大值
求和 观测数 最大(1) 最小(1) 置信度(95.0%)
27.191 0.837284
26.5 23.4 8.372841 70.10446 -0.2776 0.38058 40.8
9.5 50.3 2719.1 100 50.3
4
二、矩法估计
对于一个给定的总体指标,用什么样本指标作为其估计 量,这是参数估计计算首先要解决的问题。
矩法估计是用样本矩作为总体同一矩的估计量,用样本 矩的函数作为总体相应矩同一函数的估计量。
ˆx
x 1 n
ni
i1
ˆ2s21 n i n 1(xix)2
Pˆ p n1
n
5
三 判断估计量优劣的标准 (一)无偏性
1986年对悉尼995 名青少年的随机调 查发现,有21.7% 的人每天都抽烟。 试估计悉尼青少年 中每天都抽烟的青 少年比例的90%的 置信区间。
解:显然有 n p ˆ5 ,n (1p ˆ)5
因此可以用正态分布进行估计。
Z/2=1.645
pˆ Z 2
pˆ(1 pˆ) n
0.2 1 71.6 4 50.2 1(710.2 1)7 995
的一个稳健估计量。
10
四、估计量的标准误差
(一)标准误的概念 标准误是衡量一个估计量抽样估计误差大小的一
个尺度。在抽样估计中,由于待估计的总体指标 是未知的,所以抽样估计误差的具体是不可知的, 而标准误则给出了抽样估计误差的一般数值,可 用于估计实际抽样估计误差的大小。 估计量的标准误差定义式为:
第5章 参数估计
第一节 第二节 第三节
点估计 抽样分布 区间估计
1
点估计和区间估计
点估计: 用估计量的数值作为总体参数的估计值。 区间估计:
根据事先确定的置信度1 - 给出总体参数的一个估计范 围。
置信度1 - 的含义是:在同样的方法得到的所有置信区 间中,有100(1- )% 的区间包含总体参数。
抽样误差。 |ˆ |
由于在实践中总体参数的真实值是未知的,因此实 际抽样误差是不可知的;
由于样本估计值随样本而变化,因此实际抽样误差 是一个随机变量。
33
标准误(standard error)
标准误:统计量抽样分布的标准差简称为标准误。 它可以用来衡量抽样误差的一般水平,也称为抽样 平均误差。
ˆV( a ˆ) r E [ˆ E (ˆ)2]
11
(二)标准误的计算
1.样本均值的标准误 有放回抽样:
ˆ x
s n
不放回抽样:
ˆx
s2(1 n)
nN
12
2.样本比例的标准误 有放回抽样:
ˆp
p(1p) n
不放回抽样:
ˆp
p(1p)(1n)
n
N
13
(三)影响标准误的因素 总体中各个体之间的差异程度 样本容量的大小 抽取样本的方式方法
ˆ E(ˆ)2
例如对简单随机抽样中的样本均值有:
x
n
或
x
n
Nn N1
我们通常说“抽样调查中可以对抽样误差进行控 制”,就是指的抽样平均误差。由上面的公式可知 影响抽样误差的因素包括:总体内部的差异程度; 样本容量的大小;抽样的方式方法。
34
最大允许误差
最大允许误差(allowable error):在确定置信 区间时样本均值(或样本比例)加减的量,一 般用E来表示,也等于置信区间长度的一半。 在英文文献中也称为margin of error。
n 22 1 n ) s2 1 )21 2 n 21 n )s 21 )
29
•总体方差的区间估计:例子
检验一批电子元件,共抽取了10件检验,电子元 件使用寿命的样本方差为8175.56,试在95%的 置信概率下对该批产品使用寿命的方差和标准差 进行区间估计。
解:电子元件的使用寿命可看作服从正态分布,根 据正态总体方差置信区间的公式,可得该批电子 元件使用寿命的方差的置信区间为:
25
关于置信水平含义的说明
在所有的置信区间中,有(1-
) *100% 的区间包含 总体真
样本均值的 抽样分布
实值。
对于计算得到的一个具体区
间,“这个区间包含总体真
/2
实值”这一结论有(1-)
σ
_
x
1 -
/2
_
*100%的可能是正确的。 说“总体均值有95%的概率
x =
X
落入某一区间”是不严格的,
含的有关总体指标 就称为是总体指标
的全部信息,则估计量 的充分估计量。
ˆ
(五)稳健性
在样本数据的采集和整理过程中,难免会发生一 些差错,造成样本数据的污染。如果用来估计总
体指标 的样本估计量对样本数据的污染不敏感,
也就是说估计量的数值不受被污染数据的干扰或 受其干扰不大,那么该估计量就是总体指标
小样本条件下,经s替换后的随机变量服从自由度
为n-1的t分布,即:
t
x~t(n1)
sn
(二)样本比例的抽样分布
对于来自两点分布的一个大随机样本,样本比例
p 的概率分布就趋近于以总体比例 P为散布中
心、且以其标准误 P(1P)n的正态分布,
即有:
p
p~N(P,P(1P))
n
变换为标准正态分布
z pP ~N(0,1) P(1P) n
2
n• )
2
n1
n
7
(二) 有效性
在两个无偏估计量中方差较小的估计量较 为有效。
P(ˆ )
ˆ1 的抽样分布
B
A
ˆ2 的抽样分布
ˆ
8
(三)一致性
指随着样本容量的增大,估计量越来越接近被 估计的总体参数。
较大的样本容量
P(X )
B
较小的样本容量
A
X
9
(四)充分性
对于总体指标 ,若其估计量 ˆ 提取了样本中包
16
二、基本的抽样分布
抽样分布在统计推断中具有十分重要的作用,常
用的抽样分布有:样本均值的抽样分布、样本比 例的抽样分布和样本方差的抽样分布。
(一)样本均值的抽样分布
根据中心极限定理,可知:
大样本条件下
2
x~N(, )
变换为标准正态分布
n
x ~N(0,1) n
若 2未知用 s 2 代替。
17
20
一、区间估计的概念
在事先给定的概率保证程度下,根据样本估计量的概率
分布,确定出可能包含未知总体参数的某个区间,作为 对未知总体参数的估计。
记待估计的未知总体指标为 ,样本估计量为 ˆ ,事先
给定的概率为 1 ,若根据 ˆ 的概率分布可以计算
出一个区间(ˆL,ˆU),使得该区间包含未知总体参数 的
18
(三)样本方差的抽样分布
对于来自正态总体的一个容量为n的简单随机样本, 其样本方差与总体方差的比值的(n-1)倍,服从
自由度为(n-1)的 分布2 ,即有:
s (n1) 2
2
~ (n1)
2
19
5.3 区间估计
区间估计的概念 总体均值的区间估计 总体比例的区间估计 总体方差的区间估计 单侧置信区间 样本容量的确定