概率论与数理统计 7.3置信区间
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 均值 的置信区间 (1)已知方差 2 时
① 确定未知参数的 估计量及其函数的分布
X
1 n
n
i 1
Xi
是
的无偏估计量,
由抽样分布定理知
X─ ~ N( , 2/n),
U
故可用
─
X
作为
EX
X / n
~ N(0, 1),
的一个估计量,
对给定的置信度 1- ,
有了分布就可求出U 取值于任意区间的概率
) 的分布 ; 由概率 P(
|U
|
U
x
X / n
) ,
~
N
(0 , 1)
查表求出分布的分位数
x
,
(u/2 )
1
2
P( |U| u /2 )
3. 由分位数|U| x 确定置信区间 (─ ,─ )X. ( , ─ ) 就是 的 100(1- )% 的置信区间.
n
ln
ln L(i d
Xi
1
)
n
2
n i 1
ln
xi=
0,
(2)EX
x
f
(x;
) dx
2 3
i 1
令
2 3
1 n
n i 1
Xi
X,
解得矩估计量:ˆ 3X 2 .
1 X
评选标准 无偏性 —— 估计量的期望值等于未知参数的真值.
这个不等式就是我们所求的置信区间 ( , ) .
对于给定的置信水平, 根据估计量U 的分布, 确定
一个区间, 使得 U 取值于该区间的概率为置信水平.
(一) 单个正态总体置信区间的求法
设 X1, …, Xn 是总体 X ~ N( , 2)的样本, X ,─S2 分别是其样本
均值和样本方差, 求参数 、 2 的置信水平为1- 的置信区间.
通过计算,得 X 14.95,
所求置信区间为
X
n z 2,
X
n
z
2
14.79,
15.11 .
(2) 未知方差 2 时 —— 实用价值更大 !!
由于 ( X
n
u / 2
,
X
n
u / 2 )
与 有关,
故不能采用已知方差
的均值估计方法 —— 但其解决的思路一致.
,
n
u / 2
,
X
n
u /2 )可知,
( x)
10 若给定 n , l 随着 的减小而增大;
则 u/2 越大, l (就u越/2)大就, 越大, 这时 就越小.
20 若给定 , l 随着 n 的增大而减小;
且由于 l 与 n 成反比, 减小的速度并不快, 例如, n 由 100 增至 400 时, l 才能减小一半.
如在上例中取 = 0. 01+ 0. 04 , 由正态分布上侧分位数定义知
0.01 0.04 1 (u0.01) 1 ( u0.04 ) 1 (u0.01) ( u0.04 )
1 P ( u0.04 U u0.01)
长度为 25. 5
查表知 u0.01 2. 33 , u0.04 1.75
我们选取未知参P数(的某个 )估 计1量 ?^,①根据置信水平1- , 可以
找到一个正数 , 使得 P(|ˆ | ) 1 ,
只要知^道 的概率分布就可以确定 . 分布的分位数 ②
由不等式 |ˆ | 可以解出 :ˆ ˆ ③
§7.3 单个正态总体均值与方差的置信区间
譬如,在估计湖中鱼数的问题中, 若我们根据一个实际样本 得到鱼数 N 的极大似然估计为 1000 条.
但实际上, N 的真值可能大于 1000 条, 也 可能小于1000条.
一个可以想到的估计办法是:若我们能给
出一个区间,并告诉人们该区间包含未知参数 N的可靠度 (也称置 信系数).
平为 0. 95 的置信区间.
解 由于 =0.05 , 查正态分布表得 u0. 025 = 1. 96 ,
|
X
/
n
| u /2
| 325 | 1.96
25/ 16
325 25 1.96 325 25 1.96
16
16
即得置信区间 ( 312. 75 , 337. 25 ). 区间长度为 24. 25
n
u / 2 ) ,
简记为
X
n
u 2
求置信区间首先要明确问题:
是求什么参数的置信区间? 置信水平 1- 是多少?
一般步骤如下:
X
1 n
n i 1
Xi
1. 寻找未知参数 的一个^良好的点估计量 (X1, X2, …, Xn );
确定待估参数估计^ 量函数 U( 2. 对于给定的置信水平 1- ,
n
u / 2
X
n
u / 2
─
总体分布的形式是否已知,是怎样的类
(X
n
u / 2
,
X
n
u / 2 )
型,至关重要.
例1 某乡农民在联产承包责任制前人均纯收入 X(单
位:元), 且 X ~ N (µ, 252). 推行联产承包责任制后, 在该乡抽得
n =16 的样本, 得 ─x =325元, 假设 2 = 25 2 没有变化, 求 的置信水
置信水平的概率意义: 置信水平为 0.95 是指 100 组样本值所得置信区间的实现
中, 约有95个能覆盖 , 而不是一个实现以 0.95 的概率覆盖了 .
并非一个实现以 1- 的概率覆盖了
估计的可靠度:
估计要尽量可靠,
即
P( ─
<
<─
)=
1-
要尽可能大.
要求 以很大的可能被包含在置信区间内 .
4
4
即得置信区间 ( 8. 34 0.03 3.182 )% , ( 8. 34 0.03 3.182 )%
• 样本 k 阶原点矩是总体 k 阶原点矩 的无偏估计量 ;
• 样本方差 S 2 是总体方差 2 的无偏估计量 ;
• 无偏估计量的函数未必是无偏估计量
有效性 —— 方差更小的无偏估计量.
• 在 的所有线性无偏估计量中, 样本均值 源自文库─ 是最有效的.
一致性 参数的点估计是用样本算得的一个值去估计未知参数. 使用 起来把握不大. 点估计值仅仅是未知参数的一个近似值, 它没有 反映出这个近似值的误差范围. 而区间估计正好弥补了点估计 的这个缺陷. 为了使估计的结论更可信, 需要引入区间估计.
也就是说,给出一个区间,使我们能以一定的可靠度相信区
间包含参数 µ。
[ •]
这里所说的“可靠程度”是用概率来度 量的, 称为置信概率,置信度或置信水平.
湖中鱼数的真值
习惯上把置信水平记作 1- , 这里 是一个很小的正数.
置信水平的大小是根据实际需要选定的. 例如, 通常可取置信 水平 = 0.95 或 0.9 等等.
即令按标|(准uX//正2 )n态|1分u布2 /2,的查双正侧态X分分布位n表u数可/的2 得定u义/X2P,(
|U |
②
n
u /2 ) ,
由分布求分位数
u / 2 ③ 由u/2确
定置信区间
即得置信区间( X
n
u / 2 ,
X
xn ) 1 ,
i 1
0,
xi 0, i 1, 2,L , n; 其他 .
当0<xi <1时, L()> 0, 1 i n,
n
故有对数似然函数:ln L( ) n ln( 2) ( 1) ln xi ,
对 求导并令其为 0 可得似然方程:d
解得极大似然估计量:ˆ 2 n
例
设总体
X
的密度为
f
(x;
)
(
2) x 1,
0 x 1;
0, 其它,
其中 > 0为未知参数, X1, X2, …, Xn 是取自总体X的一组样本,
求 的极大似然估计量与矩估计量.
解(1) 样本的似然函数为
L( )
n
f
(
xi
;
)
(
2)n (
x1 L
根据一个实际样本, 由给定的置信水平1- , 我们求出一个的
区间 ( , ), 使
P( ) 1 ,
如何寻找这种区间?
我们选取未知参数的某个估计量 ^, 根据置信水平1- , 可以
找到一个正数 , 使得
P(|ˆ | ) 1 ,
只要知^道 的概率分布就可以确定 . 由不等式 |ˆ |
( u / 2
)
1
2
例2: 某厂生产的零件长度 X 服从 N( , 0.04),现从
该厂生产的零件中随机抽取6个,长度测量值如下 (单位:毫米):
14.6, 15.l, 14.9, 14.8, 15.2, 15.1.
求:µ 的置信系数为0.95的区间估计。
解:n = 6, = 0.05,z/2 = z0.025 = 1.96,2=0.22 .
均值
((12))
已知方差 未知方差
2 2
方差 2
((12))
已知均值 未知均值
均值 1- 2
((12))
已知方差12,22 未知方差12,22,但相等!
方差
12/22
((12))
已知均值 未知均值
1, 1,
2 2
如何根据实际样本, 由给定的置信水平1- , 求出一个区间 ( , ), 使
和 ( X1, X2 , , Xn ) 满足
P ( ) 1 ,
则称随机区间 ( , )为 的置信水平为1- 的双侧置信区间 . 和
分别称为置信下限和置信上限.
置信度 置信概率
1) 和 为两个统计量(由样本完全确定的已知函数);
2)( , ) 是随机区间, 代入样本值所得的普通区间称为置信区 间的实现.
| X
Sn
|
t / 2 (n 1) X
S n
t
2 (n 1)
X
S n
t
2 (n 1)
(X
S n
t
2 (n 1) ,
X
S n
t
2(n1)
)即为
的置信度为
1-
的区间估计.
例3
为确定某种溶液中甲醛浓度, 测定总体服从正态
分布, 且其4 个独立测量值的平均值 x─ = 8. 34%, 样本标准差 s= 0. 03%,
要求估计尽量可靠.
估计的精度:
估计的精度要尽可能的高:即要求区间置信的长度尽可能短, 或能体现该要求的其它准则.
要求置信区间的长度尽可能短.
可靠度与精度是一对矛盾, 一般是在 保证可靠度的条件下尽可能提高精度.
二、置信区间的求法 (一) 单个正态总体
1. 2.
(二) 两个正态总体12..
(X
n
u / 2
,
X
n
u / 2 )
的长度是最短的, 故我们总取它作为置信水平为 1- 的置信区间.
一般地, 在概率密度为单峰且对称的情形下, a =-b 对应的 置信区间的长度为最短.
l 与 n , 的关系: 由置信区间公式( X
置信区间的长度 l 为:
l
2
n
u / 2
用U
X
S / n
分布的分位数求
的置信区间.
由于 S 2是 2 的无偏估计量, 故可用 S 替代 的估计量:
由抽样分布定理知 T = X ~ t(n-1),
Sn
令 P{ |T| t 2 (n 1) } 1 ,
查 t 分布表确定上侧 /2 分位数 t/2(n -1),
325
25 2. 33 325
16
25 1.75 16
同一置信水平下的置信区间不唯一, 其长度也不相等.
当然区间长度越短的估计, 精度就越高.
谁是精度最高的?
由于标准正态分布密度函数的图形是单峰且对称的,
在保持面积不变的条件下, 以对称区间的长度为最短 ! !
x
x
同一置信水平下的置信区间不唯一. 其长度也不相等. 但
可以解出 : ˆ ˆ
这个不等式就是我们所求的置信区间 ( , ) .
下面我们就来正式给出置信区间的定义, 并通过例子说明求
置信区间的方法.
一、 置信区间的概念
定义4
设 是总体 X 的待估参数, X1, X2, …, Xn
是取自总体 X 的样本, 对给定值 0 < < 1, 若统计量 (X1, X2, , Xn)
求总体均值 的置信水平为 0. 95 的置信区间.
解 由于 /2=0. 025 ,自由度 n-1= 3, 查 t 分布表得 t0. 025 =3. 182,
将 x─ = 8. 34 %
代入 | X
S/ n
| t /2 得
| 8. 34
0.03/ 4
|
3.182
(8. 34 0.03 3.182)% (8. 34 0.03 3.182)%