参数区间估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
取 U X
一个良好估计. 置信水平是多少?
n
~N(0, 1)
有了分布,就可以求出 U取值于任意区间的概率.
Baidu Nhomakorabea
寻找一个待估参数和 估计量的函数 ,要求 其分布为已知.
对于给定的置信水平(大概率), 根据U的分布, 确定一个区间, 使得U取值于该区间的概率为 置信水平.
对给定的置信水平1 , 查正态分布表得 u 2 , 使
1 2
ˆ ˆ P{1 2 } 1 ˆ ˆ 则称区间 [1 , 2 ]是 的置信水平(置信度、 1的置信区间. 置信概率)为
ˆ1和ˆ2 分别称为置信下限和置信上限.
可见, 对参数 作区间估计,就是要设法找出 两个只依赖于样本的界限(构造统计量)
ˆ ˆ 1 1(X1,…Xn)
引言
前面,我们讨论了参数点估计. 它 是用样本算得的一个值去估计未知参数. 但是,点估计值仅仅是未知参数的一个 近似值,它没有反映出这个近似值的误 差范围,使用起来把握不大. 区间估计 正好弥补了点估计的这个缺陷 .
譬如,在估计湖中鱼数的问题中,若 我们根据一个实际样本,得到鱼数N的极 大似然估计为1000条.
ˆ ˆ
这个不等式就是我们所求的置信区间. 下面我们就来正式给出置信区间的定义, 并通过例子说明求置信区间的方法.
一、 置信区间定义: 设 是 一个待估参数,给定 0, 若由样本X1,X2,…Xn确定的两个统计量 ˆ ˆ ˆ ˆ 1 1 ( X1, X 2 ,, X n ), 2 2 ( X1, X 2 ,, X n ) ˆ ˆ ( ) 满足
X S n ~ t ( n 1)
对给定的置信度1 ,确定分位数t1 2 (n 1), 使 P{| t | t1 2 (n 1)} 1
即 P{| X | t1 2 (n 1)} 1 S n
从中解得
P{ X S n t1 2 (n 1) X S n t1 2 (n 1)} 1
ˆ2 ˆ2(X1,…Xn)
ˆ ˆ (1 2 )
ˆ ˆ 一旦有了样本,就把 估计在区间 [1 , 2 ] 内. 这里有两个要求:
ˆ ˆ 1. 要求 以很大的可能被包含在区间 [1 , 2 ] ˆ ˆ 内,就是说,概率P{1 2 } 要尽可能大. 即要求估计尽量可靠.
P{
(n 1) S 2
2 1 2
(n 1)
2
(n 1) S 2
2 (n 1)
2
} 1
于是 [
(n 1) S 2
2 1 2
(n 1) 2 (n 1)
2
,
(n 1) S 2
] 即为所求.
2、两个正态总体参数的区间估计
给定置信度为 1 , 并设 X 1 , X 2 , , X n 为
置信区间.
寻找置信区间的方法,一般是从确定 误差限入手.
ˆ 我们选取未知参数的某个估计量 ,根 据置信水平1 ,可以找到一个正数 ,
使得
ˆ P{| | } 1
ˆ 称 为 与 之间的误差限 . ˆ 只要知道 的概率分布,确定误差限并不难.
ˆ 由不等式 | | 可以解出 :
2. 估计的精度要尽可能的高. 如要求区间 长度 ˆ2 ˆ1 尽可能短,或能体现该要求的其 它准则. 可靠度与精度是一对矛盾, 一般是在保证可靠度的条件下 尽可能提高精度.
二、置信区间的求法 例1 设X1,…Xn是取自N ( , 2 )的样本, 2已知, 求参数 的置信度为 1 的置信区间. 解: 选 的点估计为 X 寻找未知参数的 明确问题,是求什么参数的置信区间?
[X
S n
t1 2 (n 1), X
S n
t1 2 (n 1)]即为
均值 的置信水平为 1 的区间估计.
再求方差 的置信水平为 1 的区间估计.
2
对给定的置信度 1 ,确定分位数 2 12 2 (n 1) , 2 (n 1) , 使
2
取枢轴量
( n 1) S
2
~ ( n 1)
2
P{ 2 (n 1)
2
(n 1) S
2
2
12 2 (n 1)} 1
从中解得
P{ (n 1) S 2
2 1 2
(n 1)
2
(n 1) S 2
2 (n 1)
2
} 1
其中 S w
2
( n1 1) S
*2 1
( n2 1) S
*2 2
n1 n2 2
,
Sw
Sw .
2
例6机床厂某日从两台机床加工的零件中,分别抽取
若干个样品,测得零件尺寸分别如下(单位:cm): 第一台机器 6.2, 5.7, 6.5, 6.0, 6.3, 5.8 5.7, 6.0, 6.0, 5.8, 6.0 第二台机器 5.6, 5.9, 5.6, 5.7, 5.8 6.0, 5.5, 5.7, 5.5 假设两台机器加工的零件尺寸均服从正态分布,且 方差相等,试求两机床加工的零件平均尺寸之差的 区间估计 ( 0.05)
由 X , Y 的独立性及
2 1 , X ~ N 1 , n1 2 2 , Y ~ N 2 , n2
2 2 1 2 , 可知 X Y ~ N 1 2 , n1 n2
或
X Y 1 2
例2 已知某地区新生婴儿的体重X~N ( , 2 ),
, 未知,
2
…
随机抽查100个婴儿
得100个体重数据
X1,X2,…,X100
和 2 的区间估计 (置信水平为1- ). 求
解:这是单总体均值和方差的估计
已知 X ~ N ( , 2 ), , 2未知
先求均值 的区间估计. 因方差未知,取 t
*2 1 *2 2
I. 两个总体均值差 1 2 的置信区间
(1) 1 和 2 均为已知,
2 2
1 2的一个置信度为1 的置信区间
2 2 1 2 X Y u . 1 / 2 n1 n2
推导过程如下:
因为 X , Y 分别是 1 , 2 的无偏估计, 所以 X Y 是 1 2 的无偏估计,
4. 对于给定的置信水平1 ,根据S(T, ) 的分布,确定常数a, b,使得 P(a ≤S(T, )≤b)= 1 5. 对“a≤S(T, )≤b”作等价变形,得到如下 形式: ˆ ˆ P{1 2 } 1
ˆ ˆ 则[1 , 2 ] 就是 的100(1 )%的置信区间.
1
1 , 1 2 )的样本 , Y1 , Y2 , , Yn 为第二 第一个总体 N (
2
2 , 2 2 )的样本 , X , Y 分别是第一、二个 个总体 N ( 总体的样本均值 , S , S 分别是第一、二个总体 的修正样本方差 .两总体相互独立
讨论两个总体均值差和方差比的估计问题.
n
u1 2 X
n
u1 2 }
于是所求 的 置信区间为
[X
n
u1 2 , X
n
u1 2 ]
也可简记为
X
n
u1
2
从例1解题的过程,我们归纳出求置 信区间的一般步骤如下:
1. 明确问题, 是求什么参数的置信区间? 置信水平 1 是多少? 2. 寻找参数 的一个良好的点估计 T (X1,X2,…Xn) 3. 寻找一个待估参数 和估计量T的函数 S(T, ),且其分布为已知. 称S(T, )为枢轴量.
可见,确定区间估计很关键的是要寻找 一个待估参数 和估计量T 的函数S(T, ), 且S(T, )的分布为已知, 不依赖于任何未知 参数 (这样我们才能确定一个大概率区间).
而这与总体分布有关,所以,总体分布的 形式是否已知,是怎样的类型,至关重要.
这里,我们主要讨论总体分布为正态 的情形. 若样本容量很大,即使总体分布 未知,应用中心极限定理,可得总体的近 似分布,于是也可以近似求得参数的区间 估计.
P{| X
为什么 这样取?
n
| u 2 } 1
对给定的置信水平1 , 查正态分布表得u1 / 2 , 使
P{| X
n
n
| u1 2 } 1
从中解得
P{ X u1 2 X
n
u1 2 } 1
P{ X 1
n1
y 5.7
( n1 1) S ( n2 1) S n1 n2 2
*2 1 *2 2
S
0.64 0.24 11 9 2
0.2211
置信下限
x y t0.975 (18) S
1 n1 1 n1
1 n2 1 n2
0.0912
置信上限
x y t0.975 (18) S
习惯上把置信水平记作1 ,这里 是一个 很小的正数.
置信水平的大小是根据实际需要选定的.
例如,通常可取置信水平1 =0.95或0.9等. 根据一个实际样本,由给定的置信水平,我 ˆ ˆ 们求出一个尽可能小的区间 [ , ],使
1 2
ˆ ˆ P{1 2 } 1 ˆ ˆ 称区间 [1 , 2 ]为 的 置信水平为1 的
实际上,N的真值可能大于1000条, 也可能小于1000条. 若我们能给出一个区间,在此区间 内我们合理地相信 N 的真值位于其中. 这样对鱼数的估计就有把握多了.
也就是说,我们希望确定一个区间,使我 们能以比较高的可靠程度相信它包含真参 数值. 湖中鱼数的真值
[
]
这里所说的“可靠程度”是用概率来度量的, 称为置信概率,置信度或置信水平.
0.5088
故所求 1 2 的置信度为95%的置信 区间为 [0.0912,0.5088].
II. 两个总体方差比
1 2
2 2
的置信区间
仅讨论总体均值 1 , 2 为未知的情况. 2 1 的一个置信度为 1 的置信区间 2 2
*2 S *2 1 S1 1 1 [ , ] . 2 2 S * F1 / 2 (n1 1, n2 1) S * F / 2 (n1 1, n2 1) 2 2
解 用 X 表示第一台机床加工的零件尺寸, 用 Y表示第二台机床加工的零件尺寸,由 题设
n1 11, n2 9, 0.05
查表得分位数为 t 0.025 (18) 2.1009
经计算,得
*2 1
x 6.0 (n1 1) S xi n1 x 0.64
2 i 1
推导过程如下:
由于 ( n1 1) S1
*2
1
2
~ ( n1 1),
1 2的一个置信度为1 的近似置信区间
*2 *2 S1 S2 X Y u . 1 / 2 n1 n2
( 3) 1 2 2 , 但 2 为未知,
2 2
1 2的一个置信度为1 的置信区间
1 1 X Y t1 / 2 (n1 n2 2) S w . n1 n2
1
2
n1
2
2
~ N 0, 1,
n2
于是得 1 2的一个置信度为1 的置信区间
2 2 1 2 X Y u . 1 / 2 n1 n2
( 2) 1 和 2 均为未知,
2 2
只要n1和n2都很大(实用上 50即可), 则有
一个良好估计. 置信水平是多少?
n
~N(0, 1)
有了分布,就可以求出 U取值于任意区间的概率.
Baidu Nhomakorabea
寻找一个待估参数和 估计量的函数 ,要求 其分布为已知.
对于给定的置信水平(大概率), 根据U的分布, 确定一个区间, 使得U取值于该区间的概率为 置信水平.
对给定的置信水平1 , 查正态分布表得 u 2 , 使
1 2
ˆ ˆ P{1 2 } 1 ˆ ˆ 则称区间 [1 , 2 ]是 的置信水平(置信度、 1的置信区间. 置信概率)为
ˆ1和ˆ2 分别称为置信下限和置信上限.
可见, 对参数 作区间估计,就是要设法找出 两个只依赖于样本的界限(构造统计量)
ˆ ˆ 1 1(X1,…Xn)
引言
前面,我们讨论了参数点估计. 它 是用样本算得的一个值去估计未知参数. 但是,点估计值仅仅是未知参数的一个 近似值,它没有反映出这个近似值的误 差范围,使用起来把握不大. 区间估计 正好弥补了点估计的这个缺陷 .
譬如,在估计湖中鱼数的问题中,若 我们根据一个实际样本,得到鱼数N的极 大似然估计为1000条.
ˆ ˆ
这个不等式就是我们所求的置信区间. 下面我们就来正式给出置信区间的定义, 并通过例子说明求置信区间的方法.
一、 置信区间定义: 设 是 一个待估参数,给定 0, 若由样本X1,X2,…Xn确定的两个统计量 ˆ ˆ ˆ ˆ 1 1 ( X1, X 2 ,, X n ), 2 2 ( X1, X 2 ,, X n ) ˆ ˆ ( ) 满足
X S n ~ t ( n 1)
对给定的置信度1 ,确定分位数t1 2 (n 1), 使 P{| t | t1 2 (n 1)} 1
即 P{| X | t1 2 (n 1)} 1 S n
从中解得
P{ X S n t1 2 (n 1) X S n t1 2 (n 1)} 1
ˆ2 ˆ2(X1,…Xn)
ˆ ˆ (1 2 )
ˆ ˆ 一旦有了样本,就把 估计在区间 [1 , 2 ] 内. 这里有两个要求:
ˆ ˆ 1. 要求 以很大的可能被包含在区间 [1 , 2 ] ˆ ˆ 内,就是说,概率P{1 2 } 要尽可能大. 即要求估计尽量可靠.
P{
(n 1) S 2
2 1 2
(n 1)
2
(n 1) S 2
2 (n 1)
2
} 1
于是 [
(n 1) S 2
2 1 2
(n 1) 2 (n 1)
2
,
(n 1) S 2
] 即为所求.
2、两个正态总体参数的区间估计
给定置信度为 1 , 并设 X 1 , X 2 , , X n 为
置信区间.
寻找置信区间的方法,一般是从确定 误差限入手.
ˆ 我们选取未知参数的某个估计量 ,根 据置信水平1 ,可以找到一个正数 ,
使得
ˆ P{| | } 1
ˆ 称 为 与 之间的误差限 . ˆ 只要知道 的概率分布,确定误差限并不难.
ˆ 由不等式 | | 可以解出 :
2. 估计的精度要尽可能的高. 如要求区间 长度 ˆ2 ˆ1 尽可能短,或能体现该要求的其 它准则. 可靠度与精度是一对矛盾, 一般是在保证可靠度的条件下 尽可能提高精度.
二、置信区间的求法 例1 设X1,…Xn是取自N ( , 2 )的样本, 2已知, 求参数 的置信度为 1 的置信区间. 解: 选 的点估计为 X 寻找未知参数的 明确问题,是求什么参数的置信区间?
[X
S n
t1 2 (n 1), X
S n
t1 2 (n 1)]即为
均值 的置信水平为 1 的区间估计.
再求方差 的置信水平为 1 的区间估计.
2
对给定的置信度 1 ,确定分位数 2 12 2 (n 1) , 2 (n 1) , 使
2
取枢轴量
( n 1) S
2
~ ( n 1)
2
P{ 2 (n 1)
2
(n 1) S
2
2
12 2 (n 1)} 1
从中解得
P{ (n 1) S 2
2 1 2
(n 1)
2
(n 1) S 2
2 (n 1)
2
} 1
其中 S w
2
( n1 1) S
*2 1
( n2 1) S
*2 2
n1 n2 2
,
Sw
Sw .
2
例6机床厂某日从两台机床加工的零件中,分别抽取
若干个样品,测得零件尺寸分别如下(单位:cm): 第一台机器 6.2, 5.7, 6.5, 6.0, 6.3, 5.8 5.7, 6.0, 6.0, 5.8, 6.0 第二台机器 5.6, 5.9, 5.6, 5.7, 5.8 6.0, 5.5, 5.7, 5.5 假设两台机器加工的零件尺寸均服从正态分布,且 方差相等,试求两机床加工的零件平均尺寸之差的 区间估计 ( 0.05)
由 X , Y 的独立性及
2 1 , X ~ N 1 , n1 2 2 , Y ~ N 2 , n2
2 2 1 2 , 可知 X Y ~ N 1 2 , n1 n2
或
X Y 1 2
例2 已知某地区新生婴儿的体重X~N ( , 2 ),
, 未知,
2
…
随机抽查100个婴儿
得100个体重数据
X1,X2,…,X100
和 2 的区间估计 (置信水平为1- ). 求
解:这是单总体均值和方差的估计
已知 X ~ N ( , 2 ), , 2未知
先求均值 的区间估计. 因方差未知,取 t
*2 1 *2 2
I. 两个总体均值差 1 2 的置信区间
(1) 1 和 2 均为已知,
2 2
1 2的一个置信度为1 的置信区间
2 2 1 2 X Y u . 1 / 2 n1 n2
推导过程如下:
因为 X , Y 分别是 1 , 2 的无偏估计, 所以 X Y 是 1 2 的无偏估计,
4. 对于给定的置信水平1 ,根据S(T, ) 的分布,确定常数a, b,使得 P(a ≤S(T, )≤b)= 1 5. 对“a≤S(T, )≤b”作等价变形,得到如下 形式: ˆ ˆ P{1 2 } 1
ˆ ˆ 则[1 , 2 ] 就是 的100(1 )%的置信区间.
1
1 , 1 2 )的样本 , Y1 , Y2 , , Yn 为第二 第一个总体 N (
2
2 , 2 2 )的样本 , X , Y 分别是第一、二个 个总体 N ( 总体的样本均值 , S , S 分别是第一、二个总体 的修正样本方差 .两总体相互独立
讨论两个总体均值差和方差比的估计问题.
n
u1 2 X
n
u1 2 }
于是所求 的 置信区间为
[X
n
u1 2 , X
n
u1 2 ]
也可简记为
X
n
u1
2
从例1解题的过程,我们归纳出求置 信区间的一般步骤如下:
1. 明确问题, 是求什么参数的置信区间? 置信水平 1 是多少? 2. 寻找参数 的一个良好的点估计 T (X1,X2,…Xn) 3. 寻找一个待估参数 和估计量T的函数 S(T, ),且其分布为已知. 称S(T, )为枢轴量.
可见,确定区间估计很关键的是要寻找 一个待估参数 和估计量T 的函数S(T, ), 且S(T, )的分布为已知, 不依赖于任何未知 参数 (这样我们才能确定一个大概率区间).
而这与总体分布有关,所以,总体分布的 形式是否已知,是怎样的类型,至关重要.
这里,我们主要讨论总体分布为正态 的情形. 若样本容量很大,即使总体分布 未知,应用中心极限定理,可得总体的近 似分布,于是也可以近似求得参数的区间 估计.
P{| X
为什么 这样取?
n
| u 2 } 1
对给定的置信水平1 , 查正态分布表得u1 / 2 , 使
P{| X
n
n
| u1 2 } 1
从中解得
P{ X u1 2 X
n
u1 2 } 1
P{ X 1
n1
y 5.7
( n1 1) S ( n2 1) S n1 n2 2
*2 1 *2 2
S
0.64 0.24 11 9 2
0.2211
置信下限
x y t0.975 (18) S
1 n1 1 n1
1 n2 1 n2
0.0912
置信上限
x y t0.975 (18) S
习惯上把置信水平记作1 ,这里 是一个 很小的正数.
置信水平的大小是根据实际需要选定的.
例如,通常可取置信水平1 =0.95或0.9等. 根据一个实际样本,由给定的置信水平,我 ˆ ˆ 们求出一个尽可能小的区间 [ , ],使
1 2
ˆ ˆ P{1 2 } 1 ˆ ˆ 称区间 [1 , 2 ]为 的 置信水平为1 的
实际上,N的真值可能大于1000条, 也可能小于1000条. 若我们能给出一个区间,在此区间 内我们合理地相信 N 的真值位于其中. 这样对鱼数的估计就有把握多了.
也就是说,我们希望确定一个区间,使我 们能以比较高的可靠程度相信它包含真参 数值. 湖中鱼数的真值
[
]
这里所说的“可靠程度”是用概率来度量的, 称为置信概率,置信度或置信水平.
0.5088
故所求 1 2 的置信度为95%的置信 区间为 [0.0912,0.5088].
II. 两个总体方差比
1 2
2 2
的置信区间
仅讨论总体均值 1 , 2 为未知的情况. 2 1 的一个置信度为 1 的置信区间 2 2
*2 S *2 1 S1 1 1 [ , ] . 2 2 S * F1 / 2 (n1 1, n2 1) S * F / 2 (n1 1, n2 1) 2 2
解 用 X 表示第一台机床加工的零件尺寸, 用 Y表示第二台机床加工的零件尺寸,由 题设
n1 11, n2 9, 0.05
查表得分位数为 t 0.025 (18) 2.1009
经计算,得
*2 1
x 6.0 (n1 1) S xi n1 x 0.64
2 i 1
推导过程如下:
由于 ( n1 1) S1
*2
1
2
~ ( n1 1),
1 2的一个置信度为1 的近似置信区间
*2 *2 S1 S2 X Y u . 1 / 2 n1 n2
( 3) 1 2 2 , 但 2 为未知,
2 2
1 2的一个置信度为1 的置信区间
1 1 X Y t1 / 2 (n1 n2 2) S w . n1 n2
1
2
n1
2
2
~ N 0, 1,
n2
于是得 1 2的一个置信度为1 的置信区间
2 2 1 2 X Y u . 1 / 2 n1 n2
( 2) 1 和 2 均为未知,
2 2
只要n1和n2都很大(实用上 50即可), 则有