《概率论与数理统计教程-朱庆峰》第6章 参数估计 6.6
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
推导过程如下:
因为S 2 是 2 的无偏估计 ,
根据
(n 1) S 2
2
~ 2 (n 1),
2 (n 1) S 2 2 故 P /2 (n 1) 1 /2 (n 1) 1 , 2
2 (n 1) S 2 ( n 1) S 2 即 P 2 2 1 , /2 (n 1) 1- /2 (n 1)
ˆ | } 1 , 其中 0, 0 1 P{|
ˆ ˆ } 1 即 P{
随机区间 [ , ] 的置信区间
一、区间估计基本概念
1. 置信区间的定义 设总体 的概率函数 f ( x; ) 含有一个未知参 数 , 对于给定值 (0 1).若由样本1 , 2 , , n
3. 求置信区间的一般步骤(共3步) (1) 寻求一个样本 1 , 2 , , n 的函数: Z Z (1 , 2 , , n ; ) 其中仅包含待估参数 , 并且Z的分布已知 且不依赖于任何未知参数(包括 ). (2) 对于给定的置信度1 , 决定出两个常数a, b, 使P{a Z (1 , 2 , , n 1 , 2 , , n ; ) b 得到等价的 ˆ ˆ , 其中 ˆ ( , , , ), 不等式 1 2 1 1 2 n ˆ ( , , , )都是统计量, 那么[ , ]就是
2 1 2 n
即 P u1 / 2 u1 / 2 1 , n n
于是得的一个置信度为 1 的置信区间
u1 / 2 . 这样的置信区间常写成 n
其置信区间的长度为 2
u1 /2 , u1 /2 . n n
于是得方差 2 的置信度为1 的置信区间
(n 1) S 2 (n 1) S 2 , 2 2 . 1- /2 (n 1) /2 (n 1)
进一步可得: 标准差 的一个置信度为1 的置信区间
n 1S , 2 (n 1) 1- /2
. 2 ( n 1) /2 n 1S
注意: 在密度函数不对称时, 如 2 分布和 F分布, 习惯上仍取对称的分位点来 确定置信区间(如图).
例5 (续例2) 求例2中总体标准差 的置信度为 0.95的置信区间.
解
2
0.025,
2
1
2
0.975,
n 1 15,
因此定义中以下表达式 P{ } 1 的本质是:
随机区间[ , ]以 1 的概率包含 着参数的真值, 而不能说参数以 1 的概率落入随机区间 [ , ].
例如 若 0.01, 反复抽样1000 次, 则得到的1000 个区间中不包含 真值的约为 10个.
解
10, n 12,
计算得 x 502.92,
(1) 当 0.10时, 1
2 查表得 u1 / 2 u0.95 1.645,
0.95,
x
x
u1 / 2 502.92 10 1.645 498.17, n 12
n
u1 / 2
10 502.92 1.645 507.67, 12
的一个置信度为 1 的置信区间.
二、正态总体均值与方差的区间估计
I 单个总体 N ( , ) 的情况
2
设给定置信度为1 , 并设 1 , 2 , 修正样本方差.
, n 为
总体 N ( , 2 )的样本, , S 2分别是样本均值和
1. 均值 的置信区间
将t0.95(11)=1.7959代入计算可得平均寿命 的0.95置信下限为4.5806(万公里)。
2 方差 2 的置信区间
根据实际需要 , 只介绍 未知的情况.
方差 的置信度为 1 的置信区间
2
2 (n 1) S 2 (n 1) S , 2 2 . 1- /2 (n 1) /2 (n 1)
n
u1 / 2 .
例1 包糖机某日开工包了12包糖,称得重量(单 位:克)分别为506,500,495,488,504,486,505,
513,521,520,512,485. 假设重量服从正态分布, 且标准差为 10, 试求糖包的平均重量 的 1
置信区间(分别取 0.10 和 0.05).
(1) 2为已知,
u1 / 2 . 的一个置信度为1 的置信区间 n
推导过程如下:
因为 是 的无偏估计,
且U ~ N (0,1), / n
~ N (0,1)是不依赖于任何未知参数的. / n
P u1 / 2 1 , / n
4.7092 2.2010 0.0615 / 12 [4.5516, 4.8668]
在实际问题中,由于轮胎的寿命越长越好, 因此可以只求平均寿命的置信下限,也即 构造单边的置信下限。由于 由不等式变形可知 的1-置信下限为
x t1 (n 1) s n
n(x ) P( t1 (n 1)) 1 s
确定的两个统计量 (1 , 2 , 使得 , n )和 (1 , 2 , , n ) P{ } 1 (P{ } 1 )
则称 和 分别称为单侧置信下限和置信上限.
关于定义的说明
被估计的参数 虽然未知, 但它是一个常数, 没有随机性, 而区间( ,)是随机的 .
但因为S 2 是 2 的无偏估计 , 可用S S 2 替换 ,
根据
S/ n
~ t (n 1),
故P t1 /2 (n 1) t1 /2 (n 1) 1 , S/ n S S 即 P t1 /2 (n 1) t1 /2 (n 1) 1 , n n
设x1,…, xn是来自b(1, p)的样本,有u
对给定 , P
到置信区间为
1 1 n x 2n
xp u1 2 1 p(1 p) n
xp ~ N (0,1) p(1 p) / n
确定的两个统计量 (1 , 2 , 使得 , n )和 (1 , 2 , , n ) P{ } 1
则称随机区间[, ]是参数 的置信水平为1 的 (同等)置信区间, 和 分别称为(双侧)置信区间 的置信下限和置信上限.
2. 单侧置信上(下)限的定义 设总体 的概率函数 f ( x; ) 含有一个未知参 数 , 对于给定值 (0 1).若由样本1 , 2 , , n
于是得 的置信度为1 的置信区间
S t1 /2 (n 1) . n
例2 有一大批糖果,现从中随机地取16袋, 称得重 量(克)如下: 506 508 499 503 504 510 497 512 514 505 493 496 506 502 509 496 设袋装糖果的重量服从正态分布, 试求总体均值
即 的置信度为90%的置信区间为
(498.17, 507.67)
( 2) 当 0.05时,
1
2
0.975,
查表得
u1 / 2 u0.975 1.96,
同理可得的置信度为95%的置信区间为
(497.26, 508.58)
从此例可以看出 , 当置信度1 较大时, 置信区间也较大 ; 当置信度1 较小时, 置信区间也较小.
1. 要求 以很大的可能被包含在区间 ( , ) 内,就是说,概率 P{ } 要尽可能大. 即要求估计尽量可靠. 2. 估计的精度要尽可能的高. 如要求区间 ˆ ˆ 尽可能短,或能体现该要求的其 长度 2 1 它准则. 可靠度与精度是一对矛盾, 一般是在保证可靠度的条件下 尽可能提高精度.
的置信度为0.95的置信区间 . 解 0.05, n 1 15,
查 t ( n 1) 分布表可知: t0.975 (15) 2.1315,
计算得 x 503.75, s 6.2022 ,
得 的置信度为95% 的置信区间
6.2022 2.1315 503.75 16
查 (n 1) 分布表可知:
2 0 .025 (15) 6.262, 2 0 .975 (15) 27.488,
计算得 s 6.2022 ,
代入公式得标准差的置信区间 (4.58, 9.60) .
3.大样本置信区间
在样本容量充分大时,可以用渐近 分布来构造近似的置信区间。一个典 型的例子是关于比例p 的置信区间。
即 (500.4, 507.1).
就是说估计袋装糖果重量的均值在500.4克与 507.1克之间, 这个估计的可信程度为95%.
若依此区间内任一值作 为 的近似值,
6.2022 其误差不大于 2.1315 2 6.61 (克). 16 这个误差的可信度为95%.
例6.5.5 假设轮胎的寿命服从正态分布。为估计某 种轮胎的平均寿命,现随机地抽12只轮胎试用, 测得它们的寿命(单位:万公里)如下: 4.68 4.85 4.32 4.85 4.61 5.02 5.20 4.60 4.58 4.72 4.38 4.70 此处正态总体标准差未知,可使用t分布求均值 2 的置信区间。经计算有 x =4.7092,s =0.0615。 取 =0.05,查表知t0.975(11)=2.2010,于是平均 寿命的0.95置信区间为(单位:万公里)
6.6 区间估计
一、区间估计基本概念 二、正态总体均值与方差的区间估计 三、小结
引言
前面,我们讨论了参数点估计. 它 是用样本算得的一个值去估计未知参数. 但是,点估计值仅仅是未知参数的一个 近似值,它没有反映出这个近似值的误 差范围,使用起来把握不大. 区间估计 正好弥补了点估计的这个缺陷 .
我们希望
例6.5.4 设总体为正态分布N(,1),为得到 的置信水平为0.95的置信区间长度不超过1.2, 样本容量应为多大?
( 2) 为未知,
2
S t1 /2 (n 1) . 的置信度为1 的置信区间 n 推导过程如下:
由于区间 u1 / 2 中含有未知参数 , 不能 n 直接使用此区间,
由定义可见, 对参数 作区间估计,就是要设法找出 两个只依赖于样本的界限(构造统计量)
ˆ ( , ... ) 1 1 2 n ˆ ( , ,... ) 2 1 2 n
(ˆ1 ˆ2 )
一旦有了样本,就把 估计在区间 ( , ) 内. 这里有两个要求: