参数区间估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
置信区间. 置信区间
在求置信区间时,要查表求分位数 在求置信区间时,要查表求分位数. 教材已经给出了概率分布的上侧分位数(分 教材已经给出了概率分布的上侧分位数( 位点)的定义,为便于应用, 位点)的定义,为便于应用,这里我们再简 要介绍一下. 要介绍一下 对随机变量X, 设0<α<1, 对随机变量 ,称满足

−t x−1
2、t 分布 2 定义: 定义 设X~N(0,1) , Y~ χ (n) , 且X与Y相互 ~ ~ 与 相互 独立, 独立,则称变量 X T= Yn 所服从的分布为自由度为 n的 t 分布 的 分布. 记为T~ 记为 ~t(n). T的密度函数为: 的密度函数为: 的密度函数为
Γ[(n +1) 2] x f (x;n) = (1+ ) n Γ(n 2) nπ
对随机变量X, 设0<α<1, 对随机变量 ,称满足
P( X > xα ) =α
的点
xα为X的概率分布的上α分位数 的概率分布的上 分位数.
F分布的上 α 分 分布的上 位数 F (n , n ) α 1 2 自由度为n1,n2的 自由度为
α
置信区间定义: 一、 置信区间定义: 一个待估参数, 设 θ 是 一个待估参数,给定 α > 0, 若由样本X 若由样本 1,X2,…Xn确定的两个统计量 ˆ ˆ ˆ ˆ , θ1 =θ1(X1, X2,⋯ Xn),θ2 =θ2(X1, X2,⋯ Xn) , ˆ ˆ (θ1 <θ2 ) 满足
也就是说,我们希望确定一个区间, 也就是说,我们希望确定一个区间,使我 们能以比较高的可靠程度 可靠程度相信它包含真参 们能以比较高的可靠程度相信它包含真参 数值. 数值 湖中鱼数的真值 [ • ]
这里所说的“可靠程度”是用概率来度量的, 这里所说的“可靠程度”是用概率来度量的, 称为置信概率,置信度或置信水平. 称为置信概率,置信度或置信水平 习惯上把置信水平记作1−α,这里 α是一个 很小的正数. 很小的正数
σ
n
u 2} =1−α α
P{X − =1−α
σ
n
u 2 ≤µ ≤ X+ α
σ
n
u 2} α
于是所求 µ 的 置信区间为
[X −
σ
n
u 2, X + α
σ
n
u 2] α
也可简记为

σ
n
u 2 α
从例1解题的过程, 从例 解题的过程,我们归纳出求置 解题的过程 信区间的一般步骤如下: 信区间的一般步骤如下 1. 明确问题 是求什么参数的置信区间 明确问题, 是求什么参数的置信区间? 是多少? 置信水平 1−α 是多少 2. 寻找参数θ 的一个良好的点估计 T (X1,X2,…Xn) 3. 寻找一个待估参数 θ 和估计量 的函数 和估计量T的函数 S(T, θ),且其分布为已知 且其分布为已知. 且其分布为已知
(ห้องสมุดไป่ตู้
)
定理 1 (样本均值的分布 样本均值的分布) 样本均值的分布 设X1,X2,…,Xn是取自正态总体 N(µ,σ ) 的样本, 的样本,则有
2
X ~ N(µ,
σ
2
X −µ ~ N(0,1) σ n
n
)
样本方差的分布) 定理 2 (样本方差的分布 样本方差的分布 设X1,X2,…,Xn是取自正态总体 N(µ,σ )
2 n+1 − 2
3、F分布 、 分布 定义: 定义 设 X ~ χ (n1),Y ~ χ (n2), X与Y相互 与 相互 独立, 独立,则称统计量 X n1
Γ
2
2
F=
Y n2
服从自由度为n1及 n2 的F分布,n1称为第 分布, 服从自由度为 分布 一自由度, 称为第二自由度, 一自由度,n2称为第二自由度,记作 F~F(n1,n2) .
若X~F(n1,n2), X的概率密度为 , 的概率密度为
n +n Γ( n1+n2 ) n1 n1 21 −1 − 1 2 n n1 2 n2 ( n2 )( n2 x) 1+ n1 x 2 x ≥0 2 f (x;n1, n2 ) = Γ( 2 ) Γ( 2 ) 0 x <0
n
置信水平的大小是根据实际需要选定的. 置信水平的大小是根据实际需要选定的 例如, 例如,通常可取置信水平1−α=0.95或0.9等. 或 等 根据一个实际样本,由给定的置信水平, 根据一个实际样本,由给定的置信水平,我
ˆ ˆ 们求出一个尽可能小的区间 [θ1,θ2 ],使 ˆ P{ ˆ1 ≤θ ≤θ2} =1−α θ ˆ ˆ 称区间 [θ1,θ2 ]为 θ 的 置信水平为1−α 的
对给定的置信水平1−α, 查正态分布表得 u 2, α 使
X −µ P{| |≤ u 2} =1−α α σ n
为什么 这样取? 这样取?
对给定的置信水平1−α, 查正态分布表得 u 2, α 使
X −µ P{| |≤ u 2} =1−α α σ n
P{X −
从中解得
σ
n u 2 ≤µ ≤ X+ α
2 2
取自Y的样本 取自 的样本, X和 分别是这两个样本的样本 的样本 Y 均值, 1 S2分别是这两个样本的样本方差, 均值, S2和 2分别是这两个样本的样本方差 则有
2
χ = X + X +⋯+ X
2 2 1 2 2
2 n
记为
χ ~ χ (n)
2 2
χ 分布的密度函数为
2
n x −1 − 1 n2 x2 e 2 f (x;n) = 2 Γ(n 2) 0 其中伽玛函数 Γ(x)通过积分
x ≥0 x <0
Γ(x) = ∫ e t dt, x > 0 0 来定义. 来定义
4. 对于给定的置信水平1−α,根据 根据S(T,θ ) 的分布,确定常数a, , 的分布,确定常数 b,使得 P(a ≤S(T, θ)≤b)= 1−α 5. 对“a≤S(T, θ)≤b”作等价变形 得到如下 作等价变形,得到如下 作等价变形 形式: 形式 ˆ ˆ
P{ 1 ≤θ ≤θ2} =1−α θ
ˆ ˆ 则[θ1,θ2 ]就是θ 的100(1−α)%的置信区间 %的置信区间.
可见, 可见,确定区间估计很关键的是要寻找 和估计量T 的函数S(T,θ ), 一个待估参数 θ 和估计量 的函数 的分布为已知, 且S(T, θ)的分布为已知 不依赖于任何未知 的分布为已知 参数 (这样我们才能确定一个大概率区间 这样我们才能确定一个大概率区间). 这样我们才能确定一个大概率区间 而这与总体分布有关,所以, 而这与总体分布有关,所以,总体分布的 形式是否已知,是怎样的类型,至关重要. 形式是否已知,是怎样的类型,至关重要
P( X > xα ) =α
的点 x 为X的概率分布的上α分位数 的概率分布的上 分位数. α
对随机变量X, 设0<α<1, 对随机变量 ,称满足
P( X > xα ) =α
的点
xα 为X的概率分布的上α分位数 的概率分布的上 分位数.
标准正态分布的 上α分位数 u α
α
例如: 例如 u .05 =1.645 0 u0.025 =1.96
2
的样本, 分别为样本均值和样本方差, 的样本 X和 2 S分别为样本均值和样本方差 则有
(1)
(n−1)S
2
σ
2
2
~ χ (n−1)
2
(2) X和 相 独 . S 互 立
定理 3 设X1,X2,…,Xn是取自正态总体 N(µ,σ )
2
的样本, 分别为样本均值和样本方差, 的样本 X和 2 S分别为样本均值和样本方差 则有
这里,我们主要讨论总体分布为正态 这里,我们主要讨论总体分布为正态 的情形. 若样本容量很大, 的情形 若样本容量很大,即使总体分布 未知,应用中心极限定理, 未知,应用中心极限定理,可得总体的近 似分布, 似分布,于是也可以近似求得参数的区间 估计. 估计
教材上讨论了以下几种情形: 教材上讨论了以下几种情形: 的区间估计. 单个正态总体均值 µ 和方差 σ 的区间估计 2 σ1 两个正态总体均值差 µ1 − µ2 和方差比 2 σ2 的区间估计. 的区间估计
ˆ ˆ θ1 =θ1(X1,…Xn) ˆ ˆ θ2 =θ2(X1,…Xn)
ˆ ˆ (θ1 <θ2 )
ˆ ˆ 一旦有了样本,就把 θ 估计在区间 [θ1,θ2 ] 一旦有了样本, 内. 这里有两个要求 这里有两个要求:
ˆ ˆ 1. 要求 θ 以很大的可能被包含在区间 [θ1,θ2 ] ˆ 要尽可能大. θ 就是说, 内,就是说,概率P{ ˆ1 ≤θ ≤θ2}要尽可能大 即要求估计尽量可靠. 即要求估计尽量可靠
2
下面我们举几个例子说明其应用方法. 下面我们举几个例子说明其应用方法
统计三大分布回顾 1、χ 分布 、
2
χ 分布是由正态分布派生出来的一种分布. 分布是由正态分布派生出来的一种分布.
2
, 相互独立 定义: 设 X1, X2,⋯ Xn 相互独立, 都服从正态 定义
分布N(0,1), 则称随机变量: 则称随机变量: 分布 分布. 所服从的分布为自由度为 n 的 χ 分布
2. 估计的精度要尽可能的高 如要求区间 估计的精度要尽可能的高. ˆ ˆ 尽可能短, 长度 θ2 −θ1 尽可能短,或能体现该要求的其 它准则. 它准则 可靠度与精度是一对矛盾, 可靠度与精度是一对矛盾, 一般是在保证可靠度的条件下 尽可能提高精度. 尽可能提高精度
二、置信区间的求法 例1 设X1,…Xn是取自N(µ,σ 2)的样本, 2已 , 的样本, 知 σ 的置信区间. 求参数µ的置信度为 1−α的置信区间
有了分布, 有了分布,就可以求出 U取值于任意区间的概率 取值于任意区间的概率. 取值于任意区间的概率
对于给定的置信水平(大概率 根据U的分布 的分布, 对于给定的置信水平 大概率), 根据 的分布, 大概率 确定一个区间, 使得U取值于该区间的概率为 确定一个区间 使得 取值于该区间的概率为 置信水平. 置信水平
X −µ ~ t(n−1) S n
定理 4 (两总体样本均值差的分布 两总体样本均值差的分布) 两总体样本均值差的分布
设 ~ N(µ1,σ ), ~ N(µ2,σ ), X与Y独立 X Y 独立, 且 与 独立 X1,X2,…, Xn1 是取自 的样本 Y1,Y2,…, Yn2 是 是取自X的样本 的样本,
对随机变量X, 设0<α<1, 对随机变量 ,称满足
P( X > xα ) =α
的点
xα为X的概率分布的上α分位数 的概率分布的上 分位数.
自由度为n的 自由度为 的 2 χ 分布的上α 2 分位数 χα (n)
α
例如: 例如
χ χ
2 0.025 2 0.975
(3) = 9.348 (3) = 0.216
参数区间估计
引言
前面,我们讨论了参数点估计 前面,我们讨论了参数点估计. 它 是用样本算得的一个值去估计未知参数. 是用样本算得的一个值去估计未知参数 但是,点估计值仅仅是未知参数的一个 但是, 近似值, 近似值,它没有反映出这个近似值的误 差范围,使用起来把握不大. 差范围,使用起来把握不大 区间估计 正好弥补了点估计的这个缺陷 .
ˆ P{ ˆ1 ≤θ ≤θ2} =1−α θ
ˆ ˆ 是 置信水平(置信度、 则称区间 [θ1,θ2 ] θ 的置信水平(置信度、
置信概率) 的置信区间. 置信概率)为 1−α 的置信区间
ˆ θ 分别称为置信下限和置信上限. θ1和 ˆ2 分别称为置信下限和置信上限
可见, 可见, 作区间估计, 对参数 θ作区间估计,就是要设法找出 两个只依赖于样本的界限(构造统计量 构造统计量) 两个只依赖于样本的界限 构造统计量
X −µ 取 U= ~N(0, 1) σ n
寻找一个待估参数和 估计量的函数 ,要求 其分布为已知. 其分布为已知
解: 选 µ的点估计为 X 寻找未知参数的 明确问题,是求什么参数的置信区间 是求什么参数的置信区间? 明确问题 是求什么参数的置信区间
一个良好估计. 一个良好估计 置信水平是多少? 置信水平是多少?
譬如,在估计湖中鱼数的问题中, 譬如,在估计湖中鱼数的问题中,若 我们根据一个实际样本,得到鱼数N的极 我们根据一个实际样本,得到鱼数 的极 大似然估计为1000条. 大似然估计为 条 实际上, 的真值可能大于 的真值可能大于1000条, 实际上,N的真值可能大于 条 也可能小于1000条. 也可能小于 条 若我们能给出一个区间, 若我们能给出一个区间,在此区间 的真值位于其中. 内我们合理地相信 N 的真值位于其中 这样对鱼数的估计就有把握多了. 这样对鱼数的估计就有把握多了
相关文档
最新文档