数理统计-区间估计
数理统计之区间估计(ppt 50页)
置信水平的大小是根据实际需要选定的.
例如,通常可取置信水平1 =0.95或0.9等.
根据一个实际样本,由给定的置信水平,我
们求出一个尽可能小的区间 [ˆ1,ˆ2],使
P {ˆ1ˆ2}1
称区间 [ˆ1,ˆ2]为 的 置信水平为1 的
置信区间.
寻找置信区间的方法,一般是从确定 误差限入手.
教材上讨论了以下几种情形:
单个正态总体均值和方差 2的区间估计.
两个正态总体均值差 1 2和方差比
的区间估计.
2 1 2 2
比例 p 的区间估计.
下面我们举几个例子,其余部分请自己看.
休息片刻继续
例2 已知某地区新生婴儿的体重X~N(,2),
, 2未知,
…
随机抽查100个婴儿 得100个体重数据 X1,X2,…,X100
相应的置信区间平均长度越长.
也就是说,要想得到的区间估计可靠 度高,区间长度就长,估计的精度就差. 这是一对矛盾.
实用中应在保证足够可靠的前提下, 尽量使得区间的长度短一些 .
例3 某单位要估计平均每天职工的总医疗费, 观察了30天,其总金额的平均值是170元,标准 差为30元,试决定职工每天总医疗费用平均值 的区间估计(置信水平为0.95).
(ˆ1 ˆ2) 满足
P {ˆ1ˆ2}1
则称区间 [ˆ1,ˆ2]是 的置信水平(置信度、
置信概率)为 1 的置信区间.
ˆ1和ˆ2 分别称为置信下限和置信上限.
可见,
对参数 作区间估计,就是要设法找出
两个只依赖于样本的界限(构造统计量)
ˆ1 ˆ1(X1,…Xn) ˆ2 ˆ2(X1,…Xn)
下面我们就来正式给出置信区间的定义, 并通过例子说明求置信区间的方法.
区间估计
常见形式
间估计的区间上、下界通常形式为:“点估计±误差” “总体均值”的区间估计
总体均值:μ 总体方差:σ 样本均值:x =(1/n)×Σ(Xi) 样本方差:s =(1/(n-1))×Σ(Xi-x)^2 符号假设置信水平:1-α 显著水平:α
已知n个样本数据Xi (i=1,2,...,n),如何估计总体的均值? 首先,引入记号: 区间估计σ'=σ/sqrt(n) s'=s/sqrt(n) 然后,分情况讨论: 情况1 小样本(n<30),σ已知,此时区间位于 x ± z(α/2)×σ' 情况2 小样本(n<30),σ未知,此时区间位于 x ± t(α/2)×s' 区间估计情况3 大样本(n≥30),σ已知,此时区间位于 x ± z(α/2)×σ' 情况4 大样本(n≥30),σ未知,此时区间位于 x ± z(α/2)×s' 其中, z(α/2)表示:正态分布的水平α的分位数 t(α/2)表示:T分布的水平α的分位数
置信区间
区间估计有时,对所考虑的置信区间(或上、下限)加上某种一般性限制,在这个前提下寻找最优者。无偏 性是经常用的限制之一,如果一个置信区间(上、下限)包含真值θ的概率,总不小于包含任何假值θ┡的概率, 则称该置信区间(上、下限)是无偏的。同变性(见统计决策理论)也是一个常用的限制。
求置信区间的方法 最常用的求置信区间及置信上、下限的方法有以下几种。
即
费希尔把这个等式解释为:在抽样以前,对于θ落在区间内的可能性本来一无所知,通过抽样,获得了上述 数值,它表达了统计工作者对这个区间的"信任程度",若取b)=-α=uα/2,则得到区间,其信任程度为 1-α。即 当用上述区间作为θ的区间估计时,对于“它能包含被估计的θ”这一点可给予信任的程度为1-α。
数理统计中的参数估计与置信区间估计
数理统计中的参数估计与置信区间估计数理统计是概率论、数学统计和实证研究的基础,它研究的是通过观测和实验来获取数据,从而对总体的特征进行推断和估计的方法和理论。
在数理统计中,参数估计和置信区间估计是两个重要的概念和方法,用于对总体参数进行推断和估计。
一、参数估计参数估计是指通过样本数据对总体参数进行估计的方法。
总体参数是指总体的某个特征或指标,如均值、方差等。
参数估计可以分为点估计和区间估计两种方法。
1. 点估计点估计是指使用样本数据来估计总体参数的一个具体值,这个估计值被称为点估计量。
常用的点估计量有样本均值、样本方差等。
点估计的目标是使得估计值尽量接近真实的总体参数,即具有无偏性和有效性。
无偏性是指估计值的期望等于真实参数,有效性是指估计值的方差最小。
无偏性是一个重要的性质,它保证了估计值在大样本下趋近于真实值。
有效性则是在无偏估计的前提下,使估计值的方差最小,从而提高估计的准确性。
2. 区间估计区间估计是指通过样本数据得到总体参数的一个范围,这个范围被称为置信区间。
置信区间表示了总体参数的估计精度和可信程度。
在构造置信区间时,需要指定置信水平,常用的置信水平有95%和99%等。
置信水平为95%表示在大量重复抽样中,有95%的置信区间会包含真实的总体参数。
构造置信区间的方法有很多,如正态分布的置信区间、t分布的置信区间等。
不同的方法适用于不同的总体分布和样本信息。
在实际应用中,要根据具体的问题和数据的特点选择合适的置信区间方法。
二、数理统计中的应用参数估计和置信区间估计在数理统计中有广泛的应用,可以用于推断和估计各种领域的问题。
1. 总体均值的估计当我们要估计总体的均值时,可以使用点估计和区间估计的方法。
点估计是通过样本均值来估计总体均值,区间估计则是给出总体均值的一个范围。
2. 总体比例的估计当我们要估计总体的比例时,例如某种特征在总体中出现的比例,也可以使用点估计和区间估计的方法。
点估计是通过样本比例来估计总体比例,区间估计则是给出总体比例的一个范围。
概率论与数理统计-第6章-第4讲-区间估计
本讲内容
01 置信区间定义 02 求置信区间的步骤 03 几点说明
02 求置信区间的步骤
例 设X1,…Xn 是取自 N (, 2 ) 的样本, 2已知,
求参数 的置信水平为 1 的置信区间.
明确问题:求什么参数的置信区间?置信水平是多少?
解 选 的点估计为 X
寻找未知参数的
取 U X N (0,1) 一个良好估计 n
u
2} 1
1
为什么 这样取?
u
u
2
2
8
02 求置信区间的步骤
从中解得
P{|
X
n
|u2}源自1P{Xn u 2
X
n
u
2}
1
于是所求 的 置信区间为
[X
n u 2 ,
X
n u
2]
也可简记为 X n u 2
从例题的过程,我们归纳出求置信区间的
一般步骤如下:
1
u
u
2
2
9
02 求置信区间的步骤
求置信区间的步骤
10
本讲内容
01 置信区间定义 02 求置信区间的步骤 03 几点说明
03 几点说明
1. 要求 θ 以很大的可能被包含在 [θˆ1, θˆ2 ]
内,P(ˆ1 ˆ2 ) 1 要尽可能大.
即要求估计尽量可靠. 2. 估计的精度要尽可能的高. 如要求区间
长度 θˆ2 θˆ1 尽可能短.
置信度与精度是一对矛盾,当样本容 量固定时,置信度越高,则精度越差.
u
u
2
2
区间的长度为 2u —— 达到最短
2n
14
03 几点说明
特别说明
即使在概率密度不对称的情形,如
数理统计11:区间估计,t分布,F分布
数理统计11:区间估计,t分布,F分布在之前的⼗篇⽂章中,我们⽤了九篇⽂章的篇幅讨论了点估计的相关知识,现在来稍作回顾。
⾸先,我们讨论了正态分布两个参数——均值、⽅差的点估计,给出了它们的分布信息,并指出它们是相互独⽴的;然后,我们讨论到其他的分布族,介绍了点估计的评判标准——⽆偏性、相合性、有效性;之后,我们基于⽆偏性和相合性的讨论给出了常⽤分布的参数点估计,并介绍了两种常⽤于寻找点估计量的⽅法——矩法与极⼤似然法;最后,我们对点估计的有效性进⾏了讨论,给出了⼀些验证、寻找UMVUE的⽅法,并介绍了CR不等式,给出了⽆偏估计效率的定义。
以上就是我们在前九篇⽂章中提到的主要内容,还顺便介绍了⼀些常⽤的分布:Γ分布、β分布、χ2分布。
今天开始,我们将进⼊区间估计与假设检验部分。
由于本系列为我独⾃完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!⽬录Part 1:什么是区间估计区间估计同样是参数估计的⼀种⽅法,不同于点估计⽤样本计算出的⼀个统计量直接作为原始参数的估计,区间估计会根据抽取出的样本,计算出⼀个基于样本观测值的区间。
简单说来,如果对总体f(x;θ)中的参数θ作估计,则⾸先从总体中获得样本\boldsymbol{X}=(X_1,\cdots,X_n),并确定两个具有确定⼤⼩关系的统计量\hat g_1(\boldsymbol{X})\le \hat g_2(\boldsymbol{X}),根据样本观测值计算出的区间[\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]就是待估参数\theta的区间估计。
由此,我们可以看出,区间估计依然是依赖于统计量的,并且往往需要不⽌⼀个统计量。
区间估计相⽐于点估计的特点是,区间估计给出了⼀个相对“粗糙”的范围,这就导致你需要使⽤这个参数时,不像点估计⼀样能直接把估计值拿来⽤;但是,区间估计具有涵盖参数真值的可能,因为当参数空间\Theta的取值连续时,点估计\hat\theta与真值相等的可能性\mathbb{P}(\hat\theta=\theta)=0,但是区间估计包含真值的可能性\mathbb{P}(\theta\in[\hatg_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})])>0,这使得区间估计⽐起点估计⽽⾔,增加了⼀定的可靠性。
数理统计区间估计总结
数理统计区间估计总结数理统计是一门研究数据收集、整理、分析和解释的学科,而区间估计是其中一种重要的方法。
区间估计是通过样本数据来推断总体参数的取值范围,它能够提供关于总体参数的不确定性程度的信息。
本文将对区间估计的概念、应用以及优缺点进行探讨,以期帮助读者更好地理解和运用这一统计方法。
一、区间估计的概念区间估计是一种基于样本数据的统计推断方法,通过计算得到一个包含未知总体参数的区间范围。
这个区间的上限和下限是根据样本数据计算出来的,并且具有一定的置信水平,代表了对总体参数的估计精度。
二、区间估计的应用区间估计广泛应用于各个领域的研究中,特别是在市场调研、医学实验、经济学研究等方面。
例如,在市场调研中,通过对样本数据的分析,可以得到某一产品销售量的置信区间,以评估其市场潜力。
在医学实验中,可以利用区间估计来确定某种药物的有效剂量范围,以指导临床应用。
三、区间估计的优缺点区间估计具有以下优点:首先,它能够提供对总体参数的估计精度信息,使得决策者能够更加准确地评估风险和不确定性。
其次,区间估计不依赖于总体分布的假设,适用于各种类型的数据。
最后,区间估计可以较好地处理样本量较小的情况,提供对总体参数的合理估计。
然而,区间估计也存在一些缺点。
首先,区间估计只能提供对总体参数的范围估计,无法给出具体的点估计。
其次,区间估计的置信水平不一定能够准确反映总体参数的真实情况,存在一定的误差。
最后,区间估计对样本数据的分布和总体参数的假设要求较高,如果假设不满足,估计结果可能会失真。
区间估计是一种重要的统计推断方法,可以提供对总体参数的估计范围和置信水平信息。
它在各个领域的研究中有着广泛的应用,并具有一定的优点和缺点。
因此,在实际应用中,我们需要根据具体情况选择合适的区间估计方法,并结合其他统计方法进行综合分析,以获得更加准确的结论。
常用数理统计公式
1.∑==ni ix nx 11 y n21221)(xn x x xL ni i ni ixx -=-=∑∑==21221)(yn y y yL ni i ni iyy -=-=∑∑==yx n y x y y x x L i ni i i ni i xy -=--=∑∑==11)()(x b y a ˆˆ-= xxxy L L b /ˆ= )(ˆˆˆˆx x b y x b a y-+=+= 2.b 的显著性检验0:,0:10≠=b H b H拒)2(-≥=n r L L L r a yyxx xy3. b 的区间估计)2(ˆ)ˆ(-=-=n t b bL t exx σ)/)2(ˆˆ(2/1xx e L n t b b -±∈-ασ 2ˆˆ2--=n b L yy eσ 4. 预测y 0)2()(11ˆˆ2/12000-→-++--n t L x x nyy xxe ασ5. 控制)ˆˆ(ˆ12/1a u y bx e -+'='-ασ)ˆˆ(ˆ12/1a u y bx e --''=''-ασ6. 点估计2σn L b L xxyy 22ˆˆ-=σ其他:))1(,(ˆ22xxL xna N a+→σ),(ˆ2xxL b N bσ→2)ˆ,ˆc o v (σxxL x b a-= 0)ˆ,c o v (=by r i n 求i x ,2i s ,x方差来源(A, e, S T ) 平方和(S A , S e , S T ) 自由度(r-1, n-r ) 方差(e A S S ,)F 值(e A S S /)),1(1r n r F ---α大否小接受区间估计(单) 1.1 μσ已知,求2)1,0(/U N nx →-=σμ)(21ασμ-±∈unx1.2 μσ未知,求2)1(/U *-→-=n t ns x μ ))1((21*-±∈-n tnsx αμ2.12σμ已知,求)()(22212n u xni iχσχ→-=∑=))()(,)()((22/21022/12102n x u xn x u xni ini iαασ∑∑=-=--∈2.22σμ未知,求)1-(S1222*2n n χσχ→-=)( ))1(S 1,)1(S 1(22/2*22/12*2----∈-n x n n x n αασ)()( 区间估计(双) 3.1 212221,u -μσσ已知,求)1,0()()(U 22212121N n n u y x →+---=σσμ))(()(2122212121ασσμ-+±-∈-un n y x u3.22122212u -=μσσσ,求未知)2(11)()(U 212121-+→+---=n n t n n S u y x Wμ2212*12)12()1(*-+-+-=n n n Sn S SW))2(11)(()(21212121-++±-∈--n n tn n S y x u Wαμ0-1分布 B (1,p ) EX=P DX= p(1-p){}()k n k p p k X P --==1 it x pe p -1(t)+=ϕ 二项分布B (n ,p ) EX=nP DX=n p(1-p){}()k n kkn p pC k X P --==1 n)pe p -1((t)it x +=ϕ几何分布(n 重伯努利分布) EX=1/p DX= (1-p)/p 2{}()11--==n p p n X P泊松分布p(λ)(k=0,1,2…) EX=λ DX=λ{}λλ-==ek k X P k!))1e (exp((t)it x -=λϕ均匀分布U (a,b ) EX=(b+a )/2 DX=(b-a)2/12{}ab XP -=1 )()ee((t)aitbitxa b it --=ϕ指数分布 EX=1/λ DX=1/λ2{}x e XP λλ-= 1x )1((t)--=λϕit正态分布N ⎭⎬⎫⎩⎨⎧-=2exp (t)22xt iut σϕ 伽玛分布Γ分布{}xexX P βαααβ--Γ=1)( αβϕ--=)1((t )x itβα=EX 2βα=DX2χ分布 EX=n DX=2n{}22122)2(x nnen x X P --Γ=2x )21((t)n it --=ϕF 分布)2(2222>-=n n n EX )4()4()2()2(2222212122>---+=n n n n n n n DX。
概率论与数理统计第6章参数区间估计2,3节
n
E(X
k
)
E(X
k)
i1
i1
二、有效性
未知参数 的无偏估计量不是唯一的.
设 ^1 和 ^2 都是参数 的无偏估计量,
θˆ 1
θˆ 2
集中
分散
蓝色是采用估^ 计量 1 , 用 14 个样本值得到的 14 个估计值. 紫色是采用估^ 计量 2 , 用 14 个样本值得到的 14 个估计值.
若limD(ˆ)0, 则ˆ是的一致估 . 计量 n
回顾例子.设总体X的概率密度为
f(x)6x3 (x),0x;
0, 其他
X1, X2,…, Xn 是取自总体X 的简单随机样本, (1) 求的矩估计量 ˆ;
(2) 求ˆ的方差D(ˆ).
解:矩估计 ˆ量 2X. D(ˆ)4D(X)4D(X)2
若滚珠直径服从正态分布X ~ N( , 2), 并且已知 = 0.16(mm),求滚珠直径均值的置信水平为95%
的置信区间.
解:由上面求解的置信水平为1- 的置信区间
Xσn 0 uα/,2 Xσn 0 uα/2
已 n 知 1,0 0 0 .1,6 0 .0,5 x110i110xi 14.92,
若进行n次独立重复抽样,得到n个样本观测值,
每个样本观测 个值 随确 机(定 ˆ1区 ,ˆ2一 )间 .那么
每个区间的 可真 能 , 或 值 包不 含包 的含 真 , 值
根据伯努利大数定理, 在这n个随机区间中,
包含 真值1 的 0(1 0 约 )% 占 ,不包含 10 的 % 0. 约
便得 k的 到 最大似 ˆk(X 1,然 X 2, ,估 X n).计
第二节 判别估计量好坏的标准
概率论与数理统计--- 估计量的评选标准
15
例3 设总体 X 的均值和方差均存在 ,nX1, „, Xn 是总体 X 的样本, C1 , C2 ,„ ,Cn 为不全相同且满足 C i 1 的任一组常数,
证明: (1) 样本的线性函数 Ci X i 是总体均值 的无偏估计量 ; i 1 n n 1 X 较 C X 有效. (2) 总体均值的无偏估计量 X n i i i i 1 i 1 n n n 证(1) E ( C i X i ) C i EX i C i
24
譬如,在估计湖中鱼数的问题中, 若我们根据一个 实际样本得到鱼数 N 的极大似然估计为 1000 条.
但实际上, N 的真值可能大于 1000 条, 也可能小于1000条. 若我们能给出一个区间, 在此区间内我们合 理地相信 N 的真值位于其中, 这样对鱼数的估计就有 把握多了.
也就是说, 我们希望确定一个尽可能小的区间, 使我们能以 • 比较高的可靠程度相信它包含真参数值.
i 1 j 1
n
m
解:(1) E(T)=an+bm =(na+mb) 当na+mb=1时, E(T)=
此时,T是的无偏估计
(2) D(T)=a2n+b24m
1 na 2 na 4m( ) m 2 4(1 na ) 2 na m 8n(1 na ) dD 0 0 2na 令 m da 4 (4n+m)a=4 a 4n m D(a)>0 此时D(T)最小,即T最有效 4 1 a , b 4n m 4n m
定义:设ˆ (X1,X2,…,Xn)为的估计量,若E(ˆ) 存在,且有 ˆ E ( ) , 则称ˆ 为的无偏估计量
概率论与数理统计第九章区间估计
1, n2
1)
S12
2 1
S
2 2
2 2
F (n1 1, n2 1)} 2
即
P{ S12
1
2 1
S12
1
} 1
S
2 2
F1 2 (n1 1, n2
1)
2 2
S
2 2
F
(n1 1, n2 1)
2
因此方差比
2 1
2 2
的置信水平为1-a置信区间为
二、.方差比
2 1
2 2
的置信区间
例5 研究由机器A和机器B生产的钢管的内径,随机抽取
机地取Ⅰ型子弹10发,得到枪口速度的平均值为
x1 =500(m/s),标准差 s1 =1.10(m/s), 随机地取Ⅱ型
子弹20发, 得到枪口速度的平均值为x 2 =496(m/s),标
准差 s2 =1.20(m/s),假设两总体都可认为近似地服从正
态分布。且由生产过程可认为方差相等。求两总体均值
差-
机器A生产的管子18只,测得样本方差 s12=0.34( ); 抽取机器B生产的管子13只,测得样本方差 s2 2 =0.29(mm2), 设两样本相互独立,且设由机器A和机器B生产的管子内
径分别服从正态分布
N(1,
2)和
1
N(2, 22),这里
i
,
2 i
(i
1,2)
均未知,试求两个总体样本方差比
2 1
1 均值差
的置信区间
2
方差比
2 1
2 2
的置信区间
一、均值差
的置信区间
1 因为
所以
均为已知
X
Y~N (1
应用数理统计第二章参数估计(3)区间估计
例1 有一大批月饼,现从中随机地取16袋,称得重量(以克 计)如下:506 508 499 503 504 510 497 512 514 505 493 496 506 502 509 496 ,设袋装月饼的重量近似地服从正态 分布,试求总体均值的置信度为0.95的置信区间。 解: 2未知, 1-=0.95, /2=0.025,n-1=15, t0.975 (15) 2.1315 由已知的数据算得 x 503.75, S* 6.2022
n1 (n2 1) S12 12 n1 (n2 1) S12 P F (n 1, n1 1) 2 F (n 1, n1 1) 1 2 /2 2 2 1 / 2 2 2 n2 (n1 1) S2 n2 (n1 1) S2
10
得所求的标准差的置信区间为 (4.58, 9.60)
2.4.3 两个正态总体参数的区间估计
在实际中常遇到下面的问题:已知产品的某一质量指标 服从正态分布,但由于原料、设备条件、操作人员不同,或 工艺过程的改变等因素,引起总体均值、总体方差有所改变, 我们需要知道这些变化有多大,这就需要考虑两个正态总体 均值差或方差比的估计问题。
ˆ a ˆ b} {g(a) T ( X , X ,..., X ; ) g(b)} { 1 2 n
其中g ( x )为可逆的已知函数, T ( X 1 , X 2 ,..., X n ; 况
设总体X~N(,2),X1, X2, …,Xn是总体X的样本,求,2 /2 /2 的置信水平为(1)的置信区间.
求得 的置信水平为(1)的置信区间: ( 2未知)
S S* t1 2 (n 1) or X t1 2 (n 1) X n1 n
主讲数理统计7区间估计
2. 区间估计
一 、设X1 , …, Xn为来自总体 Xf (x, )的一个样 本, 为未知参数。所谓的区间估计,就是以
满足条件
ˆL ( X1, , Xn ) ˆU ( X1, , Xn )
为端点的区间,一旦有了样本X1, …, Xn,就把 估
计在区间
[ˆL ( X1, Xn ),ˆU ( X1, Xn )]
(X
Y
)
(1
2 )
~N(0, 1)
2 1
2 2
nm
寻找一个待估参数和
估计量的函数 ,要求
其分布为已知.
U
(X
Y ) (1 2 )
12
2 2
~N(0, 1)
( x)
nm
P{u /2
(X
Y ) (1
12
2 2
2 )
u1
2}
nm
u/2 u1-/2
P{u1 /2
(X
Y ) (1
2 1
率的观点解释,即:若进行m(m较大)次抽样,获得
m个置信区间,这些区间中约有(1)m个包含。
那么,就一个区间
[x n u1 2 , x n u1 2 ]
而言,有(1)%把握认为它包含。
区间估计的精度
区间估计的精度可以用区间长度来衡量: 对于
正态总体(方差 2已知)均值 的置信区间
[X
n u1 2 ,
Sn
寻找一个待估参数和 估计量的函数 ,要求 其分布为已知.
t X
Sn
~t(n 1)
f (x)
P{t
2 (n
1)
X S
n
t1
2 (n
1)}
t /2 (n 1)
数理统计区间估计总结
数理统计区间估计总结数理统计是一门研究数据分析和概率推断的学科,而区间估计是数理统计中的一个重要方法。
在实际应用中,我们常常需要根据样本数据来推断总体参数的取值范围。
区间估计的目的就是通过样本数据来估计总体参数,并给出一个置信水平,表示我们对估计结果的信心程度。
区间估计的基本思想是根据样本数据的统计量来构造一个区间,使得总体参数有一定的概率落在这个区间内。
常见的区间估计方法包括正态分布的区间估计、t分布的区间估计等。
其中,正态分布的区间估计是应用最广泛的一种方法。
在进行区间估计时,我们首先需要确定置信水平。
置信水平是指在重复抽样的条件下,该区间估计方法能够包含总体参数的真值的概率。
常见的置信水平有90%、95%和99%等。
一般情况下,置信水平越高,估计的区间范围就越宽,我们对估计结果的信心程度也更高。
接下来,我们需要选择一个合适的统计量来进行区间估计。
常见的统计量有样本均值、样本比例、样本方差等。
根据不同的总体分布和参数类型,我们选择相应的统计量来构造区间估计。
我们根据区间估计的方法和统计量的抽样分布来计算区间的上下限。
以样本均值的区间估计为例,当总体服从正态分布时,我们可以使用z分布进行区间估计;当总体的标准差未知时,我们可以使用t 分布进行区间估计。
区间估计的优点是能够给出一个范围,而不是一个点估计,使我们对总体参数的估计更加准确。
同时,区间估计还能够给出一个置信水平,告诉我们估计结果的可靠程度。
然而,区间估计也存在一定的局限性,例如需要满足一些假设条件,样本量要求较大等。
区间估计是数理统计中一种重要的推断方法。
通过构造一个区间来估计总体参数,并给出一个置信水平,我们可以在实际应用中对未知参数进行推断。
区间估计的方法和步骤需要根据不同的问题进行选择和应用,以确保估计结果的准确性和可靠性。
概率论与数理统计(王明慈第二版)第6章参数区间估计2,3节
第三节 正态总体参数的区间估计
基本内容: 一、区间估计的概念 二、正态总体均值的区间估计 三、正态总体方差的区间估计
一、区间估计的概念
定义 设总体 X 的分布中含有未知参数,对于 给定的概率 1- (0 < < 1), 若存在两个统计量 ˆ1(X1, X2, , Xn )与ˆ2(X1, X2, , Xn ), 使得
即
P
i
n 1
tα/
2
(n
-
1),
x
s n
tα/
2(n
1)
得到的95%的置信区间为
(14.92-0.138, 14.92+0.138) 即(14.782, 15.058) (mm)
三、正态总体方差 2 的区间估计
1. 已知均值= 0的正态总体 X, 求未知参数 2 1- 的置信区间
解:设总体 X ~ N( , 2), 有
k 1,2,L ,m
第三步: 解含m个参数ˆ1,ˆ2,L的,mˆ个m 方程组, 得
ˆk ˆk X1, X2, , Xn k 1,2, ,m
以ˆk作为参数 的k 估计量.
第四步:将 θˆk中的X1 , X2 , , Xn换成x1 , x2 , , xn, 便得到θk的矩估计值θˆk ( x1 , x2 , , xn ).
例3. 设X1,X2,X3是来自总体X的样本, 且
总体均值E(X)= 未知, 则下列4个关于 的
统计量中哪个更有效?( C )
A. X1 X 2 3X 3 ; 55 5
C. X1 X 2 X3 ; 333
B. X1 X 2 X 3 ; 424
D. X1 X 2 X 3 . 362
分析:利用P181的7题结论,可选C.
数理统计(区间估计)
数理统计
例2 设总体 X ~ N ( , 2 ), X1, X2,…, Xn为 总体的样本, 求 , 2 的矩法估计量.
解 ˆ矩 X
ˆ2矩1
n
n i1
Xi2
X2
例3 设总体 X ~ E(), X1, X2,…, Xn为总体的 样本, 求 的矩法估计量.
解 E(X)1/, 令 X 1 / .
2)求出 ˆ1,ˆ2, ,ˆk , 使得
L ( x 1 ,x 2 , ,x n ;ˆ 1 ,ˆ 2 , ,ˆ k )
( 1 , m 2 , , k ) { L ( x a 1 ,x 2 , x ,x n ;1 ,2 , ,k )}
数理统计
若 L是 1, ,k的可微函数,解似然方程组
解 总体 X 的概率分布为
P ( X x ) p x ( 1 p ) 1 x ,x 0 , 1
设 x1, x2,…, xn为总体样本X1, X2,…, Xn 的样本值,
则 P ( X 1 x 1 , X 2 x 2 , , X n x n )
n
n
xi
n xi
pi1 (1p) i1 L(p) x i 0 ,1 ,i 1 ,2 , ,n
则称 1, ,k 为1,…, k 的极大似然估计值
数理统计
显然,
ˆr g (x 1 ,x 2 , ,x n ) r 1 ,2 , ,k
称统计量
ˆ r g (X 1 ,X 2 , ,X n ) r 1 ,2 , ,k
为1, 2,…, k 的极大似然估计量
求最大似然估计(MLE)的一般步骤
(1) 由总体分布导出样本的联合分布律(或联合 密度);
1( X 1, X 2 , , X n ) 2 ( X 1, X 2 , , X n )
西安交大西工大 考研备考期末复习概率论与数理统计 区间估计
解 10, n 12,
计算得 x 502.92,
(1) 当 0.10时, 1 0.95,
2 查表得 u / 2 u0.05 1.645,
x
n u / 2
502.92
10 1.645 498.17, 12
E(ˆ ) 为估计量 ˆ 的偏差。
例1 设总体 X 的k 阶矩k E( X k ) (k 1)存在,
又设 X1, X2 ,, Xn 是 X 的一个样本,试证明不论
总体服从什么分布, k 阶样本矩
Ak
1 n
n i 1
X
k i
是
k 阶总体矩k的无偏估计.
证 因为 X1, X2 ,, Xn 与 X 同分布,
则 称 随 机 区 间[ˆ1,ˆ2 ]是 的 置 信 度 为1 的 置 信 区 间,ˆ1和ˆ2分 别 称 为 置 信 度 为1 的 双 侧 置 信 区 间 的置 信下 限和 置信 上限, 1 为置 信度.
关于定义的说明
被估计的参数虽然未知, 但它是一个常数, 没有随机性, 而区间[ˆ1,ˆ2 ]是随机的.
例5 若总体 X 的 E( X ) 和D( X ) 存在,则样
本均值 X 是总体均值的相合估计.
解:E( X ) E( X )
D( X )
lim D( X ) lim
0
n
n n
一般地,样本的 k 阶原点矩
Ak
1 n
n
X
k i
i 1
是总体 X
的 k 阶原点矩 E(X k ) 的相合估计.由此可见,矩
由 P(-1.75≤U≤2.33)=0.95
概率论与数理统计5.3
α/ 2
2 χ1−α / 2 (2n)
α/ 2
2 χα / 2 (2n)
2n 2 2 P χ1−α / 2 (2n) < X < χ α / 2 ( 2n) = 1 − α θ
经不等式变形得
2 nX 2 nX P 2 <θ< 2 = 1− α χ1−α / 2 (2n) χ α / 2 ( 2 n)
均值μ 1. 均值μ的置信区间
(1) 方差 σ 2 已知的情形
由 例 5.12 可知,在 σ 2 己知时,µ 的 1 − α 置信区间为
σ σ X − u α / 2 ,X + uα / 2 n n
这样的置信区间可简写为
σ X ± uα / 2 n
P{ λ 1 < U < λ 2 } = 1 − α
(4) 利用不等式变形导出套住 θ 的置信区间( θ ,θ ) ,
那么(θ,θ )就是 θ 的一个置信水平为1 − α 的置信区间。
例 5.13
设 总体 X 服从指数分布,其概率 密度为
1 −x / θ e , x>0 f ( x; θ) = θ 0, 其它
例5.12 设总体 X ~ N(µ,σ ) ,σ 为已知,µ为未知。
2 2
( X 1 , L, X n )是来自总体 X 的样本,试求 µ 的1 − α 置
信区间。
解: 因为 X 为 µ 的最大似然估计,考虑 基于 X 的枢轴量
U=
X-µ σ/ n
~ N (0, 1)
对于事先给定的水平 (1 - α ) ,确定λ 1 和λ 2 ,使
2 χ1−α / 2 (n −1)
数理统计12:枢轴量法、分位数、正态参数区间估计
数理统计12:枢轴量法、分位数、正态参数区间估计上篇⽂章中,我们探讨了区间估计的相关基本概念,也提出了Neyman置信区间,今天我们将聚焦于如何寻找置信区间的问题上,并对最常⽤的总体:正态总体给出⼀些置信区间的找法。
为了⽅便起见,以下我们都让置信⽔平为1−α。
由于本系列为我独⾃完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!⽬录Part 1:枢轴量法枢轴变量法是基于点估计量的。
我们知道,统计量是样本的函数,这意味着统计量中不能含有未知参数,⽽参数的点估计量是⽤统计量的观测值作为待估参数的估计值,其分布⼀定含有待估参数,枢轴量法的思想就是,通过⼀定的变换,让点估计的函数的分布不含待估参数,进⽽基于分布来构造区间估计。
举⼀个简单的例⼦,对于正态总体N(µ,4),显然¯X∼N(µ,4/n),这⾥¯X的分布含有未知参数µ。
构造其枢轴量,就是找到⼀个函数变换,使得新的随机变量分布不含未知参数。
注意,这⾥⽤了随机变量这个词⽽不是统计量,意味着枢轴量不是统计量,即不能由样本观测值计算出,这是因为虽然枢轴量的分布不含未知参数,但是枢轴量的表现形式含有未知参数。
显然,这⾥¯X−µ∼N(0,4 n),这样,¯X−µ的分布已知,⾃然容易找到⼀个常数区间[c,d],使得这个区间有1−α的概率包含¯X−µ的观测值,虽然此时我们不知道区间的端点是多少,但⾄少知道端点可以是固定的数c,d。
对枢轴量使⽤不等式变换,即¯X−µ∈[c,d]⇒µ∈[¯X−d,¯X−c],得到置信⽔平为1−α的置信区间。
这就是枢轴量法的操作步骤。
不同分布族的参数对于总体的意义是不同的。
像正态分布N(µ,σ2)的均值µ,均匀分布U(a,a+r)的起点a这种参数主要影响观测值的⼤⼩,可以直接通过X−µ,X−a的⼿段消除,这种参数称为位置参数;正态分布N(µ,σ2)的标准差σ,指数分布E(λ)的速率λ这种参数主要影响观测值的离散程度,可以通过X/σ,λX之类的⼿段消除,这种参数称为尺度参数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
某单位要估计平均每天职工的总医疗费, 例4 某单位要估计平均每天职工的总医疗费, 观察了30天 其总金额的平均值是 其总金额的平均值是170元 观察了 天,其总金额的平均值是 元,标准 差为30元 差为 元,试决定职工每天总医疗费用平均值 的区间估计(置信水平为0.95). 的区间估计(置信水平为 ) 解:设每天职工的总医疗费为 , 设每天职工的总医疗费为X, µ ,D(X)=σ 2 E(X)= 大样本,由中心极限定理, 大样本,由中心极限定理,
由
分布表的构造
即
置信区间: 置信区间:
例5 设某机床加工的零件长度 今抽查 16个零件,测得长度(单位:mm)如下: 个零件, 个零件 测得长度(单位: )如下: 12.15, 12.12, 12.01, 12.08, 12.09, 12.16, 12.03, 12.01, 12.06, 12.13, 12.07, 12.11, 12.08, 12.01, 12.03, 12.06, 在置信度为95%时,试求总体方差 时 试求总体方差 在置信度为 解 已知 查 得 由此得置信区间: 由此得置信区间 查 得 的置信区间。 的置信区间。
由公式知μ 由公式知μ的置信区间为 查表 μ的置信区间为 即
选取统计量为
由公式知σ 由公式知σ2的置信区间为
查表 σ2的置信区间为
例7
对于正态总体N( µ ,σ ), 假设µ已知
2
求σ 2的区间估计
解 选取统计量为
n
χ =
2
∑(X
i =1
i
− µ)
2
2
σ
~ χ ( n)
2
σ 的置信区间为:
2
为了调查某地旅游者的平均消费额X, 例3 为了调查某地旅游者的平均消费额 , 随机访问 40名旅游者 得平均消费额为 名旅游者。 40名旅游者。 元,样本方差 求该地旅游者的平均消费额 设 µ的置信区间。 的置信区间。 的置信区间 解 选取统计量为
由公式知置信区间为 查表 则所求μ 则所求μ的置信区间为
几个常用统计量复习
已知某种油漆的干燥时间(单位:小时 小时) 例1 已知某种油漆的干燥时间(单位 小时)服从正态 现在抽取25个 其中μ 分布 X ~ N(µ,1), 其中μ未知 (−∞,+∞). 现在抽取 个 1 n 样品做试验, 样品做试验,得数据后计算得 X = ∑Xk = 6 25 k=1 取 α = 0.05 (1−α = 0.95) 求μ的置信区间。 的置信区间。 解 选取统计量为
所求标准差σ的置信度为0.95的 置信区间由 所求标准差σ的置信度为 的 得
例6 为了估计灯泡使用时数(小时)的均值μ和 为了估计灯泡使用时数(小时)的均值μ 方差σ 测试了 个灯泡得 方差σ2, 测试了10个灯泡得 若已知灯泡的使用时数为X, 若已知灯泡的使用时数为 , 的置信区间。 求μ和σ2的置信区间。 解 选取统计量为
[X ±
由公式知置信区间为
σ
n
zα 2 ]
n = 25 x = 6
查表 Zα = Z0.025 =1.96 代入样本值计算
2
1 则所求μ 则所求μ的置信区间为 [6 ± ⋅1.96] = 5
[5.608, 6.392]
例2
设总体
问需要抽取容量为多
大的样本,才能使 的置信水平为0.95 的置信区间 大的样本 才能使 的置信水平为 的长度不大于 0.49 ? 解 设需要抽取容量为 的样本, 的样本 其样本均值为 于是 查表得 的置信水平为0.95的置信区间为 的置信区间为 的置信水平为 该区间长度 要使 只要 即 取
n σ 未知,用样本标准差 n近似代替 未知,用样本标准差S 近似代替.
近似服从正态分布 N(µ,
σ
2
)
选取统计量为 由公式知置信区间为
将
=170, Sn=30,
=1.96, n=30代入得 代入得, 代入得
的置信水平为0.95的置信区间是 的置信区间是 的置信水平为 [ 159.27, 180.74]
若σ2=25
μ的置信区间为
即
均值的区间估计总结 (1) 方差已知
(2) 方差未知
三、两个正态均值差 和 已知, 已知,
的置信区间 的置信区间 独立
的一个置信水平为
的置信区间为
未知, 未知,
的置信区间
的一个置信水平为
的置信区间为
四. 方差的区间估计 设 我们知道 并且样本函数: 并且样本函数: 由于 即: 分布无对称性,因此使概率对称的区间: 分布无对称性,因此使概率对称的区间: 为总体 是 的一个样本 的一个点估计