数理统计 区间估计
数理统计之区间估计(ppt 50页)
置信水平的大小是根据实际需要选定的.
例如,通常可取置信水平1 =0.95或0.9等.
根据一个实际样本,由给定的置信水平,我
们求出一个尽可能小的区间 [ˆ1,ˆ2],使
P {ˆ1ˆ2}1
称区间 [ˆ1,ˆ2]为 的 置信水平为1 的
置信区间.
寻找置信区间的方法,一般是从确定 误差限入手.
教材上讨论了以下几种情形:
单个正态总体均值和方差 2的区间估计.
两个正态总体均值差 1 2和方差比
的区间估计.
2 1 2 2
比例 p 的区间估计.
下面我们举几个例子,其余部分请自己看.
休息片刻继续
例2 已知某地区新生婴儿的体重X~N(,2),
, 2未知,
…
随机抽查100个婴儿 得100个体重数据 X1,X2,…,X100
相应的置信区间平均长度越长.
也就是说,要想得到的区间估计可靠 度高,区间长度就长,估计的精度就差. 这是一对矛盾.
实用中应在保证足够可靠的前提下, 尽量使得区间的长度短一些 .
例3 某单位要估计平均每天职工的总医疗费, 观察了30天,其总金额的平均值是170元,标准 差为30元,试决定职工每天总医疗费用平均值 的区间估计(置信水平为0.95).
(ˆ1 ˆ2) 满足
P {ˆ1ˆ2}1
则称区间 [ˆ1,ˆ2]是 的置信水平(置信度、
置信概率)为 1 的置信区间.
ˆ1和ˆ2 分别称为置信下限和置信上限.
可见,
对参数 作区间估计,就是要设法找出
两个只依赖于样本的界限(构造统计量)
ˆ1 ˆ1(X1,…Xn) ˆ2 ˆ2(X1,…Xn)
下面我们就来正式给出置信区间的定义, 并通过例子说明求置信区间的方法.
概率论与数理统计-第6章-第4讲-区间估计
本讲内容
01 置信区间定义 02 求置信区间的步骤 03 几点说明
02 求置信区间的步骤
例 设X1,…Xn 是取自 N (, 2 ) 的样本, 2已知,
求参数 的置信水平为 1 的置信区间.
明确问题:求什么参数的置信区间?置信水平是多少?
解 选 的点估计为 X
寻找未知参数的
取 U X N (0,1) 一个良好估计 n
u
2} 1
1
为什么 这样取?
u
u
2
2
8
02 求置信区间的步骤
从中解得
P{|
X
n
|u2}源自1P{Xn u 2
X
n
u
2}
1
于是所求 的 置信区间为
[X
n u 2 ,
X
n u
2]
也可简记为 X n u 2
从例题的过程,我们归纳出求置信区间的
一般步骤如下:
1
u
u
2
2
9
02 求置信区间的步骤
求置信区间的步骤
10
本讲内容
01 置信区间定义 02 求置信区间的步骤 03 几点说明
03 几点说明
1. 要求 θ 以很大的可能被包含在 [θˆ1, θˆ2 ]
内,P(ˆ1 ˆ2 ) 1 要尽可能大.
即要求估计尽量可靠. 2. 估计的精度要尽可能的高. 如要求区间
长度 θˆ2 θˆ1 尽可能短.
置信度与精度是一对矛盾,当样本容 量固定时,置信度越高,则精度越差.
u
u
2
2
区间的长度为 2u —— 达到最短
2n
14
03 几点说明
特别说明
即使在概率密度不对称的情形,如
《概率论与数理统计》学习笔记十一
σ 2 = S2 =
2 1 n Xi − X ) ( ∑ n i =1
n −1 2 ⎛ n −1 2 ⎞ n −1 S ⎟= E (S2 ) = 由于 E σ 2 = E S 2 = E ⎜ σ , n n ⎝ n ⎠
n 3 ⎡ X 2 − nX 2 ⎤ ∑ i ⎥ n⎢ ⎣ i =1 ⎦
3 ( X − X )2 i n∑ i =1
n
在总体 X 为离散型随机变量情形, 求未知参数 θ 的矩估计量的方法和连续型 情形完全相同。 极大似然估计法 直观想法:概率最大的事件最可能出现。 设总体 X 为连续型随机变量,具有密度函数 f ( x;θ ) ,其中 θ 是待估未知参 数,又设 ( x1 ,L , xn ) 是样本 ( X 1 ,L , X n ) 的一个观测值,则样本 ( X 1 ,L , X n ) 落在观
n
(1)
ˆr , 把上式中的 α r 都换成相应的样本矩 M r = 1 ∑ X ir ,便得到参数 θ r 的矩估计量 θ n i =1
概率论与数理统计—学习笔记十一
即
θˆr = hr ( M 1 ,L , M k ) , r = 1, 2,L , k .
(2)
这种求估计量的方法称为矩估计法(简称矩法) ,由矩估计法得出的估计量称为 矩估计量。 例1 设总体 X 在 [ a, b ] 上服从均匀分布,a,b 未知, X 1 ,L , X n 是总体 X 的 一个样本,试求 a,b 矩估计量。 解 X 的概率密度为 1 , a≤ x≤b ⎧ ⎪ f ( x; a, b ) = ⎨ b − a ⎪ 其它 ⎩ 0,
上节介绍了总体参数的常用点估计方法,对同一参数用不同的估计方法可能 得到不同的估计量,哪个估计量更好些呢?下面给出几种评选估计量好坏的标 准。 无偏估计 估计量是样本的函数,是随机变量,对不同的样本观测值,它有不同的估计 值,我们希望估计量的取值在未知参数真值附近摆动,即希望估计量的数学期望 等于未知参数的真值,这就是无偏性的概念。 定义 设 θˆ ( X 1 ,L , X n ) 是未知参数 θ 的估计量,若
概率论与数理统计 第七章2
P{θ1 ≤ θ ≤ θ 2 } ≥ 1 − α , (0 < α < 1)
称区间(θ1,θ 2 )为θ的置信水平为1 − α 该区间的置信区间 。
区间(θ1,θ2)是一个随机区间; α给出该区间含真 1− 值θ的可靠程度。α表示该区间不包含真值θ的可能性。
ch7-1 2
上海理工大学
University of Shanghai for Science and Technology
( X −u1−α
σ
2
n
,
X + u1−α
σ
2
n
)
可得所求的置信区间为
2 (12.35 ± 1.96 × ) = (12.35 ± 1.307) = (11.043,13.657) 9
ch7-1 8
上海理工大学
University of Shanghai for Science and Technology
上海理工大学
University of Shanghai for Science and Technology
College of Science
理学院
概率论与数理统计
区 间 估 计
ch7-1
1
上海理工大学
University of Shanghai for Science and Technology
1001,1004,1003,997,999,1000, , , , , , , 1004,1000,996, 1002,998,999. , , , , ,
求σ2的置信水平为 的置信水平为0.95的置信区间 的置信区间. 的置信区间 −α的置信区间如 解:本例中 µ未知, σ2的置信水平为 −α的置信区间如 本例中 未知, 的置信水平为1−α的置信区间如. (n −1)S2 (n −1)S2 2 , 2 χ1−α (n −1) χα (n −1) 其中n=12,计算得:(n−1)s2=11×6.932=76.25.又 计算得: − 其中 计算得 × 又 查自由度为11的 分布分位数表,得 α=1− 0.95=0.05, 查自由度为 的 χ 2分布分位数表 得 −
数理统计11:区间估计,t分布,F分布
数理统计11:区间估计,t分布,F分布在之前的⼗篇⽂章中,我们⽤了九篇⽂章的篇幅讨论了点估计的相关知识,现在来稍作回顾。
⾸先,我们讨论了正态分布两个参数——均值、⽅差的点估计,给出了它们的分布信息,并指出它们是相互独⽴的;然后,我们讨论到其他的分布族,介绍了点估计的评判标准——⽆偏性、相合性、有效性;之后,我们基于⽆偏性和相合性的讨论给出了常⽤分布的参数点估计,并介绍了两种常⽤于寻找点估计量的⽅法——矩法与极⼤似然法;最后,我们对点估计的有效性进⾏了讨论,给出了⼀些验证、寻找UMVUE的⽅法,并介绍了CR不等式,给出了⽆偏估计效率的定义。
以上就是我们在前九篇⽂章中提到的主要内容,还顺便介绍了⼀些常⽤的分布:Γ分布、β分布、χ2分布。
今天开始,我们将进⼊区间估计与假设检验部分。
由于本系列为我独⾃完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!⽬录Part 1:什么是区间估计区间估计同样是参数估计的⼀种⽅法,不同于点估计⽤样本计算出的⼀个统计量直接作为原始参数的估计,区间估计会根据抽取出的样本,计算出⼀个基于样本观测值的区间。
简单说来,如果对总体f(x;θ)中的参数θ作估计,则⾸先从总体中获得样本\boldsymbol{X}=(X_1,\cdots,X_n),并确定两个具有确定⼤⼩关系的统计量\hat g_1(\boldsymbol{X})\le \hat g_2(\boldsymbol{X}),根据样本观测值计算出的区间[\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]就是待估参数\theta的区间估计。
由此,我们可以看出,区间估计依然是依赖于统计量的,并且往往需要不⽌⼀个统计量。
区间估计相⽐于点估计的特点是,区间估计给出了⼀个相对“粗糙”的范围,这就导致你需要使⽤这个参数时,不像点估计⼀样能直接把估计值拿来⽤;但是,区间估计具有涵盖参数真值的可能,因为当参数空间\Theta的取值连续时,点估计\hat\theta与真值相等的可能性\mathbb{P}(\hat\theta=\theta)=0,但是区间估计包含真值的可能性\mathbb{P}(\theta\in[\hatg_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})])>0,这使得区间估计⽐起点估计⽽⾔,增加了⼀定的可靠性。
数理统计区间估计总结
数理统计区间估计总结数理统计是一门研究数据收集、整理、分析和解释的学科,而区间估计是其中一种重要的方法。
区间估计是通过样本数据来推断总体参数的取值范围,它能够提供关于总体参数的不确定性程度的信息。
本文将对区间估计的概念、应用以及优缺点进行探讨,以期帮助读者更好地理解和运用这一统计方法。
一、区间估计的概念区间估计是一种基于样本数据的统计推断方法,通过计算得到一个包含未知总体参数的区间范围。
这个区间的上限和下限是根据样本数据计算出来的,并且具有一定的置信水平,代表了对总体参数的估计精度。
二、区间估计的应用区间估计广泛应用于各个领域的研究中,特别是在市场调研、医学实验、经济学研究等方面。
例如,在市场调研中,通过对样本数据的分析,可以得到某一产品销售量的置信区间,以评估其市场潜力。
在医学实验中,可以利用区间估计来确定某种药物的有效剂量范围,以指导临床应用。
三、区间估计的优缺点区间估计具有以下优点:首先,它能够提供对总体参数的估计精度信息,使得决策者能够更加准确地评估风险和不确定性。
其次,区间估计不依赖于总体分布的假设,适用于各种类型的数据。
最后,区间估计可以较好地处理样本量较小的情况,提供对总体参数的合理估计。
然而,区间估计也存在一些缺点。
首先,区间估计只能提供对总体参数的范围估计,无法给出具体的点估计。
其次,区间估计的置信水平不一定能够准确反映总体参数的真实情况,存在一定的误差。
最后,区间估计对样本数据的分布和总体参数的假设要求较高,如果假设不满足,估计结果可能会失真。
区间估计是一种重要的统计推断方法,可以提供对总体参数的估计范围和置信水平信息。
它在各个领域的研究中有着广泛的应用,并具有一定的优点和缺点。
因此,在实际应用中,我们需要根据具体情况选择合适的区间估计方法,并结合其他统计方法进行综合分析,以获得更加准确的结论。
概率论与数理统计第6章参数区间估计2,3节
n
E(X
k
)
E(X
k)
i1
i1
二、有效性
未知参数 的无偏估计量不是唯一的.
设 ^1 和 ^2 都是参数 的无偏估计量,
θˆ 1
θˆ 2
集中
分散
蓝色是采用估^ 计量 1 , 用 14 个样本值得到的 14 个估计值. 紫色是采用估^ 计量 2 , 用 14 个样本值得到的 14 个估计值.
若limD(ˆ)0, 则ˆ是的一致估 . 计量 n
回顾例子.设总体X的概率密度为
f(x)6x3 (x),0x;
0, 其他
X1, X2,…, Xn 是取自总体X 的简单随机样本, (1) 求的矩估计量 ˆ;
(2) 求ˆ的方差D(ˆ).
解:矩估计 ˆ量 2X. D(ˆ)4D(X)4D(X)2
若滚珠直径服从正态分布X ~ N( , 2), 并且已知 = 0.16(mm),求滚珠直径均值的置信水平为95%
的置信区间.
解:由上面求解的置信水平为1- 的置信区间
Xσn 0 uα/,2 Xσn 0 uα/2
已 n 知 1,0 0 0 .1,6 0 .0,5 x110i110xi 14.92,
若进行n次独立重复抽样,得到n个样本观测值,
每个样本观测 个值 随确 机(定 ˆ1区 ,ˆ2一 )间 .那么
每个区间的 可真 能 , 或 值 包不 含包 的含 真 , 值
根据伯努利大数定理, 在这n个随机区间中,
包含 真值1 的 0(1 0 约 )% 占 ,不包含 10 的 % 0. 约
便得 k的 到 最大似 ˆk(X 1,然 X 2, ,估 X n).计
第二节 判别估计量好坏的标准
概率论与数理统计第九章区间估计
1, n2
1)
S12
2 1
S
2 2
2 2
F (n1 1, n2 1)} 2
即
P{ S12
1
2 1
S12
1
} 1
S
2 2
F1 2 (n1 1, n2
1)
2 2
S
2 2
F
(n1 1, n2 1)
2
因此方差比
2 1
2 2
的置信水平为1-a置信区间为
二、.方差比
2 1
2 2
的置信区间
例5 研究由机器A和机器B生产的钢管的内径,随机抽取
机地取Ⅰ型子弹10发,得到枪口速度的平均值为
x1 =500(m/s),标准差 s1 =1.10(m/s), 随机地取Ⅱ型
子弹20发, 得到枪口速度的平均值为x 2 =496(m/s),标
准差 s2 =1.20(m/s),假设两总体都可认为近似地服从正
态分布。且由生产过程可认为方差相等。求两总体均值
差-
机器A生产的管子18只,测得样本方差 s12=0.34( ); 抽取机器B生产的管子13只,测得样本方差 s2 2 =0.29(mm2), 设两样本相互独立,且设由机器A和机器B生产的管子内
径分别服从正态分布
N(1,
2)和
1
N(2, 22),这里
i
,
2 i
(i
1,2)
均未知,试求两个总体样本方差比
2 1
1 均值差
的置信区间
2
方差比
2 1
2 2
的置信区间
一、均值差
的置信区间
1 因为
所以
均为已知
X
Y~N (1
应用数理统计第二章参数估计(3)区间估计
例1 有一大批月饼,现从中随机地取16袋,称得重量(以克 计)如下:506 508 499 503 504 510 497 512 514 505 493 496 506 502 509 496 ,设袋装月饼的重量近似地服从正态 分布,试求总体均值的置信度为0.95的置信区间。 解: 2未知, 1-=0.95, /2=0.025,n-1=15, t0.975 (15) 2.1315 由已知的数据算得 x 503.75, S* 6.2022
n1 (n2 1) S12 12 n1 (n2 1) S12 P F (n 1, n1 1) 2 F (n 1, n1 1) 1 2 /2 2 2 1 / 2 2 2 n2 (n1 1) S2 n2 (n1 1) S2
10
得所求的标准差的置信区间为 (4.58, 9.60)
2.4.3 两个正态总体参数的区间估计
在实际中常遇到下面的问题:已知产品的某一质量指标 服从正态分布,但由于原料、设备条件、操作人员不同,或 工艺过程的改变等因素,引起总体均值、总体方差有所改变, 我们需要知道这些变化有多大,这就需要考虑两个正态总体 均值差或方差比的估计问题。
ˆ a ˆ b} {g(a) T ( X , X ,..., X ; ) g(b)} { 1 2 n
其中g ( x )为可逆的已知函数, T ( X 1 , X 2 ,..., X n ; 况
设总体X~N(,2),X1, X2, …,Xn是总体X的样本,求,2 /2 /2 的置信水平为(1)的置信区间.
求得 的置信水平为(1)的置信区间: ( 2未知)
S S* t1 2 (n 1) or X t1 2 (n 1) X n1 n
主讲数理统计7区间估计
2. 区间估计
一 、设X1 , …, Xn为来自总体 Xf (x, )的一个样 本, 为未知参数。所谓的区间估计,就是以
满足条件
ˆL ( X1, , Xn ) ˆU ( X1, , Xn )
为端点的区间,一旦有了样本X1, …, Xn,就把 估
计在区间
[ˆL ( X1, Xn ),ˆU ( X1, Xn )]
(X
Y
)
(1
2 )
~N(0, 1)
2 1
2 2
nm
寻找一个待估参数和
估计量的函数 ,要求
其分布为已知.
U
(X
Y ) (1 2 )
12
2 2
~N(0, 1)
( x)
nm
P{u /2
(X
Y ) (1
12
2 2
2 )
u1
2}
nm
u/2 u1-/2
P{u1 /2
(X
Y ) (1
2 1
率的观点解释,即:若进行m(m较大)次抽样,获得
m个置信区间,这些区间中约有(1)m个包含。
那么,就一个区间
[x n u1 2 , x n u1 2 ]
而言,有(1)%把握认为它包含。
区间估计的精度
区间估计的精度可以用区间长度来衡量: 对于
正态总体(方差 2已知)均值 的置信区间
[X
n u1 2 ,
Sn
寻找一个待估参数和 估计量的函数 ,要求 其分布为已知.
t X
Sn
~t(n 1)
f (x)
P{t
2 (n
1)
X S
n
t1
2 (n
1)}
t /2 (n 1)
数理统计区间估计总结
数理统计区间估计总结数理统计是一门研究数据分析和概率推断的学科,而区间估计是数理统计中的一个重要方法。
在实际应用中,我们常常需要根据样本数据来推断总体参数的取值范围。
区间估计的目的就是通过样本数据来估计总体参数,并给出一个置信水平,表示我们对估计结果的信心程度。
区间估计的基本思想是根据样本数据的统计量来构造一个区间,使得总体参数有一定的概率落在这个区间内。
常见的区间估计方法包括正态分布的区间估计、t分布的区间估计等。
其中,正态分布的区间估计是应用最广泛的一种方法。
在进行区间估计时,我们首先需要确定置信水平。
置信水平是指在重复抽样的条件下,该区间估计方法能够包含总体参数的真值的概率。
常见的置信水平有90%、95%和99%等。
一般情况下,置信水平越高,估计的区间范围就越宽,我们对估计结果的信心程度也更高。
接下来,我们需要选择一个合适的统计量来进行区间估计。
常见的统计量有样本均值、样本比例、样本方差等。
根据不同的总体分布和参数类型,我们选择相应的统计量来构造区间估计。
我们根据区间估计的方法和统计量的抽样分布来计算区间的上下限。
以样本均值的区间估计为例,当总体服从正态分布时,我们可以使用z分布进行区间估计;当总体的标准差未知时,我们可以使用t 分布进行区间估计。
区间估计的优点是能够给出一个范围,而不是一个点估计,使我们对总体参数的估计更加准确。
同时,区间估计还能够给出一个置信水平,告诉我们估计结果的可靠程度。
然而,区间估计也存在一定的局限性,例如需要满足一些假设条件,样本量要求较大等。
区间估计是数理统计中一种重要的推断方法。
通过构造一个区间来估计总体参数,并给出一个置信水平,我们可以在实际应用中对未知参数进行推断。
区间估计的方法和步骤需要根据不同的问题进行选择和应用,以确保估计结果的准确性和可靠性。
概率论与数理统计(王明慈第二版)第6章参数区间估计2,3节
第三节 正态总体参数的区间估计
基本内容: 一、区间估计的概念 二、正态总体均值的区间估计 三、正态总体方差的区间估计
一、区间估计的概念
定义 设总体 X 的分布中含有未知参数,对于 给定的概率 1- (0 < < 1), 若存在两个统计量 ˆ1(X1, X2, , Xn )与ˆ2(X1, X2, , Xn ), 使得
即
P
i
n 1
tα/
2
(n
-
1),
x
s n
tα/
2(n
1)
得到的95%的置信区间为
(14.92-0.138, 14.92+0.138) 即(14.782, 15.058) (mm)
三、正态总体方差 2 的区间估计
1. 已知均值= 0的正态总体 X, 求未知参数 2 1- 的置信区间
解:设总体 X ~ N( , 2), 有
k 1,2,L ,m
第三步: 解含m个参数ˆ1,ˆ2,L的,mˆ个m 方程组, 得
ˆk ˆk X1, X2, , Xn k 1,2, ,m
以ˆk作为参数 的k 估计量.
第四步:将 θˆk中的X1 , X2 , , Xn换成x1 , x2 , , xn, 便得到θk的矩估计值θˆk ( x1 , x2 , , xn ).
例3. 设X1,X2,X3是来自总体X的样本, 且
总体均值E(X)= 未知, 则下列4个关于 的
统计量中哪个更有效?( C )
A. X1 X 2 3X 3 ; 55 5
C. X1 X 2 X3 ; 333
B. X1 X 2 X 3 ; 424
D. X1 X 2 X 3 . 362
分析:利用P181的7题结论,可选C.
概率论与数理统计PDF版课件7-2
. 的一个合理解释. 但注意,并不要求包含真实值的区
间正好%,只要是大约%就是合理地,比如也可以.
第七章参数估计 §7.2 区间估计
求置信区间的步骤
=
, ⋯ , ,
(1)找一个与未知参数有关的统计量
11 0.248
3.816
第七章参数估计 §7.2 区间估计
注1 上述求解或 的置信区间时,我们选取的点估计
都是矩估计量或者最大似然估计量. 事实上,我们也可以用
贝叶斯估计量来构造置信区间.详细内容参考本章“重要补
充及扩展问题”的第五节(见教材P220)
注2 上述利用枢轴量进行区间估计的时候都要求总体服
从正态分布. 但实际中,我们考虑的总体经常不服从正态分
布. 这种情况下的区间估计采用的是大样本区间估计. 详细
内容参考本章“重要补充及扩展问题”的第六节(见教材
P220)
第七章参数估计 §7.2 区间估计
三、两个正态总体的区间估计
设 , ⋯ , 为来自正态总体 ∼ , 的简单随机
1. 当 和 已知时,求 − 的置信区间
ഥ−
ഥ 作为总体均值差 − 的点估计;
(1)选取样本均值差
X − Y − ( 1 − 2 )
(2)构造枢轴量
~ N ( 0,1) ;
2
2
(
)
1
n1
(3)选取 = − = Τ ;
+
2
n2
(4) − 的 − 的置信区间
.
n
n
2
2
第七章参数估计 §7.2 区间估计
例3( 见教材P213) 假设 轮胎的寿 命服从正 态分布
西安交大西工大 考研备考期末复习概率论与数理统计 区间估计
解 10, n 12,
计算得 x 502.92,
(1) 当 0.10时, 1 0.95,
2 查表得 u / 2 u0.05 1.645,
x
n u / 2
502.92
10 1.645 498.17, 12
E(ˆ ) 为估计量 ˆ 的偏差。
例1 设总体 X 的k 阶矩k E( X k ) (k 1)存在,
又设 X1, X2 ,, Xn 是 X 的一个样本,试证明不论
总体服从什么分布, k 阶样本矩
Ak
1 n
n i 1
X
k i
是
k 阶总体矩k的无偏估计.
证 因为 X1, X2 ,, Xn 与 X 同分布,
则 称 随 机 区 间[ˆ1,ˆ2 ]是 的 置 信 度 为1 的 置 信 区 间,ˆ1和ˆ2分 别 称 为 置 信 度 为1 的 双 侧 置 信 区 间 的置 信下 限和 置信 上限, 1 为置 信度.
关于定义的说明
被估计的参数虽然未知, 但它是一个常数, 没有随机性, 而区间[ˆ1,ˆ2 ]是随机的.
例5 若总体 X 的 E( X ) 和D( X ) 存在,则样
本均值 X 是总体均值的相合估计.
解:E( X ) E( X )
D( X )
lim D( X ) lim
0
n
n n
一般地,样本的 k 阶原点矩
Ak
1 n
n
X
k i
i 1
是总体 X
的 k 阶原点矩 E(X k ) 的相合估计.由此可见,矩
由 P(-1.75≤U≤2.33)=0.95
北京理工大学《概率论与数理统计》课件-第11章
区间估计的基本概念前面介绍了参数的点估计,讨论了估计量的优良性准则,给出了寻求估计量最常用的矩估计法和最大似然估计法.参数的点估计是用一个确定的值去估计未知参数,看似精确,实际上把握不大,没有给出误差范围,为了使估计的结论更可信,需要引入区间估计.Neyman(1894–1981)引例在估计湖中鱼数的问题中,若根据一个实际样本,得到鱼数N的最大似然估计为1000条.实际上,N的真值可能大于1000,也可能小于1000.为此,希望确定一个区间来估计参数真值并且满足:1.能以比较高的可靠程度相信它包含参数真值.“可靠程度”是用概率来度量的.2.区间估计的精度要高.可靠度:越大越好估计你的年龄八成在21-28岁之间区间:越小越好被估参数可靠度范围、区间一、置信区间的定义(Confidence Interval )对于任意θ∈Θ,满足设总体X 的分布函数F (x ,θ)含有一个未知参数θ,θ∈Θ,对于给定常数α(0<α<1),若由抽自X 的样本X 1,X 2,…,X n 确定两个统计量112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<≥-112ˆ(,,,)nX X X θ212ˆ(,,,)nX X X θ和则称随机区间是θ的置信水平为1−α的置信区间.12ˆˆ(,)θθ和分别称为置信下限和置信上限.1ˆθ2ˆθ(1)当X 连续时,对于给定的α,可以求出置信区间满足此时,找区间使得至少为1−α,且尽可能接近1−α.12ˆˆ(,)θθ112212ˆˆ{(,,,)(,,,)}1nnP X X X X X X θθθα<<=-12ˆˆ(,)θθ112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<=-12ˆˆ()P θθθ<<(2)当X 离散时,对于给定的α,常常找不到区间满足12ˆˆ(,)θθ说明:(2)估计的精度要尽可能高. 如要求区间长度尽可能短,或者能体现该要求的其他准则.(1)要求θ以很大的可能被包含在区间内,即概率尽可能的大.可靠度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高精度.12ˆˆ()P θθθ<<12ˆˆ(,)θθ21ˆˆθθ-(3)对于样本(X 1,X 2,…,X n )112212ˆˆ((,,,),(,,,))n n X X X X X X θθ以1−α的概率保证其包含未知参数的真值.随机区间112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<=-即有:(4)对于样本观测值(x 1,x 2,…,x n )可以理解为:该常数区间包含未知参数真值的可信程度为1−α.112212ˆˆ((,,,),(,,,))n n x x x x x x θθ常数区间只有两个结果,包含θ和不包含θ.此时,不能说:112212ˆˆ{(,,,)(,,,)}1n n P x x x x x x θθθα<<=-没有随机变量,自然不能谈概率如:取1−α=0.95.若反复抽样100次,样本观测值为112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<=-1121ˆˆ((,,),(,,))i i i in n x x x x θθ于是在100个常数区间中,包含参数真值的区间大约为95个,不包含真值的区间大约为5个.12,,,ii i nx x x1,2,,100i =对应的常数区间为1,2,,100i =对一个具体的区间而言,它可能包含θ,也可能不包含θ,包含θ的可信度为95%.1121ˆˆ((,,),(,,))i i i i nnx x x x θθ二、构造置信区间的方法枢轴量法1.寻求一个样本X 1,X 2,…,X n 和θ的函数W =W (X 1,X 2,…,X n ;θ),使得W 的分布不依赖于θ和其他未知参数,称具有这种性质的函数W 为枢轴量(Pivotal quantity ).3.若由不等式a <W (X 1,X 2,…,X n ;θ)<b 得到与之等价的θ的不等式2.对于给定的置信水平1−α,定出两个常数a 和b ,使得P {a <W (X 1,X 2,…,X n ;θ)<b }=1−α112212ˆˆ(,,,)(,,,)n n X X X X X X θθθ<<即有P {a <W (X 1, X 2,…, X n ;θ)<b }关键:1.枢轴量W (X 1, X 2,…, X n ;θ)的构造2.两个常数a ,b 的确定一般从θ的一个良好的点估计出发构造,比如MLE因此,是θ的一个置信水平为1−α的置信区间.112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα=<<=-12ˆˆ(,)θθf (w )ababab1−α1−α1−α希望置信区间长度尽可能短.对于任意两个数a 和b ,只要使得f (w )下方的面积为1−α,就能确定一个1−α的置信区间.f(w)abab ab1−α1−α1−α当W 的密度函数单峰且对称时,如:N (0,1),t 分布等,当a =−b 时求得的置信区间的长度最短.如:b =z α/2或t α/2(n )当W 的密度函数不对称时,如χ2分布,F 分布,习惯上仍取对称的分位点来计算未知参数的置信区间.χ21−αα/2α/222()n αχ21-2()n αχ单个正态总体参数的区间估计一、单个正态总体的情形X 1, X 2,…, X n 为来自正态总体N (μ,σ2)的样本,置信水平1−α.样本均值样本方差11nii X X n ==∑2211()1nii S X X n ==--∑0-4-3-2-1012340.050.10.150.20.250.30.350.4是枢轴量W 是样本和待估参数的函数,其分布为N (0,1),完全已知由于是μ的MLE ,且是无偏估计,由抽样分布定理知X ~(0,1)X W N nμσ-=1.均值μ的置信区间(方差σ2已知情形)单峰对称-4-3-2-1012340.050.10.150.20.250.30.350.4即等价变形为选择两个常数b =−a =z α/222{}1X P z z nααμασ--<<=-22{}1P X z X z nnαασσμα-<<+=-1−αα/2α/2z α/2−z α/2简记为因此,参数μ的一个置信水平为1−α的置信区间为22(,)X z X z nnαασσ-+2()X z nασ±置信区间的长度为22n l z nασ=说明:2.置信区间的中心是样本均值;4.样本容量n 越大,置信区间越短,精度越高;1.l n 越小,置信区间提供的信息越精确;5.σ越大,则l n 越大,精度越低.因为方差越大,随机影响越大,精度越低.3.置信水平1−α越大,则z α/2越大.因此,置信区间长度越长,精度越低;22n l z nασ=22(,)X z X z nnαασσ-+2.均值μ的置信区间(方差σ2未知情形)想法:用样本标准差S 代替总体标准差σ.是枢轴量包含了未知未知参数σ,~(0,1)X W N nμσ-=此时,因此不能作为枢轴量.~(1)X T t n Snμ-=-由抽样分布理论知:使即枢轴量~(1)X T t n Snμ-=-22((1)(1))1X P t n t n Snααμα---<<-=-22{(1)(1)}1P t n T t n ααα--<<-=-选择两个常数b =−a =t α/2 (n -1)等价于因此,方差σ2未知情形下均值μ的一个置信水平为1−α的置信区间为22{(1)(1)}1S S P X t n X t n nnααμα--<<+-=-22((1),(1))X t n X t n nnαα--+-例1.现从中一大批糖果中随机取16袋,称得重量(以克记)如下:506508 499 503 504 510 497 512 514 505 493 496 506 502 509 496设每袋糖果的重量近似服从正态分布. 试求总体均值μ的置信水平为0.95的置信区间.解:这是单总体方差未知,总体均值的区间估计问题.均值μ的置信水平1−α的置信区间为22((1),(1))x t n x t n nnαα--+-根据给出的数据,算得这里10.95,16n α-==/20.025(1)(15) 2.1315t n t α-==503.75, 6.2022x s ==因此,μ的一个置信水平为0.95的置信区间为6.20226.2022(503.75 2.1315,503.75 2.1315)1616(500.4,507.1)-⨯+⨯=此区间包含μ的真值的可信度为95%.22((1),(1))x t n x t n nnαα--+-3.方差σ2的置信区间(均值μ未知)σ2的常用点估计为S 2,且是无偏估计。
概率论与数理统计5.3
α/ 2
2 χ1−α / 2 (2n)
α/ 2
2 χα / 2 (2n)
2n 2 2 P χ1−α / 2 (2n) < X < χ α / 2 ( 2n) = 1 − α θ
经不等式变形得
2 nX 2 nX P 2 <θ< 2 = 1− α χ1−α / 2 (2n) χ α / 2 ( 2 n)
均值μ 1. 均值μ的置信区间
(1) 方差 σ 2 已知的情形
由 例 5.12 可知,在 σ 2 己知时,µ 的 1 − α 置信区间为
σ σ X − u α / 2 ,X + uα / 2 n n
这样的置信区间可简写为
σ X ± uα / 2 n
P{ λ 1 < U < λ 2 } = 1 − α
(4) 利用不等式变形导出套住 θ 的置信区间( θ ,θ ) ,
那么(θ,θ )就是 θ 的一个置信水平为1 − α 的置信区间。
例 5.13
设 总体 X 服从指数分布,其概率 密度为
1 −x / θ e , x>0 f ( x; θ) = θ 0, 其它
例5.12 设总体 X ~ N(µ,σ ) ,σ 为已知,µ为未知。
2 2
( X 1 , L, X n )是来自总体 X 的样本,试求 µ 的1 − α 置
信区间。
解: 因为 X 为 µ 的最大似然估计,考虑 基于 X 的枢轴量
U=
X-µ σ/ n
~ N (0, 1)
对于事先给定的水平 (1 - α ) ,确定λ 1 和λ 2 ,使
2 χ1−α / 2 (n −1)
数理统计12:枢轴量法、分位数、正态参数区间估计
数理统计12:枢轴量法、分位数、正态参数区间估计上篇⽂章中,我们探讨了区间估计的相关基本概念,也提出了Neyman置信区间,今天我们将聚焦于如何寻找置信区间的问题上,并对最常⽤的总体:正态总体给出⼀些置信区间的找法。
为了⽅便起见,以下我们都让置信⽔平为1−α。
由于本系列为我独⾃完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!⽬录Part 1:枢轴量法枢轴变量法是基于点估计量的。
我们知道,统计量是样本的函数,这意味着统计量中不能含有未知参数,⽽参数的点估计量是⽤统计量的观测值作为待估参数的估计值,其分布⼀定含有待估参数,枢轴量法的思想就是,通过⼀定的变换,让点估计的函数的分布不含待估参数,进⽽基于分布来构造区间估计。
举⼀个简单的例⼦,对于正态总体N(µ,4),显然¯X∼N(µ,4/n),这⾥¯X的分布含有未知参数µ。
构造其枢轴量,就是找到⼀个函数变换,使得新的随机变量分布不含未知参数。
注意,这⾥⽤了随机变量这个词⽽不是统计量,意味着枢轴量不是统计量,即不能由样本观测值计算出,这是因为虽然枢轴量的分布不含未知参数,但是枢轴量的表现形式含有未知参数。
显然,这⾥¯X−µ∼N(0,4 n),这样,¯X−µ的分布已知,⾃然容易找到⼀个常数区间[c,d],使得这个区间有1−α的概率包含¯X−µ的观测值,虽然此时我们不知道区间的端点是多少,但⾄少知道端点可以是固定的数c,d。
对枢轴量使⽤不等式变换,即¯X−µ∈[c,d]⇒µ∈[¯X−d,¯X−c],得到置信⽔平为1−α的置信区间。
这就是枢轴量法的操作步骤。
不同分布族的参数对于总体的意义是不同的。
像正态分布N(µ,σ2)的均值µ,均匀分布U(a,a+r)的起点a这种参数主要影响观测值的⼤⼩,可以直接通过X−µ,X−a的⼿段消除,这种参数称为位置参数;正态分布N(µ,σ2)的标准差σ,指数分布E(λ)的速率λ这种参数主要影响观测值的离散程度,可以通过X/σ,λX之类的⼿段消除,这种参数称为尺度参数。
第4节正态总体参数的区间估计
3
, 给定 ,0 1 , 定义 设是总体的一个未知参数
确定两个统计量
ˆ , ˆ 分别称为置信下限和置信上限. 区间. 1 2
ˆ , ˆ ]为 的 置信水平为 1 的 置信 则称区间 [ 1 2
1.75 1.96 1.96 0.49, n 50
所以 的置信区间为
(4.10 0.49, 4.10 0.49 ) (3.61, 4.59 ) .
10
例3 在上例中 , 为使 的置信水平是 0.95 的置信区间
的长度 L 1.5, 求样本容量 .
, u0.025 1.96, 1.75, 解 0.05
u / 2
x
X | | u / 2 X u / 2 X u / 2 / n n n
于是所求 的置信区间为 ( X u 有时简记为 ( X u / 2
2
n
, X u 2 ), n n
7
).
2 某厂生产滚珠,直径 X 服从正态分布 N ( , ). 例1 为了估计 , 抽检 6 个滚珠, 测得直径为 ( mm) : 14.70, 15.21,14.90,14.91,15.32,15.32,
对给定的置信水平 1 ,
按标准正态分布的 水平双侧分位数的定义,
查正态分布表得 u 2 ,
6
1.
已知时 的置信区间
2
/2
( x)
X U ~ N (0,1) , / n
1
O
/2
X P{ | | u 2 } 1 , n
数理统计(区间估计)
数理统计
例2 设总体 X ~ N ( , 2 ), X1, X2,…, Xn为 总体的样本, 求 , 2 的矩法估计量.
解 ˆ矩 X
ˆ2矩1
n
n i1
Xi2
X2
例3 设总体 X ~ E(), X1, X2,…, Xn为总体的 样本, 求 的矩法估计量.
解 E(X)1/, 令 X 1 / .
2)求出 ˆ1,ˆ2, ,ˆk , 使得
L ( x 1 ,x 2 , ,x n ;ˆ 1 ,ˆ 2 , ,ˆ k )
( 1 , m 2 , , k ) { L ( x a 1 ,x 2 , x ,x n ;1 ,2 , ,k )}
数理统计
若 L是 1, ,k的可微函数,解似然方程组
解 总体 X 的概率分布为
P ( X x ) p x ( 1 p ) 1 x ,x 0 , 1
设 x1, x2,…, xn为总体样本X1, X2,…, Xn 的样本值,
则 P ( X 1 x 1 , X 2 x 2 , , X n x n )
n
n
xi
n xi
pi1 (1p) i1 L(p) x i 0 ,1 ,i 1 ,2 , ,n
则称 1, ,k 为1,…, k 的极大似然估计值
数理统计
显然,
ˆr g (x 1 ,x 2 , ,x n ) r 1 ,2 , ,k
称统计量
ˆ r g (X 1 ,X 2 , ,X n ) r 1 ,2 , ,k
为1, 2,…, k 的极大似然估计量
求最大似然估计(MLE)的一般步骤
(1) 由总体分布导出样本的联合分布律(或联合 密度);
1( X 1, X 2 , , X n ) 2 ( X 1, X 2 , , X n )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 0.504, 0.696 )
注 另一解法见后面附录
二. 正态总体的情形 (一) 一个正态总体的情形 (1) 方差 2已知, 的置信区间
( X u
2
0
n
, X u
2
0
n
)
(3)
推导 由 X
~ N ( ,
0
n
2
)
选取枢轴量
X
g ( X 1 , X 2 , , X n , )
(2) 取 T
X S 6
~ t (5)
查表
t0.025 (5) 2.5706
由给定数据算得
s
2
x 14.95
2
1 5
( xi 6 x ) 0.051.
2 i 1
6
s 0.226
由公式 (4) 得 的置信区间为
(X S 6 ( 14.71, t 0.025 (5), 15.187 )
2 2
1 2 u
2
0.2
0.1
-2 u1
-1
3.92
2
0.4
0.3
0.2
u 2 u1 1.84 (2.13)
3 3
0.1
3.97
1
-2 u1
-1
u 22
3
3
置信区间的定义
设 为待估参数, 是一给定的数, ( 0<<1). 若能找到统计量 1 , 2 , 使
2
~ ( n 1)
2
~ N (0,1)
2
2
2
~ ( m 1)
2
2
( n 1) S1
( m 1) S2
2
~ ( n m 2)
2
( X Y ) ( 1 2 ) 1 n 1 m ( n 1) S1 ( m 1) S2
2 2
~ t ( n m 2)
n m2
P
( X Y ) ( 1 2 ) 1 n 1 m ( n 1) S1 ( m 1) S2
2 2
n m2
t 1 2
1 2 的置信区间为
1 1 ( X Y ) t (n m 2) W 2 n m (7)
(6)
② 1 , 2 未知( 但 1 2 ) 1 2的置信区间
2 2
2 2 2
X Y ~ N ( 1 2 , ( X Y ) ( 1 2 ) 1 n 1 m
2
2
( n 1) S1
2
)
n
m
2 ( m 1) S2
0 / n
~ N (0,1)
由
X P / n 0
u 2
确定 u
2
解
X
0 /
u
2
n
得 的置信概率为 1 的置信区间为
( X u
2
0
n
,
X u
2
0
n
)
(2) 方差 2未知 , 的置信区间
S* S* , X t ( n 1) X t ( n 1) 2 2 n n (4)
置信概率为 1
①
1 , 2
2
2
已知, 考虑 1 2的置信区间
1
n
2
X ~ N ( 1 ,
), Y ~ N ( 2 ,
2
m
2
)
X ,Y
相互独立,
( X Y ) ( 1 2 )
1
n
2
2
m
2
~ N (0,1)
1 2
的置信区间为
2 2 2 2 (X Y ) u 1 2 , (X Y ) u 1 2 2 2 n m n m
X
2
1
X n
i 1
n
i
m n
2
2
m m m S X i X 1 n i 1 n n n n
1
n
2
m
代入(1)式得
m u n 2 1 m m m u 1 , 2 n n n n 1 m m 1 n n n
1
• 2
2
4
6
8
•
2
2
10
2
(5)
例3 某工厂生产一批滚珠, 其直径 X 服从 正态分布 N( 2), 现从某天的产品中随机 抽取 6 件, 测得直径为 15.1 , 14.8 , 15.2 , 14.9 , 14.6 , 15.1
(1) 若 2=0.06, 求 的置信区间 置信概率 2未知,求 的置信区间 (2) 若 均为0.95 (3) 求方差 2的置信区间.
(2)
例2 自一大批产品中抽取100个样品, 其中 有60个一级品, 求这批产品的一级品率 p 的 置信度为0.95的置信区间.
解 将
n 100 , m 60 , u 1.96
2
代入(2)式得
m 1 m m m 1 m m u u 1 , 1 n 2 2 n n n n n n n
问题 1. n 与 确定后,置信区间是否唯一? 2.为何要取 u / 2 ?
答复
1. 不唯一.
2. 当置信区间为 ( X u 区间的长度为 2u
2
2
1 5
, X u
2
1 ) 时, 5
1 5
—— 达到最短.
0.4
0.3
取 = 0.05
u u1 1.96 (1.96)
这时, 2 1 往往增大, 因而估计精度降低.
确定后, 置信区间 的选取方法不唯一,
常选最小的一个.
处理“可靠性与精度关系”的原 则 先
求参数 置信区间 保 证 可靠性
再
提 高 精 度
求置信区间的步骤
寻找一个子样的函数
— 称为枢轴量 它含有待估参数, 不含其它未知参数, 它的分布已知, 且分布不依赖于待估参 数 (常由 的点估计出发考虑 ). 例如 X~N ( , 1 / 5)
g( X 1 , X 2 , , X n , )
取枢轴量
g ( X 1 , X 2 , , X n , ) X 1/ 5
~ N (0, 1)
给定置信度 1 ,定出常数 a , b ,使得
P (a g( X 1 , , X n , ) b) 1
§6.4
区间估计
在前面我们讨论了参数的点估计,参数的点 估计的优点是,它的形式是确定的估计量,因而 可以进行运算.只要给定样本观察值,就能算出参 数的估计值.但用点估计的方法得到的估计值不一 定是参数的真值,即使与真值相等也无法肯定这 种相等(因为总体参数本身是未知的),也就是 说,由点估计得到的参数估计值对估计的精度与 可靠性没有做明确的回答,而在实际问题中,不 仅需要知道未知参数的估计值,往往还需要知道 这些估计值的精度与可靠性.要解决这些问题就要 引入参数的区间估计.
2
X
S 6
t 0.025 (5) )
(3) 选取枢轴量
2
5S
2
2
~ (5) ,
2
S 0.051.
2
2
查表得 0.025 (5) 12.833 , 0975 (5) 0.831 由公式 (5) 得 2 的置信区间为
( 5S
2 2
0.025 (5)
,
5S
2
2
0.975 (5)
X 1 ~ N 0 , 1 X ~ N , U 1 5 5
取 查表得
0.05
u / 2 1.96
这说明
X P 1.96 0.05 1 5
即
P X 1.96 1 X 1.96 1 0.95 5 5
在介绍区间估计之前,我们先看一个例子.
引例 已知 X ~ N ( ,1), 的无偏、有效点估计为 X
常数
随机变量
不同样本算得的 的估计值不同, 因此除了给出 的点估计外, 还希望根据 所给的样本确定一个随机区间, 使其包含 参数真值的概率达到指定的要求.
如引例中,要找一个区间,使其包含 的 真值的概率为0.95. ( 设 n = 5 )
( 引例中 a 1.96, b 1.96 )
由 a g( X1 , , X n , ) b 解出 1 , 2
得置信区间(1 , 2 )
引例中
( 1 , 2 ) ( X 1.96 1 , 5 X 1.96 1 ) 5
置信区间常用公式
一. 非正态总体的情形 (大样本) 设总体的期望 EX 与方差 DX 2 均未知, 用大样本( n 30 )对 作区间估计.
P(1 2 ) 1
则称 (1 , 2 )为 的置信概率为1 - 的
置信区间或区间估计. 1 置信下限 2 置信上限
几点说明
置信区间的长度 2 1 反映了估计精度
2 1越小,
估计精度越高.
反映了估计的可靠度, 越小, 越可靠. 越小, 1- 越大, 估计的可靠度越高,但