第5讲 区间估计
区间估计
常见形式
间估计的区间上、下界通常形式为:“点估计±误差” “总体均值”的区间估计
总体均值:μ 总体方差:σ 样本均值:x =(1/n)×Σ(Xi) 样本方差:s =(1/(n-1))×Σ(Xi-x)^2 符号假设置信水平:1-α 显著水平:α
已知n个样本数据Xi (i=1,2,...,n),如何估计总体的均值? 首先,引入记号: 区间估计σ'=σ/sqrt(n) s'=s/sqrt(n) 然后,分情况讨论: 情况1 小样本(n<30),σ已知,此时区间位于 x ± z(α/2)×σ' 情况2 小样本(n<30),σ未知,此时区间位于 x ± t(α/2)×s' 区间估计情况3 大样本(n≥30),σ已知,此时区间位于 x ± z(α/2)×σ' 情况4 大样本(n≥30),σ未知,此时区间位于 x ± z(α/2)×s' 其中, z(α/2)表示:正态分布的水平α的分位数 t(α/2)表示:T分布的水平α的分位数
置信区间
区间估计有时,对所考虑的置信区间(或上、下限)加上某种一般性限制,在这个前提下寻找最优者。无偏 性是经常用的限制之一,如果一个置信区间(上、下限)包含真值θ的概率,总不小于包含任何假值θ┡的概率, 则称该置信区间(上、下限)是无偏的。同变性(见统计决策理论)也是一个常用的限制。
求置信区间的方法 最常用的求置信区间及置信上、下限的方法有以下几种。
即
费希尔把这个等式解释为:在抽样以前,对于θ落在区间内的可能性本来一无所知,通过抽样,获得了上述 数值,它表达了统计工作者对这个区间的"信任程度",若取b)=-α=uα/2,则得到区间,其信任程度为 1-α。即 当用上述区间作为θ的区间估计时,对于“它能包含被估计的θ”这一点可给予信任的程度为1-α。
4.5 区间估计
当两个样本为小样本,总体方差σ12和σ22未知,且两总体
方差不相等,即σ12 ≠ σ22时,可由两样本方差s12和s22对总体方
差σ12和σ22的估计而算出的t值,已不是自由度df=n1+n2-2的t 分布,而是近似的服从自由度df '的t分布,在置信度为P=1-α
在置信度为P=1-α下,两总体 频率差数p1-p2的区间估计为
ˆ1 p ˆ 2 ) u p ˆ1 p ˆ 2 ) u p [( p ˆ1 p ˆ2 , ( p ˆ1 p ˆ2 ]
其置信区间的下限L1和上限L2为:
ˆ1 p ˆ 2 ) u p ˆ1 p ˆ 2 ) u p [L1 ( p ˆ1 p ˆ 2 , L1 ( p ˆ1 p ˆ2 ]
P( 2.58 x x 2.58 x ) 0.99
P( x 2.58 x ) P( x 2.58 x ) 0.01
P( x 1.96 x x 1.96 x ) 0.95 P( x 2.58 x x 2.58 x ) 0.99
( L1 x u x , L2 x u x )
( L1 x u x , L2 x u x )
用样本平均数 x 对总体平均数μ的置信度为P=1-α 的区间估计。
L x u x
用样本平均数 x 对总体平均数μ的置信度为P=1-α 的点估计。
一、参数区间估计与点估计的原理
无论区间估计还是点估计,都与概率显著水平α的 大小联系在一起。 α越小,则相应的置信区间就越大,也就是说用样 本平均数对总体平均数估计的可靠程度越高,但这 时估计的精度就降低了。
SAS课件--第5讲 SAS的假设检验
待估参数
枢轴量及其分布 π
Z P P(1 P ) n
近似
参数的置信区间
1) ~ N(0,
总体比 例
P Z 2
P(1 P) n
两总体 比例差
π 1-π
z
2
( P1 P2 ) ( 1 2 )
近似
1 (1 1 ) n1 2 (1 2 ) n 2
2 12 / 2 1
H1 μ 1-μ 2≠0 μ 1-μ 2<0 μ 1-μ 2>0 μ d≠0 μ d<0 μ d>0
2 12 / 2 1
检验统计量
X Y S w 1 n1 1 n 2
2 ( n1 1) S12 ( n2 1) S2 n1 n2 2
分布
第五主题 区间估计和假设检验
区间估计与假设检验的基本概念
• 总体均值的区间估计与假设检验的SAS实现 • 总体比例的区间估计与假设检验的SAS实现 • 总体方差的区间估计与假设检验的SAS实现 • 分布检验
第一节 区间估计与假设检验的基本 概念
区间估计 假设检验
一、区间估计
1. 点估计和区间估计 • 参数的估计方法主要有两种:点估计和区间估计。 • 点估计是用样本的观测值估计总体未知参数的值。由于
• 正态总体参数的各种置信区间见表3-1。
被估参数 条件 枢轴量及其分布 参数的置信区间
两样本独立 ,12, 22 已知
μ 两 正 态 总 体
1 -μ 2
Z
X Y ( 1 2 )
2 12 n1 2 n2
~ N (0,1)
X Y Z
数理统计区间估计总结
数理统计区间估计总结数理统计是一门研究数据收集、整理、分析和解释的学科,而区间估计是其中一种重要的方法。
区间估计是通过样本数据来推断总体参数的取值范围,它能够提供关于总体参数的不确定性程度的信息。
本文将对区间估计的概念、应用以及优缺点进行探讨,以期帮助读者更好地理解和运用这一统计方法。
一、区间估计的概念区间估计是一种基于样本数据的统计推断方法,通过计算得到一个包含未知总体参数的区间范围。
这个区间的上限和下限是根据样本数据计算出来的,并且具有一定的置信水平,代表了对总体参数的估计精度。
二、区间估计的应用区间估计广泛应用于各个领域的研究中,特别是在市场调研、医学实验、经济学研究等方面。
例如,在市场调研中,通过对样本数据的分析,可以得到某一产品销售量的置信区间,以评估其市场潜力。
在医学实验中,可以利用区间估计来确定某种药物的有效剂量范围,以指导临床应用。
三、区间估计的优缺点区间估计具有以下优点:首先,它能够提供对总体参数的估计精度信息,使得决策者能够更加准确地评估风险和不确定性。
其次,区间估计不依赖于总体分布的假设,适用于各种类型的数据。
最后,区间估计可以较好地处理样本量较小的情况,提供对总体参数的合理估计。
然而,区间估计也存在一些缺点。
首先,区间估计只能提供对总体参数的范围估计,无法给出具体的点估计。
其次,区间估计的置信水平不一定能够准确反映总体参数的真实情况,存在一定的误差。
最后,区间估计对样本数据的分布和总体参数的假设要求较高,如果假设不满足,估计结果可能会失真。
区间估计是一种重要的统计推断方法,可以提供对总体参数的估计范围和置信水平信息。
它在各个领域的研究中有着广泛的应用,并具有一定的优点和缺点。
因此,在实际应用中,我们需要根据具体情况选择合适的区间估计方法,并结合其他统计方法进行综合分析,以获得更加准确的结论。
区间估计名词解释
区间估计名词解释区间估计是统计学中的一种方法,用于根据样本数据对总体参数(如总体均值、总体比例等)进行估计,并给出一个置信区间。
该方法的目的是通过样本数据对总体参数进行估计,并给出一个范围,称为置信区间,来描述参数真实值的不确定性。
在进行统计推断时,我们常常面临一个问题,即如何根据样本数据对总体参数进行估计,因为我们通常无法全部调查总体。
区间估计的方法基于样本数据的统计量(如样本均值、样本比例等)的分布特征,利用统计学的理论知识和方法,推断总体参数的范围。
区间估计的结果是一个区间,给出了总体参数的估计值的可能范围。
要进行区间估计,首先需要确定置信水平。
置信水平是对估计结果的可靠性的度量,通常表示为95%或99%等。
置信水平越高,置信区间的范围就越宽,对总体参数的估计也就越准确。
然后,利用统计学的公式和方法,计算出样本统计量的分布范围,从而得到置信区间。
置信区间为一个范围,通常写成(下限,上限),表示总体参数的估计值在这个范围内的概率为指定的置信水平。
区间估计有很多种方法,常见的有正态分布区间估计、t分布区间估计等。
其中,正态分布区间估计是基于大样本(n>30)的情况下,利用正态分布的性质进行估计;t分布区间估计适用于小样本(n<30)的情况,因为样本量较小,样本分布通常不满足正态分布的要求,所以使用t分布进行估计。
除此之外,还有二项分布、泊松分布等的区间估计方法,用于估计总体比例或总体均值等参数。
区间估计的优点是可以提供一个范围,显示参数估计的不确定性。
与点估计相比,区间估计更加全面和准确。
然而,区间估计也有其局限性,它只能给出总体参数的范围,但无法确定总体参数的具体值。
因此,在进行区间估计时,我们需要根据实际问题和数据特点选择适当的方法,并合理解释和使用置信区间的结果。
区间估计
(
)
X −µ 50 P X − µ < 50 = P < ≥ 0.95 σ n σ n X −µ 50 50 P > ≥ u0.025 = 1.96 ≤ 0.05 ⇒ σ n σ n σ n 50 n 2 ≥ 1.96 ⇒ n ≥ (19.6 ) = 384.16 500
(
)
14.6, 15.1, 14.9, 14.8, 15.2, 15.1. 的置信区间。 滚珠直径均值 µ 的置信概率为 0.95 的置信区间。 解:样本均值 x = 14.95, 样本均方差 S = 0.226 n = 6, α = 0.05, tα 2 ( 5 ) = t0.025 ( 5 ) = 2.5706
2
2
未知, 代替之。 且总体方差 σ 未知,我们考虑用样本方差 S 代替之。
X −µ ~ t ( n − 1) 利用统计量 T = S n
2、 σ 未知,估计 µ 、 未知,
X −µ ~ t ( n − 1) 利用统计量 T = S n
X −µ 对给定的置信度 1 − α , < b = 1 − α 要使 P T = S n X −µ PT = > b = α S n X −µ < tα 2 ( n − 1) b = tα 2 ( n − 1) T = S n
1、 σ 已知,估计 µ 、 已知,
X −µ < b = 1 − α 要使 P U = σ n X −µ P U = > b = α σ n X −µ U = < uα 2 b = uα 2 σ n σ σ < µ < X + uα 2 X − uα 2 n n σ σ , X + uα 2 的置信区间: 均值 µ 的置信区间: X − uα 2 n n
区间估计的原理例子
区间估计的原理例子
区间估计原理是通过抽样数据来估计总体的参数,并给出一个范围,称为置信区间,该范围包含了真实参数值的可能性。
它基于概率统计理论,使用抽样分布或中心极限定理来推断总体参数。
举个例子来说明,假设某市的成年人口的平均年收入是我们要估计的总体参数。
我们可以从该市抽取一定数量的样本,并计算样本的平均收入。
然后,根据中心极限定理,我们知道样本均值的抽样分布近似于正态分布,且其均值接近总体均值。
假设我们抽取了100个样本,并计算出样本均值为50000元。
我们还可以计算出一个标准误差,用于估计样本均值的标准误差,进而构建置信区间。
假设标准误差为1000元,我们可以根据正态分布的性质,得出在96%的置信水平下,总体平均年收入的估计范围是(48000, 52000)元。
这个例子中,我们用区间估计的原理估计了总体平均年收入,并给出了一个置信区间。
这个区间告诉我们,我们相信总体平均年收入在48,000元到52,000元之间,即使我们无法准确知道真实的总体参数。
使用区间估计的原理可以帮助我们在不完全了解总体的情况下,通过样本数据进行合理的估计和推断。
概率论与数理统计课件--区间估计
1 2
2
得2的区间估计为
n
Xi 2
i1
,
2 (n)
2
n
Xi
2
i 1
2 (n)
1 2
小结
总体服从正态分布的均值或方差的区间估计 假设置信水平为1- (4)均值未知,对方差的区间估计
构造2-统计量,查2-分布临界值表,
确定2的双侧分位数 2 (n 1), 2 (n 1)
1 2
2
解 (1)由矩法估计得EX的点估计值为
E¶X x 1 14.6 15.114.9 14.8 15.2 15.1 14.95
6
续解 (2)由题设知X~N(,0.06)
构造U-统计量,得EX的置信区间为
X
u
2
n , X u 2
n
而 x 14.95, 0.06 0.1
n6
当=0.05时,u0.025 1.96
9.22910000 92290 (公斤)
最多准备
10.77110000 107710 (公斤)
正态总体均值已知,对方差的区间估计
如果总体X~N(,2),其中已知,2未知
由 Xi ~ N (0,1) 构造2-统计量
n
2
n i1
X
i
2
i 1
Xi 2
2
~ 2 (n)
查2- 分布表,确定双侧分位数 2 (n), 2 (n)
区间估计的思想
点估计总是有误差的,但没有衡量偏差程度的量, 区间估计则是按一定的可靠性程度对待估参数给出一个 区间范围。
引例 设某厂生产的灯泡使用寿命X~N(,1002),现 随机抽取5只,测量其寿命如下:1455,1502,1370, 1610,1430,则该厂灯泡的平均使用寿命的点估计值为
区间估计
1 2 均未知,求 12 / 22 的区间估计。 3.当
由定理5.2知随机变量
2 S12 / S 2 , 2 2 ~ F ( n1 1 n2 1) 1 / 2
选取a,b使得
2 S12 / S 2 P{a 2 2 b} 1 a 1 / 2 2 S12 / S 2 P{F a (n1 1, n2 2) 2 2 Fa (n1 1, n2 1)} 1 1 1 / 2 2 2
因上下差距太大,影响预测的准确。要解决这个问题,
可再抽查70亩,即前后共抽样100亩。若设
X 642 .5, S 160 , n 100 ,则u的95%的置信区间为:
S X 1.96 642 .5 34.1 n
即(611.1,673.9)
置信下限比以往年亩产多11.1千克。这就可以预测: 在很大程度上,今年水稻平均亩产至少比往年高出11千
四、单侧置信区域
定义6.8 设总体X分布函数中含有未知参数θ,X1,X2,···,Xn
是X的样本。对于给定的a(0<a<1),若统计量 ( X 1 , X 2 ,, X n )
满足
P{ } 1 a
则称随机区间 ( ,) 是θ的置信度为1-a的单侧置信区间,称 为 单侧置信下限,若统计计量 ( X , X , , X ) 1 2 n 满足
区域为
S S a (X t a (n 1), X t (n - 1) n 2 n 2
3.当μ未知时,对σ
由定理5.1知,随机变量 选取a,b使得
2
进行区间估计
2 ~ X (n 1)
( n 1) S
2
( n 1) S 2 P a b 1 a 2
计量经济学讲义(5)
* * Pr[ b 2 - t a se ( b 2 ) b 2 b 2 + ta se ( b 2 )] = 1 - a 2 2 * 给 定 b 2= b 2 下 , b 2以 概率 1 - a 落入 该 置 信区 间 。
而 不 是 真 值 b 2的 分 布 域 ( 置 信 区 间 ) 。
= 2.306
* 令 H 0 : b 2 = b 2 = 0.3
H 1 : b 2 0.3 Pr(0.2177 b 2 0.3823) = 0.95
拒绝H0
拒绝H0
2.5%
不拒绝H0
2.5%
β 2 = 0 .5091 落在此拒绝域
步骤 2:给定显著性水平 a 和自由度 n - 2, 查表得到临界值 t a
2 2 i
拒绝H0
2.5% 拒绝域
95%不拒绝H0
- t a se ( b 2 )
2
2.5% 拒绝域
= 由 Pr ( - t a t t a ) 1 - a 得 : Pr ( - t a
2 2 2
b
* 2
b
* 2
+ t a se ( b 2 )
2
β2
x
s
2
临界值
注 : 此 方 法 考 察 的 是 估 计 值 b 2的 分 布 域 ( 置 信 区 间 ) ,
2
步骤 3:考察计算的 t 值是否落在接受域( - t a , t a )中
2 2
0.2177
0.3
0.3823
β2
21
如果是的话,接受 H 0;否则拒绝 H 0。
22
消费-收入例子
0.5091 - 0.3 t= = 5.86 0.0357
区间估计的基本步骤
区间估计的基本步骤
区间估计的基本步骤如下:
1、根据实际问题的具体要求,选定一个合适的统计量作为区间估计的基础,该统计量应该包含我们要估计的未知参数。
2、找到一个合适的置信水平,通常这个置信水平是根据问题的实际情况和对估计准确度的要求来确定的。
3、利用选定的统计量和样本数据,构造出未知参数的置信区间。
这个置信区间是一个范围,我们希望这个范围能够包含真实的未知参数值。
4、对置信区间进行解释和说明。
这包括说明置信区间的含义,比如我们有95%的信心认为真实的未知参数值落在这个范围内。
需要注意的是,置信区间的构造方法会根据不同的统计量和分布情况而有所不同。
因此,在具体实施区间估计时,需要根据实际情况选择合适的方法和技术。
区间估计
引言前面,我们讨论了参数点估计. 它是用样本算得的一个值去估计未知参数. 但是,点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大. 区间估计正好弥补了点估计的这个缺陷.譬如,在估计湖中鱼数的问题中,若我们根据一个实际样本,得到鱼数N的极大似然估计为1000条.实际上,N的真值可能大于1000条,也可能小于1000条.若我们能给出一个区间,在此区间内我们合理地相信N 的真值位于其中.这样对鱼数的估计就有把握多了.也就是说,我们希望确定一个区间,使我们能以比较高的可靠程度相信它包含真参数值.∙湖中鱼数的真值[ ]这里所说的“可靠程度”是用概率来度量的,称为置信概率,置信度或置信水平.习惯上把置信水平记作α-1α,这里是一个很小的正数.置信水平的大小是根据实际需要选定的.例如,通常可取置信水平=0.95或0.9等.α-1αθθθ-=≤≤1}ˆˆ{21P 根据一个实际样本,由给定的置信水平,我]ˆ,ˆ[21θθ小的区间,使们求出一个尽可能置信区间.θ称区间为的]ˆ,ˆ[21θθα-1置信水平为的寻找置信区间的方法,一般是从确定误差限入手.αδθθ-=≤-1}|ˆ{|P 使得称为与之间的误差限.θˆθδ我们选取未知参数的某个估计量,根据置信水平,可以找到一个正数,θˆα-1δ只要知道的概率分布,确定误差限并不难. θˆ下面我们就来正式给出置信区间的定义,并通过例子说明求置信区间的方法.δθθδθ+≤≤-ˆˆθ由不等式δθθ≤-|ˆ|可以解出:这个不等式就是我们所求的置信区间.教材180页给出了概率分布的上侧分位数(分位点)的定义,为便于应用,这里我们再简要介绍一下.在求置信区间时,要查表求分位数.设0< <1, 对随机变量X ,称满足αα=>)(x X P 的点为X 的概率分布的上分位数.ααx α例如:645.105.0=u 96.1025.0=u αα=>)(x X P 的点为X 的概率分布的上分位数.αx α标准正态分布的上分位数αu αα例如:348.9)3(2025.0=χ216.0)3(2975.0=χαα=>)(x X P 的点为X 的概率分布的上分位数.αx α分布的上分位数α)(2n αχ2χ自由度为n 的α设0< <1,对随机变量X ,称满足αα=>)(x X P α的点为X 的概率分布的上分位数.αx αF 分布的上分位数α),(21n n F α自由度为n 1,n 2的α书末附有分布、t 分布、F 分布的上侧分位数表,供使用.需要注意的事项在教材上有说明.2至于如何由标准正态分布函数表查表求得分位数,若你对分布函数定义熟悉的话,这个问题不难解决.现在回到置信区间题目上来.一、置信区间定义:αθθθ-=≤≤1}ˆˆ{21P ),,,,(ˆˆ2111n X X X θθ=θ),,,(ˆˆ2122n X X X θθ=)ˆˆ(21θθ<满足设是一个待估参数,给定,0>α若由样本X 1,X 2,…X n 确定的两个统计量则称区间是的置信水平(置信度、置信概率)为的置信区间.θ]ˆ,ˆ[21θθα-121ˆˆθθ和分别称为置信下限和置信上限.一旦有了样本,就把估计在区间θ]ˆ,ˆ[21θθ内.这里有两个要求:可见,11ˆˆθθ=对参数作区间估计,就是要设法找出两个只依赖于样本的界限(构造统计量)θ22ˆˆθθ=)ˆˆ(21θθ<(X 1,…X n )(X 1,…X n )2. 估计的精度要尽可能的高. 如要求区间12ˆˆθθ-长度尽可能短,或能体现该要求的其它准则.]ˆ,ˆ[21θθ1. 要求以很大的可能被包含在区间θ}ˆˆ{21θθθ≤≤P 内,就是说,概率要尽可能大.即要求估计尽量可靠.可靠度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高精度.~N (0, 1)μ选的点估计为X求参数的置信水平为的置信区间. 例1设X 1,…X n 是取自的样本,,2已知σ),(2σμN μα-1nX U σμ-=取二、置信区间的求法明确问题,是求什么参数的置信区间?置信水平是多少?寻找未知参数的一个良好估计.解:寻找一个待估参数和估计量的函数,要求其分布为已知.有了分布,就可以求出U 取值于任意区间的概率.,1α-对给定的置信水平查正态分布表得,2αu 对于给定的置信水平(大概率), 根据U 的分布,确定一个区间, 使得U 取值于该区间的概率为置信水平.ασμα-=≤-1}|{|2u n X P 使为什么这样取?,1α-对给定的置信水平查正态分布表得,2αu ασμσαα-=+≤≤-1}{22u n X u n X P ασμα-=≤-1}|{|2u nX P 使从中解得],[22αασσu n X u n X +-也可简记为2ασu n X ±ασμσαα-=+≤≤-1}{22u n X u n X P 于是所求的置信区间为μ从例1解题的过程,我们归纳出求置信区间的一般步骤如下:1. 明确问题, 是求什么参数的置信区间?置信水平是多少?α-12. 寻找参数的一个良好的点估计T (X 1,X 2,…X n )θ称S (T , )为枢轴量.θ3. 寻找一个待估参数和估计量T 的函数S (T , ),且其分布为已知.θθ4. 对于给定的置信水平,根据S (T , )的分布,确定常数a , b ,使得α-1θα-1θP (a ≤S (T , )≤b )=5. 对“a ≤S (T , )≤b ”作等价变形,得到如下形式:θαθθθ-=≤≤1}ˆˆ{21P ]ˆ,ˆ[21θθα-1θ则就是的100( )%的置信区间.可见,确定区间估计很关键的是要寻找一个待估参数和估计量T 的函数S (T , ), 且S (T , )的分布为已知, 不依赖于任何未知参数θθθ(这样我们才能确定一个大概率区间).而这与总体分布有关,所以,总体分布的形式是否已知,是怎样的类型,至关重要.这里,我们主要讨论总体分布为正态的情形. 若样本容量很大,即使总体分布未知,应用中心极限定理,可得总体的近似分布,于是也可以近似求得参数的区间估计.例 2 已知某地区新生婴儿的体重X ~),,(2σμN ,,2未知σμ随机抽查n 个婴儿…得n 个体重数据X 1,X 2,…,X nμ的区间估计2σ求和(置信水平为1-).α解:这是单总体均值和方差的估计未知22,),,(~σμσμN X 已知μ先求均值的区间估计.)1(~--=n t nS X t μ因方差未知,取枢轴量对给定的置信水平, 确定分位数α-1)1(2-n t α使αα-=-≤1)}1(|{|2n t t P αμα-=-≤-1)}1(|{|2n t nS X P 即)]1(),1([22-+--n t nS X n t n S X αα均值的置信水平为的区间估计.即为μα-1从中解得αμαα-=-+≤≤--1)}1()1({22n t nS X n t n S X P)1(~)1(222--n S n χσ取枢轴量αχσχαα-=-≤-≤--1)}1()1()1({2222221n Sn n P 从中解得αχσχαα-=--≤≤---1})1()1()1()1({22122222n S n n S n P 2σ再求方差的置信水平为的区间估计.α-1使对给定的置信水平, α-1,)1(22-n αχ分位数,)1(221--n αχ确定于是即为所求.])1()1(,)1()1([2212222-----n S n n S n ααχχαχσχαα-=--≤≤---1})1()1()1()1({22122222n S n n S n P需要指出的是,给定样本,给定置信水平,置信区间也不是唯一的.对同一个参数,我们可以构造许多置信区间.~N (0, 1)nX U σμ-=取枢轴量由标准正态分布表,对任意a 、b ,我们可以求得P ( a <U <b ) .例如,设X 1,…X n 是取自的样本,,2已知σ),(2σμN 求参数的置信水平为的μα-1置信区间.~N (0, 1)nX U σμ-=例如,由P (-1.96≤U ≤1.96)=0.95我们得到均值的置信水平为μα-1的置信区间为]96.1,96.1[n X n X σσ+-由P (-1.75≤U ≤2.33)=0.95这个区间比前面一个要长一些.置信区间为]33.2,75.1[n X n X σσ+-我们得到均值的置信水平为μα-1的类似地,我们可得到若干个不同的置信区间.任意两个数a和b,只要它们的纵标包含f(u)下95%的面积,就确定一个95%的置信区间.我们总是希望置信区间尽可能短.在概率密度为单峰且对称的情形,当a=-b时求得的置信区间的长度为最短.a=-b即使在概率密度不对称的情形,如分布,F 分布,习惯上仍取对称的百分位点来计算未知参数的置信区间.2χ我们可以得到未知参数的的任何置信水平小于1的置信区间,并且置信水平越高,相应的置信区间平均长度越长.22αχ221αχ-)(x f x)(~2n X χ也就是说,要想得到的区间估计可靠度高,区间长度就长,估计的精度就差.这是一对矛盾.实用中应在保证足够可靠的前提下,尽量使得区间的长度短一些.例3 某单位要估计平均每天职工的总医疗费,观察了30天,其总金额的平均值是170元,标准差为30元,试决定职工每天总医疗费用平均值的区间估计(置信水平为0.95).解:设每天职工的总医疗费为X ,近似服从正态分布X ),(2n N σμ大样本,由中心极限定理,2σμE (X )= ,D (X )=σ未知,用样本标准差S 近似代替.取枢轴量nS X U μ-=近似N (0,1)分布对给定的置信水平, 确定分位数α-1,2αu 使αμα-=≤-1}|{|2u nS X P ],[22ααu nS X u n S X +-得均值的置信水平为的区间估计为μα-1将=170,S =30, =1.96,n =30代入得,X 的置信水平为0.95的置信区间是[ 159.27, 180.74]μ2αu ],[22ααu nS X u n S X +-得均值的置信水平为的区间估计为μα-1三、单侧置信区间上述置信区间中置信限都是双侧的,但对于有些实际问题,人们关心的只是参数在一个方向的界限.例如对于设备、元件的使用寿命来说,平均寿命过长没什么问题,过短就有问题了.这时,可将置信上限取为+∞,而只着眼于置信下限,这样求得的置信区间叫单侧置信区间.于是引入单侧置信区间和置信限的定义:αθθ-=≥1}ˆ{1P ),,,(ˆˆ2111nX X X θθ=θ满足设是一个待估参数,给定,0>α若由样本X 1,X 2,…X n 确定的统计量则称区间是的置信水平为的单侧置信区间.θ),ˆ[1∞θα-11ˆθ称为单侧置信下限.),,,(ˆˆ2122n X X X θθ=又若统计量满足αθθ-=≤1}ˆ{2P 2ˆθ则称区间是的置信水平为的单侧置信区间.θ]ˆ,(2θ-∞α-1称为单侧置信上限.设灯泡寿命服从正态分布. 求灯泡寿命均值的置信水平为0.95的单侧置信下限.例4 从一批灯泡中随机抽取5只作寿命试验,测得寿命X (单位:小时)如下:1050,1100,1120,1250,1280μ)1(~--n t nS X μ由于方差未知,取枢轴量2σ解:的点估计取为样本均值μX对给定的置信水平,确定分位数)1(-n t αα-1αμα-=-≤-1)}1({n t nS X P 使即αμα-=--≥1})1({nS n t X P 于是得到的置信水平为的单侧置信区间为μα-1],)1([∞--nS n t X α将样本值代入得μ的置信水平为0.95的单侧置信下限是1065小时μ的置信水平为的单侧置信下限为α-1即nS n t X )1(--α我们介绍了区间估计.同学们可通过练习,掌握各种求未知参数的置信区间的具体方法.。
【VIP专享】6-5区间估计
从两条流水线上抽取了容量分别为13与17的两个相互独
立的样本
则由
P(
2
2
(n 1)S 2
2
2
2 1
)
1
2
0.15 0.125
0.1 0.075
2
得 2 的置信区间为
(n 1)S 2
2 1
2
(n
1)
,
(n 1)S 2
2
(
n
1)
2
0.05
2 • 0.025
-2
2
4
•
6
8 10
2
2 1
2
2
(3)′当 已知时, 方差 2 的 置信区间(这种情况在实际中很少)
(5)
]
[14.71,
15.187]
③
2 的置信区间为
(n 1) s2
[
,
2 1
2
(n
1)
(n 1) s2
]
2
(n
1)
2
具体计算得: s2 0.051.
查表得
2 1
2
(n
1)
2 0.975
(5)
12.833,
2 2
(n
1)
2 0.025
(5)
0.831
所以 2 的置信区间为
5s2
[
,
5 s2 ] [0.0199, 0.3069 ]
抽取 6 件, 测得直径为 15.1 , 14.8 , 15.2 , 14.9 , 14.6 , 15.1
① 若 2=0.06, 求 的置信区间 ② 若 2未知,求 的置信区间 ③ 求方差 2的置信区间.
置信度 均为0.95
05区间估计
0.05 0.10 6.314 2.920 2.353 2.132 2.015 1.660 1.653 1.648 1.646 1.6449
例4.2
• n=120>100,标准正态分布代替t分布,u0.10=1.64 ,标准正态分布代替 分布 分布,
X − u 0.10 × s X = 142.67 − 1.64 × 0.5477 = 141.77(cm) X + u 0.10 × s X = 142.67 + 1.64 × 0.5477 = 143.57(cm)
附表2 附表 t 界值表
自由度
-t
0
t
ν
1 2 3 4 5 11 12 13 14 15
单侧 双侧
概 率,P 0.25 0.20 0.10 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005 0.50 0.40 0.20 0.10 0.05 0.02 0.01 0.005 0.002 0.001 1.000 1.376 3.078 6.314 12.706 31.821 63.657 127.321 318.309 636.619 0.816 1.061 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.599 0.765 0.978 1.638 2.353 3.182 4.541 5.841 7.453 10.215 12.924 0.741 0.941 1.533 2.132 2.776 3.747 4.604 5.598 0.727 0.920 1.476 2.015 2.571 3.365 4.032 4.773 0.697 0.876 1.363 1.796 2.201 2.718 3.106 3.497 0.695 0.873 1.356 1.782 2.179 2.681 3.055 3.428 0.694 0.870 1.350 1.771 2.160 2.650 3.012 3.372 0.692 0.868 1.345 1.761 2.145 2.624 2.977 3.326 0.691 0.866 1.341 1.753 2.131 2.602 2.947 3.286 7.173 5.893 4.025 3.930 3.852 3.787 3.733 8.610 6.869 4.437 4.318 4.221 4.140 4.073
区间估计的流程
区间估计的流程一、引言在统计学中,我们经常需要通过样本数据来推断总体参数的值。
然而,由于样本数据的随机性,我们无法准确地得知总体参数的真实值,所以需要使用区间估计来估计总体参数的范围。
区间估计的流程是一种常用的统计方法,能够为我们提供关于总体参数的置信区间,并给出这个区间内总体参数可能的取值范围。
二、区间估计的基本概念在深入学习区间估计的流程之前,我们先来了解一些基本概念。
在统计学中,常用的区间估计方法有点估计法和区间估计法。
点估计法通过样本数据估计总体参数的一个具体值;而区间估计法则通过样本数据估计总体参数的一个范围。
在区间估计中,有两个重要的概念,分别是置信水平和置信区间。
置信水平是指在重复抽样的情况下,区间估计方法能够包含总体参数真实值的频率。
常用的置信水平有90%、95%和99%等。
置信区间是指在给定置信水平下,总体参数可能的取值范围。
三、区间估计的流程下面我们将详细介绍区间估计的流程,包括样本数据的收集、点估计、标准误差的计算、置信区间的计算和结果的解释。
1. 样本数据的收集首先,我们需要收集与我们研究对象相关的样本数据。
样本数据应当具有随机性和代表性,以确保我们的推断能够适用于总体。
2. 点估计在收集到样本数据之后,我们需要通过点估计的方法来估计总体参数的一个具体值。
常用的点估计方法有样本均值、样本比例和样本方差等。
3. 标准误差的计算点估计能够给出总体参数的一个估计值,但它并不能告诉我们这个估计值的精确度。
为了评估点估计的精确度,我们需要计算标准误差。
标准误差是指点估计的标准差。
4. 置信区间的计算有了点估计和标准误差之后,我们可以计算置信区间。
置信区间的计算方法与所使用的统计分布有关。
常用的统计分布有正态分布和t分布,选择哪种分布取决于样本量和总体标准差是否已知。
5. 结果的解释最后,我们需要解释计算得到的置信区间。
通常,我们可以说在给定置信水平下,总体参数落在了置信区间内。
置信区间越窄,我们对总体参数的估计越精确。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总体均值的区间估计
(实例)
【例】从一个 正态总体中抽 取一个随机样 本, n = 25 ,其均值x = 50 ,标准差 s = 8。 建立 总体均值 的 95%的置信区 间。
解:已知X~N(,2),x=50, s=8, n=25, 1- = 0.95,t/2=2.0639。 s n 1 s n 1 , x t 2 x t 2 n n
17
例: 某地100户抽样,60户有电脑,求该地有电 脑成数p的置信区间( 0.05)
18
正态总体方差的区间估计 (要点)
1. 估计一个总体的方差或标准差 2. 假设总体服从正态分布 3. 总体方差 2 的点估计量为S2,且
n 1s 2
2 4. 总体方差在1-置信水平下的置信区间为
10 10 2
1 1 22.2 28.5 (2.1)(4.2) 10 10 (10.2,2.4)
33
1- 2置信度为95%的置信区间为
两个总体均值之差的估计
(12 、22未知,且不相等)
两个总体都服从正态分布 12、12未知,且12 12
( X 1 X 2 ) ( 1 2 ) s s n1 n2
2
n1
2
n2
1 1 n1 n2
30
两个总体均值之差的估计
(12、22未知,但相等)
使用 t 分布统计量
( X 1 X 2 ) ( 1 2 ) t ~ t (n1 n2 2) 1 1 Sp n1 n2
两个总体均值之差1-2在1- 置信水平下的置信 区间为
s s x1 x2 t 2 ( f ) n1 n2
2 1
2 2
35
两个总体均值之差的估计
(续前例)ຫໍສະໝຸດ 【例】为比较两位银行职员为新顾客办理个人结算账目的平均时 间长度,分别给两位职员随机安 排了 10 位顾客,并记录下了为每 位顾客办理账单所需的时间(单 位:分钟),相应的样本均值和 方差分别为:x1=22.2,s12=16.63, x2=28.5,s22=18.92。假定每位职 员办理账单所需时间均服从正态 分布,但方差不相等。试求两位 职员办理账单的服务时间之差的 95%的区间估计。
2.
使用正态分布统计量Z
n 3. 总体均值 在1-置信水平下的置信区间为
Z
x
~ N (0,1)
, x Z 2 x Z 2 n n
9
总体均值的区间估计
(正态总体:实例)
【例】某种零件 解:已知X~N(,0.152),x=2.14, n=9, 长度服从正态分 1- = 0.95,Z/2=1.96 布,从该批产品 总体均值的置信区间为 中随机抽取9件 x Z , x Z ,测得其平均长 2 2 n n 度为 21.4 mm 。 0.15 0.15 已知总体标准差 21.4 1.96 ,21.4 1.96 =0.15mm,试 9 9 建立该种零件平 21.302,21.498 均长度的置信区 我们可以95%的概率保证该种零件的平 间,给定置信水 均长度在21.302~21.498 mm之间 平为0.95。
( x1 x 2 ) Z
2 2
12
2
n1
2 2
n2
27
两个总体均值之差的估计 (实例)
【例】一个银行负责人想知道
储户存入两家银行的钱数。他 从两家银行各抽取了一个由 25 个储户组成的随机样本,样本 均值如下:银行A:4500元;银 行B:3250元。设已知两个总体服 从方差分别为A2=2500和 B 2 =3600 的正态分布。试求A B的区间估计 (1)置信度为95% (2)置信度为99%
其标准误差为
(x x )
1 2
12
n1
2 2
n2
26
两个总体均值之差的估计 (12、22 已知)
3.
使用正态分布统计量Z
Z ( X 1 X 2 ) ( 1 2 ) ~ N (0,1)
12
n1 n2 4. 两个总体均值之差1-2在1- 置信水平下的 置信区间为
一. 两个总体均值之差估计 二. 两个总体比例之差估计
23
两个总体均值之差的 估计
24
两个样本均值之差的抽样分布
1
1
抽取简单随机样 样本容量 n1 计算X1 计算这对儿样本 的X1-X2
总体1
2 2
总体2
抽取简单随机样 样本容量 n2 计算X2
所有可能样本 的X1-X2
抽样分布
1 2
20
在样本容量一定的情况下,置信区间和置
信度是相互制约的。置信度愈大,则相应
的置信区间也愈宽。
21
练习
例:某地月收入状况服从正态分布,根据64 人的抽样,其平均收入为800元,求置信度 为0.95时的 的双侧置信区间。
如果总体分布未知,接上题。
22
第二节 两个总体均值及两个 总体比例之差估计
x1 x2 t 2 s p
1 1 n1 n2
31
两个总体均值之差的估计
(实例)
【例】为比较两位银行职员为
新顾客办理个人结算账目的平均 时间长度,分别给两位职员随机 安排了10位顾客,并记录下为每 位顾客办理账单所需的时间(单 位:分钟),相应的样本均值和 方差分别为:x1=22.2, s12=16.63,x2=28.5,s22=18.92。 假定每位职员办理账单所需时间 均服从正态分布,且方差相等。 试求两位职员办理账单的服务时 间之差的95%的区间估计。
第5讲 区间估计
1
区间估计 (概念要点)
1.
2. 3.
根据一个样本的观察值给出总体参数的估计范围
给出总体参数落在这一区间的概率 例如: 总体均值落在50~70之间,置信度为 95%
样本统计量 (点估计)
置信区间
置信下限
置信上限
2
置信区间估计 (内容)
置信区间
均 值 2 已知 2 未知
比例
方差
3
置信水平
1.
2.
总体未知参数落在区间内的概率 表示为 (1 - 为显著性水平,是总体参数未在区间内 的概率
常用的置信水平值有 99%, 95%, 90% 相应的 为0.01,0.05,0.10
3.
4
区间与置信水平
均值的抽样分布
/2
x
1-
/2
x
X
5
影响区间宽度的因素
8 8 ,50 2.0639 50 2.0639 25 25 46.69,53.3
我们可以 95 %的概率保证总体均值 在46.69~53.30 之间
14
总体比例的区间估计
15
总体比例的置信区间
1. 假定条件
两类结果 总体服从二项分布 可以由正态分布来近似
2 n 1s 2 n 1s , 2 2 1 2 n 1 2 n 1
19
~ 2 n 1
接上例:抽样10户,收入状况如下: 790 800 810 820 780 760 840 800 750 850 2 求 的置信区间。( 0.05)
25
两个总体均值之差的估计
(12、22 已知)
1. 假定条件
两个样本是独立的随机样本 两个总体都服从正态分布 若不是正态分布, 可以用正态分布来近似(n130和n230)
2.
两个独立样本均值之差的抽样分布服从正态分布,其期望 值为(总体均值差)
E( x1 x2 ) 1 2
1
2
32
两个总体均值之差的估计
(计算结果)
n1 n2 2
解:已知 X1~N(1,2) X2 ~N(2,2) x1=22.2, x2=28.5, s12=16.63 s22=18.92 n1= n2=10 1 2 = 1 2
sp
n1 1s12 n2 1s 22 10 116.36 10 118.92 4.2
10
总体均值的区间估计 (非正态总体:实例)
解:已知 x=26, =6,n=100, 1- = 【例】某大学从该 0.95,Z/2=1.96 校学生中随机抽取 100人,调查到他 x Z 2 , x Z 2 们平均每天参加体 n n 育锻炼的时间为 26 6 6 分钟。试以 95 %的 ,26 1.96 26 1.96 100 100 置信水平估计该大 24.824,27.176 学全体学生平均每 天参加体育锻炼的 我们可以 95 %的概率保证平均每天 时间(已知总体方 参加锻炼的时间在 24.824~ 27.176 差为36小时)。 分钟之间
29
两个总体均值之差的估计
(12、22未知,但相等)
1.
假定条件
两个总体都服从正态分布 12、12未知,但12=12
2 2 n 1 s n 1 s 1 2 2 2 1
2.
总体方差2的联合估计量为
n1 n2 2
3. 估计量x1-x2的标准差为
2 1 2 2
1.
假定条件
2.
使用的统计量为
t ~ t( f )
2 2 2 s 1 s2 n n2 1 2 2 2 2 s1 n1 s 2 n2 n1 1 n2 1
自由度 f