参数区间估计
总体参数的区间估计必须具备的三个要素

一、概述总体参数的区间估计是统计学中一个重要的概念,在实际应用中具有广泛的应用。
区间估计的目的是利用样本数据对总体参数进行估计,以确定参数的取值范围。
在进行区间估计时,需要考虑三个重要的要素,以确保估计结果的准确性和可靠性。
二、总体参数的定义在统计学中,总体参数指的是对整个总体的某一特征进行描述的指标。
例如总体均值、总体比例等。
总体参数通常是未知的,需要通过样本数据来进行估计。
区间估计就是利用样本数据对总体参数进行估计,给出一个区间,以确定参数的取值范围。
三、区间估计的三个要素1. 置信水平置信水平是区间估计中非常重要的一个要素。
它指的是对总体参数估计的准确程度的度量,通常用1-α来表示,其中α称为显著性水平,通常取0.05或0.01。
置信水平越高,说明对总体参数的估计越可信。
在实际应用中,常用的置信水平为95或99。
2. 样本容量样本容量是另一个影响区间估计结果的重要要素。
样本容量的大小直接影响了估计结果的精确度。
通常来说,样本容量越大,估计结果越精确。
在进行区间估计时,一般需要根据置信水平和总体参数的方差来确定合适的样本容量。
3. 统计分布在进行区间估计时,需要考虑所使用的统计分布。
常用的统计分布包括正态分布、t分布、F分布等。
选择合适的统计分布对区间估计的结果具有重要影响。
通常在实际应用中,根据样本容量和总体参数的分布情况来选择合适的统计分布。
四、区间估计的计算方法区间估计的计算方法通常包括以下几个步骤:1. 确定置信水平,通常取95或99。
2. 根据置信水平和总体参数的分布情况,选择合适的统计分布。
3. 根据样本数据计算得到统计量的值。
比如样本均值、样本比例等。
4. 根据统计量的值,计算得到区间估计的上限和下限。
通常使用公式:点估计值±临界值×标准误差。
五、实际应用区间估计在实际应用中具有广泛的应用,比如医学研究、市场调研、经济预测等领域。
在这些领域中,通常需要对总体参数进行估计,以确定参数的取值范围。
参数区间估计

则 就是 的100( )%的置信区间.
单击此处添加标题
而这与总体分布有关,所以,总体分布的形式是否已知,是怎样的类型,至关重要.
(这样我们才能确定一个大概率区间).
可见,确定区间估计很关键的是要寻找一个待估参数 和估计量T 的函数S(T, ), 且S(T, )的分布为已知, 不依赖于任何未知参数
的置信水平为0.95的置信区间是 [ 159.27, 180.74]
将 =170,S=30, =1.96,n=30代入得,
三、单侧置信区间
上述置信区间中置信限都是双侧的,但对于有些实际问题,人们关心的只是参数在一个方向的界限.
添加标题
这时,可将置信上限取为+∞,而只着眼于置信下限,这样求得的置信区间叫单侧置信区间.
分布是由正态分布派生出来的一种分布.
来定义.
其中伽玛函数 通过积分
分布的密度函数为
2、t 分布
3、F分布
定义: 设 X与Y相互独立,则称统计量
服从自由度为n1及 n2 的F分布,n1称为第一自由度,n2称为第二自由度,记作 F~F(n1,n2) .
在求置信区间时,要查表求分位数.
教材已经给出了概率分布的上侧分位数(分位点)的定义,为便于应用,这里我们再简要介绍一下.
设0< <1, 对随机变量X,称满足
例如:
的点 为X的概率分布的上 分位数.
标准正态分布的 上 分位数
设0< <1, 对随机变量X,称满足
2
因方差未知,取
添加标题
3
对给定的置信度 ,确定分位数
添加标题
4
使
添加标题
5
即
添加标题
7.8 两个正态总体参数的区间估计

2 1
2 2
)
1
nm
因此,均值差1−2的置信水平1−α的置信区间为
(( X Y ) z 2
2 1
n
2 2
m
,(X
Y
)
z
2
2 1
2 2
)
nm
两个正态总体参数的区间估计
2.均值差1−2的置信区间 (方差12 =22 = 2,但 2 未知情形)
易知 ( X Y ) (1 2 ) ( X Y ) (1 2 ) ~ N (0,1)
枢轴量 T X Y (1 2 ) ~ t(n m 2)
S 1 n 1 m
根据 t分布的性质,取分位数tα/2 (n+m−2) 有
P{|
X Y (1 2 )
S 1 n 1 m
|
t
2(n
m
2)}
1
因此,均值差1−2的置信水平1−α置信区间为
2
(2n)=
2 0.05
(18)=28.869,12
2 (2n)
2 0.95
(18)
9.39
计算得:2nX 1062 1/λ 的置信水平为0.90的置信区间为 ( 1062 , 1062) (36.787,113.099)
28.869 9.39
两个正态总体参数的区间估计
2
,
2 2
m
)
由正态分布的性质可得
X
Y
~
N (1
2
,
2 1
总体参数的区间估计

三、总体参数的区间估计
图5-10 “探索”对话框
图5-11 “探索:统计量”对话框
三、总体参数的区间估计
单击“统计量”按钮,弹出“探索:统计量”对话框,如图5-11所示。 该对话框中有如下四个复选框: (1)描述性:输出均值、中位数、众数、标准误、方差、标准差、极小值 、极大值、全距、四分位距、峰度系数和偏度系数的标准误差等。此处能够设 置置信区间,默认为90%(α=0.1),可根据需要进行调整。 (2)M 最大似然确定数。 (3)界外值:输出五个最大值和五个最小值。 (4)百分位数:输出第5%、10%、25%、50%、75%、90%、95%位数 。
三、总体参数的区间估计
【例5-17】 某餐馆随机抽查了50位顾客的消费额(单位:元)为 18 27 38 26 30 45 22 31 27 26 35 46 20 35 24 26 34 48 19 28 46 19 32 36 44 24 32 45 36 21 47 26 28 31 42 45 36 24 28 27 32 36 47 53 22 24 32 46 26 27 在90%的概率保证下,采用点估计和区间估计的方法推断餐馆顾客的平均消 费额。 解:执行“分析”→“描述统计”→“探索”命令,打开“探索”对话框。由于本例只 有消费额一个变量,且需要对消费额进行探索性分析,故选中左侧列表框中的“消 费额”选项,将其移入“因变量列表”框中,如图5-10所示。
解:已知n=31,α=0.01,=10.2;σ=2.4,z0.005=2.58,由于总 体方差已知,为大样本,可以利用式(5-23)来进行计算。
即(9.088,11.312 该学生每天的伙食费在显著性水平为99%时的置信区间为( 9.088,11.312)。
对数级数分布参数区间估计

对数级数分布参数区间估计对数级数是一种重要的概率分布函数,常用于描述一些随机现象的分布特征。
它的概率密度函数为:f(x)=λe^(-λ(x-a))其中,λ是正的常数,称之为对数级数的参数。
对数级数的参数区间估计意味着我们要利用样本数据来推断参数λ的范围,以使得对数级数能够最好地拟合样本数据。
对数级数参数的区间估计方法有多种,下面将介绍两种常用的方法:极大似然估计和置信区间估计。
极大似然估计是一种常用的参数估计方法,其基本思想是寻找使得观察到的样本出现的概率最大的参数值。
对于对数级数分布,我们可以利用极大似然估计来估计参数λ的值。
假设我们有n个独立的随机样本{x1,x2,...,xn},我们可以将估计参数λ的问题等价为找到能够最大化似然函数的参数值λ。
似然函数L(λ)定义为观察样本的联合概率密度函数,即:L(λ)=f(x1)f(x2)...f(xn)=λ^n * e^(-λ * (∑x_i-a))要最大化似然函数L(λ),我们需要对L(λ)求导,然后将导数等于0的解作为估计的参数值λ。
由于对数级数的导数比较复杂,我们可以利用数值计算方法来求解。
另一种常用的参数区间估计方法是置信区间估计。
在对数级数分布中,我们可以使用置信区间来推断参数λ的范围。
置信区间是一个区间估计,它表示我们对参数λ的估计值有一定的置信水平。
通常,我们选择置信水平为95%或者99%。
置信区间的计算方法有很多种,其中一种常见的方法是使用正态分布的近似。
在这种情况下,置信区间可以通过计算样本均值和标准差来计算。
具体的计算公式可以参考统计学的相关教材。
总之,对数级数的参数区间估计是对参数λ进行估计的过程。
常用的方法包括极大似然估计和置信区间估计。
极大似然估计通过最大化似然函数来估计参数λ的值,而置信区间估计使用置信区间来推断参数λ的区间范围。
这些方法都可以帮助我们从样本数据中推断出参数值,并对参数的可信程度进行评估。
6.5参数的区间估计

附表3-2
查 t ( n 1) 分布表可知:
t0.025 (11) 3.201,
于是
s
* n
12.35 t1 /2 (n 1) 3.201 11.41, n 12
得的置信度为95%的置信区间(491.51, 514.33)
附加 4:设有一批胡椒粉,每袋净重 X(单位:克) 服从正态分布.从中任取8袋,测得净重分别为:
试求该批零件长度的置信度为 0.95 置信区间.
解
0.06
n6
经计算可得
x 14.95
查表得
u1 /2 u0.975 1.96, 故所求置信区间为
14.75, 15.15
从 x u1 /2 14.95 0.06 1.96 14.75 n 6 而
1 于是得 2 的一个置信度为 0.90的置信区间 2
2
0.34 0.34 1 , 2.38] [0.45, 2.79]. [ 0.29 2.59 0.29
又x 32.3, 0.4, n 20, 算得
x u1 /2
x u1 /2
0.4 32.3 1.96 32.12 n 20
32.3 1.96 0.4 32.48 20
n
所以的一个置信度为 %的置信区间为32.12,32.48) 95 (
解 已知 0 7, n 9, 0.05. 由样本值算得 1 x (115 120 110) 115. 9 查正态分布表得临界值 1.96,由此得置信区间:
(1151.96 7 / 9 , 1151.96 7 / 9 ) (110.43 , 119.57)
参数的区间估计

参数的区间估计1. 参数的概念参数是指一种描述总体特性的量,通常用符号表示。
以样本均值为例,我们通常用$\bar{x}$表示样本均值,用$\mu$表示总体均值,$\bar{x}$就是关于$\mu$的一个参数。
2. 区间估计的基本思想区间估计是通过样本的统计量来估计总体的参数,因为样本数据毕竟是有限的,所以估计值与真实值之间必然存在误差。
为了消除这种误差,我们采用确定一个区间的方法,即“置信区间”。
置信区间是指用样本数据计算出来的一个范围,其含义是真实的总体参数值有一定的置信水平(置信度)落在这个区间内。
①确定信赖水平(置信度)$1-\alpha$,$\alpha$称为显著性水平。
②根据样本均值选择合适的经验公式或理论公式来计算样本估计量的标准误差。
③根据置信度$1-\alpha$,查找$t$分布表或正态分布表,得到置信水平为$1-\alpha$的$t$值或$z$值。
④根据样本容量和总体方差是否已知,确定区间估计公式。
⑤根据置信度和样本数据计算出置信区间。
下面具体介绍区间估计的步骤:A. 确定总体所服从的概率分布总体可以服从正态分布、泊松分布、二项分布等概率分布,其中正态分布是最为常用的一种分布。
B. 确定样本容量$n$样本容量$n$的大小直接影响到置信区间的精度,当样本容量越大,置信区间的长度就越短。
一般观测数据越多,则样本容量越大。
C. 确定置信度$1-\alpha$置信度是指总体参数落在某一特定区间内的概率,一般取$95\%$或$99\%$。
D. 求出样本均值$\bar{x}$样本均值$\bar{x}$是样本中所有元素值的总和除以样本容量$n$,即$\bar{x}=\frac{\sum_{i=1}^nx_i}{n}$E. 求出样本方差$s^2$若总体标准差未知,用样本标准差$s$代替,$S(\bar{x})=\frac{s}{\sqrt{n}}$G. 选择合适的分布当总体服从正态分布,$\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}$服从标准正态分布;当总体未知且样本容量$n$较小($n<30$),$\frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}$服从$t$分布。
正态总体参数的区间估计实验结论

正态总体参数的区间估计实验结论在统计学中,正态分布是一种非常重要的分布,许多自然现象和实验数据都可以用正态分布来描述。
而在实际应用中,我们常常需要估计正态总体的参数,比如均值和标准差。
在这篇文章中,我将介绍如何利用区间估计的方法来估计正态总体的参数,并给出一个实验结论。
让我们来回顾一下区间估计的基本原理。
区间估计是通过样本数据来估计总体参数的一种方法,其核心思想是利用样本数据给出一个参数的估计区间,该区间包含真实参数的概率较高。
在正态总体参数的区间估计中,我们通常使用样本均值和样本标准差来进行估计。
接下来,我将介绍一个实际的例子来说明正态总体参数的区间估计方法。
假设我们有一批产品的重量数据,我们想要估计这批产品的平均重量。
我们随机抽取了一部分产品进行称重,得到了样本均值和样本标准差。
根据中心极限定理,我们知道样本均值的分布是正态分布的,可以利用这一性质来构建参数的置信区间。
假设我们得到的样本均值为100,样本标准差为5,样本量为30。
我们可以利用正态分布的性质来构建样本均值的置信区间,假设置信水平为95%,那么我们可以计算出置信区间为(98, 102)。
这意味着在95%的置信水平下,真实的总体平均重量落在98到102之间。
通过这个简单的例子,我们可以看到区间估计的重要性和实际应用。
在实际问题中,我们往往无法得知总体参数的真实值,只能通过样本数据来进行估计。
区间估计可以帮助我们对参数的估计进行更准确的评估,同时也可以给出参数估计的不确定性范围。
总的来说,正态总体参数的区间估计是统计学中一种常用的方法,通过构建置信区间来估计总体参数的真实值。
在实际应用中,我们可以根据样本数据来进行参数的估计,同时也可以评估参数估计的置信水平。
通过区间估计的方法,我们可以更准确地了解总体参数的情况,为决策提供更可靠的依据。
希望本文能帮助读者更好地理解正态总体参数的区间估计方法,并在实际问题中应用到实践中。
概率论第七章参数估计2区间估计

2 / 2 ( n 1)
即
置信区间:
标准差σ的一个置信水平为 1 的置信区间
2 (n 1) S , 2 (n 1) 2
(n 1) S 2 1 (n 1) 2
2
注意:在密度函数不对称时,如 2分布和F 分布,
置信度 1 下,来确定 的置信区间[ , ]
⑴ 已知方差 ,估计均值μ
2
n 1 2 设已知方差 2 0 ,且 X X i 是 的 n i 1 一个无偏点估计,
又
X ~ N (0 , 1) 0 / n
且 对于给定的置信度 查正态分布表,找出
临界值
使得:
2 1 2 2
一个无偏估计, 因为X与Y 相互独立,所以
X Y ~ N ( 1 2 ,
X Y ( 1 2 )
2 1
n1
2 2
n2
)
2 1
n1 n2 所以 1 2 的置信水平为1-α的置信区间为
2 2
~ N (0,1)
( X Y z / 2
已知
由样本值算得:
查表 t0.025 (6) 2.447
得区间:
对某种型号飞机的飞行速度进行15次试验, 测 例 5: 得最大飞行速度(单位: 米/秒)为 422.2, 417.2, 425.6 420.3, 425.8, 423.1, 418.7, 438.3, 434.0, 412.3, 431.5 413.5, 441.3, 423.0, 428.2, 根据长期经验, 可以认为 最大飞行速度服从正态分布. 求飞机最大飞行速度
第三节 区间估计 譬如,在估计湖中鱼数的问题中,若 我们根据一个实际样本,得到鱼数 N 的极 大似然估计为1000条.
第二章 参数估计2-3 区间估计

I=0.814
上页 下页 返回
钢厂铁水含碳量X 例3. 钢厂铁水含碳量 ~ N(µ,0.1082), 现在随机测定 该厂9炉铁水得 炉铁水得X=4.484,求在置信度为 求在置信度为0.95 的条件 该厂 炉铁水得 求在置信度为 下铁水平均含碳量的置信区间。 下铁水平均含碳量的置信区间。 解
置信区间为
上页
下页
返回
联合方差
上页
下页
返回
1、 µ1 - µ2的1-α置信区间 、 α (1)、 σ12 、σ22已知 、
由于 X −Y ~ N(µ1 − µ2 ,
选取
2 2 σ1 σ2
n1
+
n2
)
因此置信度为1-α 因此置信度为 α的µ1 - µ2置信区间可为
上页
下页
返回
(2)、σ12 、σ22未知,且n1,n2较大 如大于 、 未知, 较大(如大于 如大于50)
=27.5, ,
=6.26, ,
上页
下页
返回
测量一批铅锭的比重,设铅锭的比重X 例6. 测量一批铅锭的比重,设铅锭的比重 ~ N(µ, 现进行16次检测得铅锭的比重有 σ2),现进行 次检测得铅锭的比重有 现进行 次检测得铅锭的比重有X=2.705, , S2=0.0292,试求总体 的均值µ和方差 σ2置信度为 求总体X的均值 0.95 的置信区间。 的置信区间。 解 (1)求µ的置信区间 σ2未知 n=16,α=0.05. 求 的置信区间, 未知, α 选取 查表得 置信区间为
(二)、总体X数学期望 (二)、总体X数学期望µ未知 数学期望µ 样本X 的无偏估计. 样本 1,X2, • • • , Xn, 且S2是σ2的无偏估计
选取样本函数
区间估计的名词解释

区间估计的名词解释区间估计是统计学中一种常用的推断方法,用于根据样本数据对总体参数进行估计,给出一个包含真实参数值可能范围的区间。
区间估计的目的是在不完全了解总体参数的情况下,通过样本数据来推断总体参数的值范围。
在进行区间估计时,首先需要选择一个适当的置信水平(confidence level),通常选择的置信水平为95%或99%。
置信水平代表了对总体参数估计的可信程度,例如95%的置信水平意味着有95%的可能性真实参数位于构建的区间内。
区间估计的步骤如下:1. 收集样本数据。
从总体中随机抽取样本,获取样本数据。
2. 选择合适的估计方法。
根据问题的具体情况,选择适合的估计方法,如均值估计、比例估计、标准差估计等。
3. 计算样本统计量。
使用选择的估计方法,计算得到样本的统计量,如样本均值、样本比例、样本标准差等。
4. 确定置信水平。
选择适当的置信水平,通常选择95%或99%。
5. 确定临界值。
根据置信水平和样本量,查找临界值。
临界值以正态分布或t分布的分位数形式给出。
6. 计算估计区间。
使用样本统计量和临界值,计算得到估计区间。
估计区间的计算公式根据不同的估计方法而定。
7. 解释估计结果。
根据计算得到的估计区间,给出估计结果的解释。
例如,可以说在95%置信水平下,总体参数的真实值有95%的可能性位于估计区间内。
区间估计的优点是可以提供对总体参数的估计范围,以及估计结果的可信程度。
通过给出一个区间,可以更全面地理解总体参数的不确定性。
但区间估计也存在一定的局限性,例如需要大样本量才能得到较窄的估计区间,对总体分布的假设要求较高等。
因此,区间估计只能提供对总体参数的近似估计,而无法给出准确的参数值。
参数估计-区间估计

2 σ 12 σ 2
25 36 + = + = 5.5 ≈ 2.345 m n 10 12
从而由(2-43)式得 µ1 − µ 2 的置信度为 0.90 的置 信区间是
(19.8 − 24.0 ± 1.645 × 2.345) = ( −8.06, − 0.34)
2 (2)σ 12 = σ 2 = σ 2 ,但σ 2 未知,可构造样本函数
解:依题意取样本函数 T =
X −µ S
2
~ t ( n − 1)
对于给定的α =0.05,由
n
0.05 = 0.025 P{T > λ} = α / 2 = 2 又 n = 15 ,经计算 查 t (14) 分布表,求得 λ =2.145。
1 15 X = ∑ xi = 425.047 15 i =1
时);随机抽取 B 型号的灯泡 7 只,测得平均寿 命为 X B = 980(小时) , 标准离差为 S B = 32(小
时)。设两总体都服从正态分布,并且由生产 过程知,它们的方差相等,求两正态总体均值 差 µ A − µ B 的 0.99 的置信区间。
解:取样本函数 X − Y − ( µ1 − µ 2 ) T= ~ t ( m + n − 2) 1 1 + Sw m n 又由 1 − α = 0.99 , 得 α = 0.01, 查 m + n − 2 = 10, 表得 λ = 3.1693 ,经计算 2 2 ( m − 1 ) S + ( n − 1 ) S 2 A B SW = = 928 m+n−2
信区间是 15 .06 + 0.18) = (14 .88, 15 .24 ) ( 15 .06 − 0.18,
应用数理统计第二章参数估计(3)区间估计

例1 有一大批月饼,现从中随机地取16袋,称得重量(以克 计)如下:506 508 499 503 504 510 497 512 514 505 493 496 506 502 509 496 ,设袋装月饼的重量近似地服从正态 分布,试求总体均值的置信度为0.95的置信区间。 解: 2未知, 1-=0.95, /2=0.025,n-1=15, t0.975 (15) 2.1315 由已知的数据算得 x 503.75, S* 6.2022
n1 (n2 1) S12 12 n1 (n2 1) S12 P F (n 1, n1 1) 2 F (n 1, n1 1) 1 2 /2 2 2 1 / 2 2 2 n2 (n1 1) S2 n2 (n1 1) S2
10
得所求的标准差的置信区间为 (4.58, 9.60)
2.4.3 两个正态总体参数的区间估计
在实际中常遇到下面的问题:已知产品的某一质量指标 服从正态分布,但由于原料、设备条件、操作人员不同,或 工艺过程的改变等因素,引起总体均值、总体方差有所改变, 我们需要知道这些变化有多大,这就需要考虑两个正态总体 均值差或方差比的估计问题。
ˆ a ˆ b} {g(a) T ( X , X ,..., X ; ) g(b)} { 1 2 n
其中g ( x )为可逆的已知函数, T ( X 1 , X 2 ,..., X n ; 况
设总体X~N(,2),X1, X2, …,Xn是总体X的样本,求,2 /2 /2 的置信水平为(1)的置信区间.
求得 的置信水平为(1)的置信区间: ( 2未知)
S S* t1 2 (n 1) or X t1 2 (n 1) X n1 n
参数的点估计与区间估计

d
ln d
L
n i1
xi
1
令
n 0 ,
1 n
n i1
xi
x.
有时用求导方法无法最终确定未知参数的 极大似然估计, 此时用极大似然原则来求 .
例: 设总体 X ~ U [a, b] , ( x1 , x2 ,…, xn ) 为一样本值,
求 a, b 的极大似然估计.
解:
X 的概率密度
1(ba), axb,
P{Xk}CrkCCN SN Skr , 0kmiSn ,r)(
把上式右端看作 N 的函数,记作 L(N; k) .
应取使 L(N; k) 达到最大的N, 作为 N 的极大似然估计.
但用对 N 求导的方法相当困难, 我们考虑比值:
L( N ; k ) (NS)(Nr) L( N 1; k ) N(NrSk)
n
近似为 f (xi;)dxi , 其取值随 而变;
i1
既然在一次抽样中就得到了样本值(x1 , x2 , …, xn) , 因而我们有理由认为: 样本 ( X1 , X2 , …, Xn ) 在 ( x1 , x2 , …, xn ) 旁边取值的概率比较大;
根据“概率最大的事件最可能发生”,我们可取
参数估计又分点估计与区间估计.
§1 参数的点估计
设总体 X 的分布中含未知参数 ,
( X1 , X2 , …, Xn ) 是一样本, 要构造一统计量
(X1,,
Xn)作为
的估计
(
叫做
的点估计量);
对应样本值( x1 , x2 , …, xn ), (x1,, xn) 可作为
的估计值,叫做 的点估计值.
则称( 1 , 2 )是 的置信度(置信水平, 置信概率)为
区间估计的基本原理和步骤

区间估计的基本原理和步骤区间估计是统计推断中的一种方法,用于估计总体参数的区间范围。
其基本原理和步骤如下:一、基本原理:二、步骤:1.确定参数类型和样本分布:在进行区间估计之前,需要明确要估计的总体参数类型,例如均值、方差、比例等。
同时,需要确保样本数据来自一个合理的总体分布,通常假设样本数据满足正态分布。
2.选择置信水平:置信水平表示对于重复抽样所得的区间估计,其中包含总体参数真实值的概率。
常用的置信水平有95%和99%。
选择置信水平时需要考虑实际应用需求和可接受的误差范围。
3.计算标准误差:标准误差是样本统计量与总体参数之间的标准差,可以用来度量估计量的精确程度。
常见的标准误差计算方式包括对均值的标准误、对比例的标准误和对方差的标准误。
4.确定抽样分布:根据中心极限定理,当样本容量足够大时,样本统计量的抽样分布会接近正态分布。
可以利用这个性质来进行参数估计。
5.计算置信区间:根据所选择的置信水平和抽样分布中的临界值,计算出估计参数的上限和下限,形成估计的置信区间。
具体计算方法与总体参数类型相关,如均值的置信区间计算通常基于样本均值和标准误差。
6.解读结果:得到置信区间后,应根据具体情况对结果进行解读和分析。
通常,置信区间越窄,说明估计结果越准确;置信区间不包含需要估计的参数真实值,说明估计结果不准确。
7.检验假设:在一些情况下,需要通过检验假设来验证估计结果的可靠性。
例如,对于均值的区间估计,可以通过假设检验来判断区间估计是否显著不等于一些特定值。
总结:区间估计是统计推断中重要的一种方法,它能够通过样本数据给出总体参数的一个估计区间,并提供了对估计精确性的度量。
在实际应用中,选择合适的置信水平、计算标准误差、确定抽样分布以及解读结果都是关键步骤,需要结合具体问题进行合理的选择和判断。
双正态总体参数的区间估计

双正态总体参数的区间估计双正态总体是指一个总体服从正态分布,且这两个分布的均值和方差都相等。
在双正态总体中,我们常常需要估计总体参数的区间估计,即估计参数的真实值落在哪个区间内。
对于双正态总体的均值μ,我们可以使用Z分数进行区间估计。
假设我们想要在95%的置信水平下估计μ的区间为(a,b),则有:P(μ-a < X < μ+b) = 0.95其中,X是从双正态总体中抽取的样本,a和b是未知的参数。
为了解决这个问题,我们可以利用双正态总体的对称性质,即在均值μ两侧的概率相等。
因此,我们可以使用Z分数的对称性质,得到:P(μ-a < X < μ+b) = 0.975这意味着,在95%的置信水平下,μ的区间为(a,b)的概率为0.975,也就是说,μ的真实值落在这个区间内的概率为0.975。
对于双正态总体的方差σ^2,同样可以使用Z分数进行区间估计。
假设我们想要在95%的置信水平下估计σ^2的区间为(d,e),则有:P(σ2-d < X2 <σ2+e) = 0.95其中,X2是从双正态总体中抽取的样本的方差,d和e 是未知的参数。
同样,我们可以利用双正态总体的对称性质,得到:P(σ2-d < X2 < σ2+e) = 0.975因此,在95%的置信水平下,σ2的区间为(d,e)的概率为0.975,也就是说,σ2的真实值落在这个区间内的概率为0.975。
需要注意的是,对于双正态总体的均值和方差的区间估计,我们需要先确定置信水平和区间长度。
一般来说,置信水平为95%是比较常见的选择,区间长度一般为2倍标准误差。
具体的参数和区间长度需要根据实际情况进行调整。
正态分布参数区间估计

正态分布N (μ,σ)参数区间估计允许μ为任意的实数,σ为任意的正实数。
基于Wolfram Mathematica ,给出了正态分布N (μ,σ)抽样定理,从而得到参数μ,σ2,σ的区间估计。
在σ已知和未知情形下,通过均值分布、中位值分布、卡方分布三种方法估计总体均值μ,区间长度均值分布最短,卡方分布次之,中位值分布最长,但当样本量n 较大时,区间长度趋于接近。
在μ已知和未知情形下,通过卡方分布可以估计总体方差的置信区间,通过卡分布、卡方分布可以估计总体标准差的置信区间。
最后给出不同情形下不同方法的MMA 程序及运行结果。
◼抽样分布定理引理1:X Ν(μ,σ)⇔X -μσΝ 0,1 .转换分布TransformedDistributionX -μσ,X 正态分布NormalDistribution [μ,σ]NormalDistribution [0,1]转换分布TransformedDistribution [μ+X σ,X 正态分布NormalDistribution [],假设Assumptions →σ>0]NormalDistribution [μ,σ]引理2:X χ(ν)⇔X 2 χ2(ν).转换分布TransformedDistribution X 2,X 卡分布ChiDistribution [ν]ChiSquareDistribution [ν]转换分布TransformedDistribution X ,X 卡方分布ChiSquareDistribution [ν]ChiDistribution [ν]引理3:X Ν 0,1 ,Y χ2(n )⇒Xt (n ).=转换分布TransformedDistributionX,{X 正态分布NormalDistribution [],Y 卡方分布ChiSquareDistribution [n ]} ;概率密度函数PDF [ ,x ]==⋯PDF [学生t 分布StudentTDistribution [n ],x ]//幂展开PowerExpand //完全简化FullSimplify [#,n >0&&x ≠0]&True定理1:X i Ν(μ,σ)⇒X -Νμ,σn⇔X --μσnΝ 0,1 .CharacteristicFunction NormalDistribution [μ,σ],t nn;特征函数CharacteristicFunction 正态分布NormalDistribution μ,σn,t ;%⩵%%//完全简化FullSimplify [#,n >0&&n ∈整数域Integers ]&True定理2:X i Ν(μ,σ)⇒ i =1nX i -μσ2=∑i =1n (X i -μ)2σ2χ2(n )⇔σχ(n ).转换分布TransformedDistributionX [i ]-μσ,X [i ] 正态分布NormalDistribution [μ,σ]NormalDistribution [0,1]n =7;=转换分布TransformedDistribution i =1nY [i ]2,数组Array [Y,n ] 联合分布ProductDistribution [{正态分布NormalDistribution [],n }]ChiSquareDistribution [7]定理3:X i Ν(μ,σ)⇒(n -1)S 2σ2χ2 n -1⇔σχ n -1 .令Y i =X i -μσ,则(n -1)S 2σ2=i =1n2=i =1n-= i =1nY i -Y 2= i =1nY i 2-2Y Y i +Y 2= i =1nY i 2-2Y i =1nY i +n Y 2= i =1nY i 2-n Y 2χ2n -1 ⇒σχ n -1 .2 正态分布\\正态分布统计分析\\正态分布参数区间估计.nbn =n0=35;=转换分布TransformedDistribution i =1nY [i ]2-1ni =1nY [i ]2,数组Array [Y,n ] 联合分布ProductDistribution [{正态分布NormalDistribution [],n }] ;Block {n =n0},显示Show 直方图Histogram 伪随机变数RandomVariate ,2×106 ,500,"概率密度函数PDF" ,绘图Plot [⋯PDF [卡方分布ChiSquareDistribution [n -1],x ],{x,5,65},绘图样式PlotStyle →粗Thick ]定理4:X i Ν(μ,σ)⇒X --μSnt n -1 .根据定理1,得X iΝ(μ,σ)⇒X --μσnΝ 0,1 ,根据定理3,得(n -1)S 2σ2χ2 n -1 ,根据引理3,X --μσn=X --μSnt n -1 .定理5:F Xn +12=正则化的不完全贝塔函数BetaRegularized12补余误差函数Erfc-x +μ2σ ,1+n2,1+n 2,n =2k +1.次序分布OrderDistribution {正态分布NormalDistribution [μ,σ],n },n +12;累积分布函数CDF [%,x ]//完全简化FullSimplifyBetaRegularized 12Erfc ,1+n 2,1+n 2推论:μ=x +2σ反互补误差函数InverseErfc 2正规化不完全贝塔函数的逆InverseBetaRegularized q,1+n 2,1+n 2.In[2]:=解方程Solve 正则化的不完全贝塔函数BetaRegularized12补余误差函数Erfc-x +μ2σ ,1+n 2,1+n 2⩵q,μOut[2]=μ→x +2σInverseErfc 2InverseBetaRegularized q,1+n 2,1+n 2定理6:-2 i =1n对数Log12补余误差函数Erfc-X i +μ2σχ2 2n .正态分布\\正态分布统计分析\\正态分布参数区间估计.nb3In[5]:=转换分布TransformedDistribution -2对数Log12补余误差函数Erfc-X +μ2σ,X 正态分布NormalDistribution [μ,σ] ;概率密度函数PDF [%,x ]⩵⋯PDF [卡方分布ChiSquareDistribution [2],x ]//完全简化FullSimplify [#,x >0]&Out[6]=True**参数区间估计**In[7]:=需要Needs ["HypothesisTesting`"]μ0=20;σ0=3;X =伪随机变数RandomVariate [正态分布NormalDistribution [μ0,σ0],10001];n =长度Length [X ];S =标准偏差StandardDeviation [X ];α=0.01;"参数的极大似然估计:"清除Clear [μ,σ]{μ1,σ1}={μ,σ}/.求分布参数FindDistributionParameters [X,正态分布NormalDistribution [μ,σ]]"一、总体均值μ的区间估计""(一)均值分布U =X --μσnN(0,1)——σ已知"σ=σ0;Sw =σn ;m =平均值Mean [X ];"1.计算法"Q =分位数Quantile 正态分布NormalDistribution [0,1],1-α 2 ;{m -Sw Q,m +Sw Q }"2.MeanCI"MeanCI X,KnownVariance →σ2,置信级别ConfidenceLevel →1-α"3.NormalCI"NormalCI [m,Sw ,置信级别ConfidenceLevel →1-α]"区间长度:"L =2Sw Q"相对区间长度:"r =L /m "(二)均值分布T =X -μSnt (n -1)——σ未知""1.计算法"Sw =S n ;m =平均值Mean [X ];Q =分位数Quantile 学生t 分布StudentTDistribution [n -1],1-α 2 ;{m -Sw Q,m +Sw Q }4 正态分布\\正态分布统计分析\\正态分布参数区间估计.nb"2.MeanCI"MeanCI [X,KnownVariance →无None,置信级别ConfidenceLevel →1-α]"3.StudentTCI"StudentTCI [m ,Sw ,n -2,置信级别ConfidenceLevel →1-α]"区间长度:"L =2Sw Q"相对区间长度:"r =L /m"(三)均值近似分布U =X --μσn~N[0,1]——σ未知""1.计算法"σ=σ1;Sw =σn ;m =平均值Mean [X ];Q =分位数Quantile 正态分布NormalDistribution [0,1],1-α 2 ;{m -Sw Q,m +Sw Q }"2.MeanCI"MeanCI X,KnownVariance →σ12,置信级别ConfidenceLevel →1-α"3.NormalCI"NormalCI [m,Sw ,置信级别ConfidenceLevel →1-α]"区间长度:"L =2Sw Q"相对区间长度:"r =L /m"(四)中位值分布F Xn +12=正则化的不完全贝⋯BetaRegularized [12补余误差函数Erfc [-x +μ2σ],1+n 2,1+n2],n =2k +1——σ已知""1.等尾区间:"σ=σ0;x =中位数Median [X ];μL =x +2σ反互补误差函数InverseErfc 2正规化不完全贝塔函数的逆InverseBetaRegularized 1-α 2,1+n 2,1+n 2;μU =x +2σ反互补误差函数InverseErfc 2正规化不完全贝塔函数的逆InverseBetaRegularized α 2,1+n 2,1+n 2;{μL,μU }"等尾区间长度:"L =μU -μL"相对区间长度:"r =2L μU +μL "(五)中位值分布F Xn +12=正则化的不完全贝⋯BetaRegularized [12补余误差函数Erfc [-x +μ2σ ],1+n 2,1+n2],n =2k +1——σ未知""1.等尾区间:"σ=σ1;x =中位数Median [X ];正态分布\\正态分布统计分析\\正态分布参数区间估计.nb5中位数μL =x +2σ反互补误差函数InverseErfc 2正规化不完全贝塔函数的逆InverseBetaRegularized 1-α 2,1+n 2,1+n 2;μU =x +2σ反互补误差函数InverseErfc 2正规化不完全贝塔函数的逆InverseBetaRegularized α 2,1+n 2,1+n 2;{μL,μU }"等尾区间长度:"L =μU -μL"相对区间长度:"r =2L μU +μL"(六)卡方分布-2 i =1n对数Log [12补余误差函数Erfc [-X i +μ2σ]] χ2(2n )——σ已知"清除Clear [μ]σ=σ0;x =-2 i =1n对数Log12补余误差函数Erfc-X i +μ2σ;F =卡方分布ChiSquareDistribution [2n ];μL =μ/.求根FindRoot 累积分布函数CDF [F,x ]==α2,{μ,μ1} ;μU =μ/.求根FindRoot 累积分布函数CDF [F,x ]⩵1-α2,{μ,μ1} ;{μL,μU }"等尾区间长度:"L =μU -μL"相对区间长度:"r =2L μU +μL"(七)卡方分布-2 i =1n对数Log [12补余误差函数Erfc [-X i +μ2σ ]]~χ2(2n )——σ未知"清除Clear [μ]σ=σ0;x =-2 i =1n对数Log12补余误差函数Erfc-X i +μ2σ;F =卡方分布ChiSquareDistribution [2n ];μL =μ/.求根FindRoot 累积分布函数CDF [F,x ]==α2,{μ,μ1} ;μU =μ/.求根FindRoot 累积分布函数CDF [F,x ]⩵1-α2,{μ,μ1} ;{μL,μU }"等尾区间长度:"L =μU -μL"相对区间长度:"6 正态分布\\正态分布统计分析\\正态分布参数区间估计.nbr =2L μU +μL"二、总体方差σ2的区间估计""(一)卡方分布χ2=∑i =1n (X i -μ)2σ2χ2(n )——μ已知"μ=μ0;T =n 平均值Mean (X -μ)2 ;F =卡方分布ChiSquareDistribution [n ];"1.等尾区间:"QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;VL =T QL;VU =T QU;{VL,VU }"等尾区间长度:"L =VU -VL"相对区间长度:"r =2L VL +VU "(二)卡方分布χ2=(n -1)S 2σ2χ2(n -1)——μ未知"T = n -1 S 2;F =卡方分布ChiSquareDistribution [n -1];"1.等尾区间:"QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;VL =T QL;VU =T QU;{VL,VU }"等尾区间长度:"L =VU -VL"相对区间长度:"r =2L VL +VU "(三)卡方分布χ2=∑i =1n (X i -μ )2σ2~χ2(n )——μ未知"μ=μ1;T =n 平均值Mean (X -μ)2 ;F =卡方分布ChiSquareDistribution [n ];"1.等尾区间:"QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;VL =T QL;VU =T QU;{VL,VU }"等尾区间长度:"L =VU -VL"相对区间长度:"r =2L VL +VU"三、总体标准差σ的区间估计""(一)卡分布χ(n )——μ已知"μ=μ0;T =n Mean (X -μ)2 ;F =卡分布ChiDistribution [n ];"1.等尾区间:"正态分布\\正态分布统计分析\\正态分布参数区间估计.nb7QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;σL =T QL;σU =T QU;{σL,σU }"等尾区间长度:"L =σU -σL"相对区间长度:"r =2L σL +σU "(二)卡分布χ(n -1)——μ未知"T =n -1S;F =卡分布ChiDistribution [n -1];"1.等尾区间:"QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;σL =T QL;σU =T QU;{σL,σU }"等尾区间长度:"L =σU -σL"相对区间长度:"r =2L σL +σU "(三)卡分布χχ(n )——μ未知"μ=μ1;T =n Mean (X -μ)2 ;F =卡分布ChiDistribution [n ];"1.等尾区间:"QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;σL =T QL;σU =T QU;{σL,σU }"等尾区间长度:"L =σU -σL"相对区间长度:"r =2L σL +σU "(四)卡方分布-2 i =1n对数Log [12补余误差函数Erfc [-X i +μ2σ]] χ2(2n )——μ已知"清除Clear [σ]μ=μ0;x =-2 i =1n对数Log12补余误差函数Erfc-X i +μ2σ;F =卡方分布ChiSquareDistribution [2n ];σL =σ/.求根FindRoot 累积分布函数CDF [F,x ]⩵1-α2,{σ,σ1} ;σU =σ/.求根FindRoot 累积分布函数CDF [F,x ]⩵α2,{σ,σ1} ;{σL,σU }8 正态分布\\正态分布统计分析\\正态分布参数区间估计.nb"等尾区间长度:"L =σU -σL"相对区间长度:"r =2L σL +σU"(五)卡方分布-2 i =1n对数Log [12补余误差函数Erfc [-X i +μ2σ]] χ2(2n )——μ未知"清除Clear [σ]μ=μ1;x =-2 i =1n对数Log12补余误差函数Erfc-X i +μ2σ;F =卡方分布ChiSquareDistribution [2n ];σL =σ/.求根FindRoot 累积分布函数CDF [F,x ]⩵1-α2,{σ,σ1} ;σU =σ/.求根FindRoot 累积分布函数CDF [F,x ]⩵α2,{σ,σ1} ;{σL,σU }"等尾区间长度:"L =σU -σL"相对区间长度:"r =2L σL +σUOut[11]=参数的极大似然估计:Out[13]={19.9803,3.00134}Out[14]=一、总体均值μ的区间估计Out[15]=(一)均值分布U =X --μσnN(0,1)——σ已知Out[17]=1.计算法Out[19]={19.9031,20.0576}Out[20]=2.MeanCIOut[21]={19.9031,20.0576}Out[22]=3.NormalCIOut[23]={19.9031,20.0576}Out[24]=区间长度:Out[25]=0.154542Out[26]=相对区间长度:Out[27]=0.00773471Out[28]=(二)均值分布T =X -μSn t (n -1)——σ未知正态分布\\正态分布统计分析\\正态分布参数区间估计.nb9Out[29]= 1.计算法Out[32]={19.903,20.0577} Out[33]= 2.MeanCIOut[34]={19.903,20.0577} Out[35]= 3.StudentTCIOut[36]={19.903,20.0577} Out[37]=区间长度:Out[38]=0.154648Out[39]=相对区间长度:Out[40]=0.00774003Out[41]=(三)均值近似分布U=X--μσ n~N[0,1]——σ未知Out[42]= 1.计算法Out[45]={19.903,20.0576} Out[46]= 2.MeanCIOut[47]={19.903,20.0576} Out[48]= 3.NormalCIOut[49]={19.903,20.0576} Out[50]=区间长度:Out[51]=0.154611Out[52]=相对区间长度:Out[53]=0.00773817Out[54]=(四)中位值分布F X n+12=BetaRegularized[12Erfc,1+n2,1+n2],n=2k+1——σ已知Out[55]= 1.等尾区间:Out[59]={19.8529,20.0466} Out[60]=等尾区间长度:Out[61]=0.193686Out[62]=相对区间长度:Out[63]=0.00970872Out[64]=(五)中位值分布F X n+12=BetaRegularized[12Erfc,1+n2,1+n2],n=2k+1——σ未知Out[65]= 1.等尾区间:Out[69]={19.8529,20.0466}Out[70]=等尾区间长度:10正态分布\\正态分布统计分析\\正态分布参数区间估计.nbOut[71]=0.193773Out[72]=相对区间长度:Out[73]=0.00971306Out[74]=(六)卡方分布-2 i =1n Log [12Erfcχ2(2n )——σ已知Out[78]={19.9015,20.0722}Out[79]=等尾区间长度:Out[80]=0.170753Out[81]=相对区间长度:Out[82]=0.00854324Out[83]=(七)卡方分布-2 i =1n Log [12Erfcχ2(2n )——σ未知Out[87]={19.9015,20.0722}Out[88]=等尾区间长度:Out[89]=0.170753Out[90]=相对区间长度:Out[91]=0.00854324Out[92]=二、总体方差σ2的区间估计Out[93]=(一)卡方分布χ2=∑i =1n (X i -μ)2σ2 χ2(n )——μ已知Out[95]= 1.等尾区间:Out[98]={8.68869,9.34535}Out[99]=等尾区间长度:Out[100]=0.656658Out[101]=相对区间长度:Out[102]=0.0728243Out[103]=(二)卡方分布χ2=(n -1)S 2σ2 χ2(n -1)——μ未知Out[105]= 1.等尾区间:Out[108]={8.68917,9.3459}Out[109]=等尾区间长度:Out[110]=0.656728Out[111]=相对区间长度:Out[112]=0.0728279Out[113]=(三)卡方分布χ2=∑i =1n (X i -μ )2σ2~χ2(n )——μ未知正态分布\\正态分布统计分析\\正态分布参数区间估计.nb 11Out[115]= 1.等尾区间:Out[118]={8.68832,9.34495}Out[119]=等尾区间长度:Out[120]=0.65663Out[121]=相对区间长度:Out[122]=0.0728243Out[123]=三、总体标准差σ的区间估计Out[124]=(一)卡分布χ(n )——μ已知Out[126]= 1.等尾区间:Out[129]={2.94766,3.05702}Out[130]=等尾区间长度:Out[131]=0.109358Out[132]=相对区间长度:Out[133]=0.0364242Out[134]=(二)卡分布χ(n -1)——μ未知Out[136]= 1.等尾区间:Out[139]={2.94774,3.05711}Out[140]=等尾区间长度:Out[141]=0.109366Out[142]=相对区间长度:Out[143]=0.0364261Out[144]=(三)卡分布χχ(n )——μ未知Out[146]= 1.等尾区间:Out[149]={2.9476,3.05695}Out[150]=等尾区间长度:Out[151]=0.109355Out[152]=相对区间长度:Out[153]=0.0364242Out[154]=(四)卡方分布-2 i =1n Log [12Erfcχ2(2n )——μ已知Out[158]={2.89486,3.15965}Out[159]=等尾区间长度:12 正态分布\\正态分布统计分析\\正态分布参数区间估计.nbOut[160]=0.264793Out[161]=相对区间长度:Out[162]=0.0874698Out[163]=(五)卡方分布-2 i =1n Log [12Erfcχ2(2n )——μ未知Out[167]={2.86679,3.12718}Out[168]=等尾区间长度:Out[169]=0.260386Out[170]=相对区间长度:Out[171]=0.0868828正态分布\\正态分布统计分析\\正态分布参数区间估计.nb 13。
第4节正态总体参数的区间估计

3
, 给定 ,0 1 , 定义 设是总体的一个未知参数
确定两个统计量
ˆ , ˆ 分别称为置信下限和置信上限. 区间. 1 2
ˆ , ˆ ]为 的 置信水平为 1 的 置信 则称区间 [ 1 2
1.75 1.96 1.96 0.49, n 50
所以 的置信区间为
(4.10 0.49, 4.10 0.49 ) (3.61, 4.59 ) .
10
例3 在上例中 , 为使 的置信水平是 0.95 的置信区间
的长度 L 1.5, 求样本容量 .
, u0.025 1.96, 1.75, 解 0.05
u / 2
x
X | | u / 2 X u / 2 X u / 2 / n n n
于是所求 的置信区间为 ( X u 有时简记为 ( X u / 2
2
n
, X u 2 ), n n
7
).
2 某厂生产滚珠,直径 X 服从正态分布 N ( , ). 例1 为了估计 , 抽检 6 个滚珠, 测得直径为 ( mm) : 14.70, 15.21,14.90,14.91,15.32,15.32,
对给定的置信水平 1 ,
按标准正态分布的 水平双侧分位数的定义,
查正态分布表得 u 2 ,
6
1.
已知时 的置信区间
2
/2
( x)
X U ~ N (0,1) , / n
1
O
/2
X P{ | | u 2 } 1 , n
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可见,确定区间估计很关键的是要寻找 一个待估参数 和估计量T 的函数S(T, ), 且S(T, )的分布为已知, 不依赖于任何未知 参数 (这样我们才能确定一个大概率区间).
而这与总体分布有关,所以,总体分布的 形式是否已知,是怎样的类型,至关重要.
这里,我们主要讨论总体分布为正态 的情形. 若样本容量很大,即使总体分布 未知,应用中心极限定理,可得总体的近 似分布,于是也可以近似求得参数的区间 估计.
X S n ~ t ( n 1)
对给定的置信度1 ,确定分位数t1 2 (n 1), 使 P{| t | t1 2 (n 1)} 1
即 P{| X | t1 2 (n 1)} 1 S n
从中解得
P{ X S n t1 2 (n 1) X S n t1 2 (n 1)} 1
ˆ ˆ
这个不等式就是我们所求的置信区间. 下面我们就来正式给出置信区间的定义, 并通过例子说明求置信区间的方法.
一、 置信区间定义: 设 是 一个待估参数,给定 0, 若由样本X1,X2,…Xn确定的两个统计量 ˆ ˆ ˆ ˆ 1 1 ( X1, X 2 ,, X n ), 2 2 ( X1, X 2 ,, X n ) ˆ ˆ ( ) 满足
1 2
ˆ ˆ P{1 2 } 1 ˆ ˆ 则称区间 [1 , 2 ]是 的置信水平(置信度、 1的置信区间. 置信概率)为
ˆ1和ˆ2 分别称为置信下限和置信上限.
可见, 对参数 作区间估计,就是要设法找出 两个只依赖于样本的界限(构造统计量)
ˆ ˆ 1 1(X1,…Xn)
ˆ2 ˆ2(X1,…Xn)
ˆ ˆ (1 2 )
ˆ ˆ 一旦有了样本,就把 估计在区间 [1 , 2 ] 内. 这里有两个要求:
ˆ ˆ 1. 要求 以很大的可能被包含在区间 [1 , 2 ] ˆ ˆ 内,就是说,概率P{1 2 } 要尽可能大. 即要求估计尽量可靠.
4. 对于给定的置信水平1 ,根据S(T, ) 的分布,确定常数a, b,使得 P(a ≤S(T, )≤b)= 1 5. 对“a≤S(T, )≤b”作等价变形,得到如下 形式: ˆ ˆ P{1 2 } 1
ˆ ˆ 则[1 , 2 ] 就是 的100(1 )%的置信区间.
1 2的一个置信度为1 的近似置信区间
*2 *2 S1 S2 X Y u . 1 / 2 n1 n2
( 3) 1 2 2 , 但 2 为未知,
2 2
1 2的一个置信度为1 的置信区间
1 1 X Y t1 / 2 (n1 n2 2) S w . n1 n2
P{| X
为什么 这样取?
n
| u 2 } 1
对给定的置信水平1 , 查正态分布表得u1 / 2 , 使
P{| X
n
n
| u1 2 } 1
从中解得
P{ X u1 X 1
n1
y 5.7
( n1 1) S ( n2 1) S n1 n2 2
*2 1 *2 2
S
0.64 0.24 11 9 2
0.2211
置信下限
x y t0.975 (18) S
1 n1 1 n1
1 n2 1 n2
0.0912
置信上限
x y t0.975 (18) S
引言
前面,我们讨论了参数点估计. 它 是用样本算得的一个值去估计未知参数. 但是,点估计值仅仅是未知参数的一个 近似值,它没有反映出这个近似值的误 差范围,使用起来把握不大. 区间估计 正好弥补了点估计的这个缺陷 .
譬如,在估计湖中鱼数的问题中,若 我们根据一个实际样本,得到鱼数N的极 大似然估计为1000条.
*2 1 *2 2
I. 两个总体均值差 1 2 的置信区间
(1) 1 和 2 均为已知,
2 2
1 2的一个置信度为1 的置信区间
2 2 1 2 X Y u . 1 / 2 n1 n2
推导过程如下:
因为 X , Y 分别是 1 , 2 的无偏估计, 所以 X Y 是 1 2 的无偏估计,
取 U X
一个良好估计. 置信水平是多少?
n
~N(0, 1)
有了分布,就可以求出 U取值于任意区间的概率.
寻找一个待估参数和 估计量的函数 ,要求 其分布为已知.
对于给定的置信水平(大概率), 根据U的分布, 确定一个区间, 使得U取值于该区间的概率为 置信水平.
对给定的置信水平1 , 查正态分布表得 u 2 , 使
置信区间.
寻找置信区间的方法,一般是从确定 误差限入手.
ˆ 我们选取未知参数的某个估计量 ,根 据置信水平1 ,可以找到一个正数 ,
使得
ˆ P{| | } 1
ˆ 称 为 与 之间的误差限 . ˆ 只要知道 的概率分布,确定误差限并不难.
ˆ 由不等式 | | 可以解出 :
2. 估计的精度要尽可能的高. 如要求区间 长度 ˆ2 ˆ1 尽可能短,或能体现该要求的其 它准则. 可靠度与精度是一对矛盾, 一般是在保证可靠度的条件下 尽可能提高精度.
二、置信区间的求法 例1 设X1,…Xn是取自N ( , 2 )的样本, 2已知, 求参数 的置信度为 1 的置信区间. 解: 选 的点估计为 X 寻找未知参数的 明确问题,是求什么参数的置信区间?
[X
S n
t1 2 (n 1), X
S n
t1 2 (n 1)]即为
均值 的置信水平为 1 的区间估计.
再求方差 的置信水平为 1 的区间估计.
2
对给定的置信度 1 ,确定分位数 2 12 2 (n 1) , 2 (n 1) , 使
1
2
n1
2
2
~ N 0, 1,
n2
于是得 1 2的一个置信度为1 的置信区间
2 2 1 2 X Y u . 1 / 2 n1 n2
( 2) 1 和 2 均为未知,
2 2
只要n1和n2都很大(实用上 50即可), 则有
1
1 , 1 2 )的样本 , Y1 , Y2 , , Yn 为第二 第一个总体 N (
2
2 , 2 2 )的样本 , X , Y 分别是第一、二个 个总体 N ( 总体的样本均值 , S , S 分别是第一、二个总体 的修正样本方差 .两总体相互独立
讨论两个总体均值差和方差比的估计问题.
2
取枢轴量
( n 1) S
2
~ ( n 1)
2
P{ 2 (n 1)
2
(n 1) S
2
2
12 2 (n 1)} 1
从中解得
P{ (n 1) S 2
2 1 2
(n 1)
2
(n 1) S 2
2 (n 1)
2
} 1
P{
(n 1) S 2
2 1 2
(n 1)
2
(n 1) S 2
2 (n 1)
2
} 1
于是 [
(n 1) S 2
2 1 2
(n 1) 2 (n 1)
2
,
(n 1) S 2
] 即为所求.
2、两个正态总体参数的区间估计
给定置信度为 1 , 并设 X 1 , X 2 , , X n 为
实际上,N的真值可能大于1000条, 也可能小于1000条. 若我们能给出一个区间,在此区间 内我们合理地相信 N 的真值位于其中. 这样对鱼数的估计就有把握多了.
也就是说,我们希望确定一个区间,使我 们能以比较高的可靠程度相信它包含真参 数值. 湖中鱼数的真值
[
]
这里所说的“可靠程度”是用概率来度量的, 称为置信概率,置信度或置信水平.
由 X , Y 的独立性及
2 1 , X ~ N 1 , n1 2 2 , Y ~ N 2 , n2
2 2 1 2 , 可知 X Y ~ N 1 2 , n1 n2
或
X Y 1 2
习惯上把置信水平记作1 ,这里 是一个 很小的正数.
置信水平的大小是根据实际需要选定的.
例如,通常可取置信水平1 =0.95或0.9等. 根据一个实际样本,由给定的置信水平,我 ˆ ˆ 们求出一个尽可能小的区间 [ , ],使
1 2
ˆ ˆ P{1 2 } 1 ˆ ˆ 称区间 [1 , 2 ]为 的 置信水平为1 的
其中 S w
2
( n1 1) S
*2 1
( n2 1) S
*2 2
n1 n2 2
,
Sw
Sw .
2
例6机床厂某日从两台机床加工的零件中,分别抽取
若干个样品,测得零件尺寸分别如下(单位:cm): 第一台机器 6.2, 5.7, 6.5, 6.0, 6.3, 5.8 5.7, 6.0, 6.0, 5.8, 6.0 第二台机器 5.6, 5.9, 5.6, 5.7, 5.8 6.0, 5.5, 5.7, 5.5 假设两台机器加工的零件尺寸均服从正态分布,且 方差相等,试求两机床加工的零件平均尺寸之差的 区间估计 ( 0.05)