第三章参数估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章 参数估计
参数估计是推断统计研究的内容之一。

所谓参数估计就是根据样本统计量的数值对总体参数进行估计的过程。

在参数估计中,要涉及概率分布、样本统计值、总体参数以及抽样分布等有关概念,这些概念及理论构成了推断统计的基础。

第一节 参数估计的原理
一、点估计与区间估计的概念
在进行参数估计时,通常有两种方法:一种是点估计,一种是区间估计。

所谓点估计就是用样本统计量的某一具体数值直接推断未知的总体参数。

例如,在进行有关小学生身高的研究中,随机抽取1000名小学生并计算出他们的平均身高为1.45m 。

如果直接用这个1.45m 代表所有小学生的平均身高,那么这种估计方法就是点估计。

所谓区间估计,就是在推断总体参数时,还要根据统计量的抽样分布的特征,估计出总体参数的一个区间,而不是一个数值,并同时给出总体参数落在这一区间的可能性的大小——概率的保证。

在上例中,如果是按区间估计的方法推断小学生的平均身高,则会给出以下的表达:根据样本数据,估计小学生的平均身高在1.4~1.5m 之间,可靠程度为95%,这种估计就属于一个区间估计。

对总体参数进行点估计有一个不足之处,即这种估计方法不能提供参数的估计误差的大小。

对于一个总体来说,它的总体参数是一个常数值,而它的样本统计量却是一个随机变量。

当用一个随机变量去估计一个常数值时,误差是不可避免的,只用一个样本数值去估计总体参数是要冒很大风险的,因为这种误差风险的存在,并且风险的大小还未知,所以,点估计主要为许多定性研究提供一定的参考数据,或是对总体参数要求不精确时使用,而在需要精确总体参数的数据进行决策时则很少使用。

二、点估计—最小二乘法原理
对总体参数进行点估计常用的方法有三种:矩估计法、最小二乘法和最大似然估计法。

这里主要介绍最小二乘法原理。

最小二乘法是参数估计常用的方法之一。

其基本思想是保证由新估参数得到的理论值与观测值间离差的平方和值为最小。

要想使离差平方和Q 为最小,可通过求Q 对待估参数的偏导数,并令其等于0,以求得参数估计值。

例如,如何用最小二乘法求总体平均值呢?若从平均数为μ的总体中抽取样本为1y 、
2y 、3y 、…、n y 。

总体平均数μ的最小二乘估计量就是使i y 与估计值μ
ˆ间的离差平方和为最小,即
()∑=-=n
i i y Q 1
2
ˆμ
为最小。

为获得其最小值,求Q 对μ的导数,并令导数等于0,可得:
()0ˆ21
=--=∂∂∑=n
i i y Q
μ
μ
可变为:
0ˆ1
=-∑=μ
n y
n
i i
即总体平均值的估计量为:
∑==n
i i y n 1
1ˆμ
三、区间估计的原理 1.置信区间的定义
设θ是待估的总体参数,α为小于1大于0的数值,如果由样本确定的两个统计量L θ和
U θ满足
()αθθθ-=1U L P (3.1)
就称随机区间()U L θθ,是置信度为α-1的θ的置信区间。

L θ和U θ分别称为置信度为α-1的置信下限和置信上限,α-1称为置信度。

由置信区间的定义可知,L θ和U θ是两个随机变量(样本统计量)。

因此,由L θ和U θ确定的置信区间也是一个随机区间,即置信下限L θ和置信上限U θ是不确定的。

在这些所有可能的随机区间中,包含参数θ真值的约占)%1(100α-个;不包含参数θ真值的约占%100α个。

在第一节中曾估计的小学生的平均身高是在1.4m 和1.5m 之间,可靠程度为95%。

现在可以用公式(3.1)的形式将以上的叙述表达出来,即:
()95.05.14.1= μP
式中的μ表示小学生的平均身高,(1.40,1.50)是置信区间,0.95是置信度,1.4m 和1.5m 分别是置信下限和置信上限。

在上面的定义中,对于未知参数给出了两个统计量L θ和U θ,这样得到的置信区间为双侧置信区间,α被分为对称的两侧,两侧各是
2
α
的概率,如图3.1。

但在有些情况下,只关
图3.1 置信度为α-1的置信区间
心总体参数的某一侧界限。

例如,对于粮食产量,生产者只关心其寿命的下限,对其上限则希望越高越好;而对于成本、费用等只关心其上限,对下限却不关心。

由此,在参数估计时,还有只估计参数单一界限的区间,称为单侧置信区间。

对于给定的值10 α,如果统计量L θ满足
()αθθ-=1L P (3.2) 则称随机区间()+∞,L θ是θ的置信度为α-1的单侧置信区,L θ称为单侧置信下限。

如果统计量U θ满足
()αθθ-=1U P (3.3)
则称随机区间()U θ,∞-是θ的置信度为α-1的单侧置信区,L θ称为单侧置信上限。

如图3.2,(a )图表示单侧置信上限,(b )图表示单侧置信下限。

图3.2 (a )单侧置信上限 图3.2 (b )单侧置信下限
2. 区间估计原理
以估计总体参数为例,说明区间估计的原理。

设总体(
)2
,~σ
μN X ,2
σ
已知,估计μ的置信度为α-1的双侧置信区间。

从总体
中随机抽取样本容量为n 的样本,均值为X 。

已知均值X 服从于⎪⎪⎭

⎝⎛n N X 2,~σμ,经变换
可知随机变量
()1,0~N n
X σμ
- (3.4)
已知给定置信度为α-1,则随机变量落在⎪⎪⎭
⎫ ⎝

-2
2
,ααZ Z 区间的概率为
ασμαα-=⎪⎪⎭

⎝⎛--122Z n X Z P (3.5) 经变换可得 ασμσ
α
α
-=⎪⎪

⎫ ⎝
⎛+-12
2
n Z X n
Z X P (3.6) 即为
μ的置信度为α-1的双侧置信区间。

其中n
Z X σ
α
2
-为μ的置信下限,
n
Z X σ
α
2
+为μ的置信上限。

为简化,公式(3.6)也可记为
n
Z X σ
α
2
± (3.7)
由公式(3.6)可知,当样本抽出后,μ的置信区间可由X 给出。

这时该式的含义是:该区间包含μ的可信程度为()%1100α-。

通过确定区间估计的过程,可以归纳出推断某一待估参数θ置信区间的具体步骤:
(1)找到一个包含θ的且不包含任何其它未知参数的已知抽样分布的随机变量,如
()1,0~N n
X σμ
-;
(2)根据给定的α-1,在抽样分布中确定两个(单侧置信区间是一个)临界点;如
⎪⎪⎭

⎝⎛
-22,ααZ Z 并使该统计量满足以下形式 αα
α-=⎪⎪⎭


⎛-122Z Z Z p
(3)将上面等式中进行等价变换,得到
()αθθθ-=1U L p
即为θ的置信度为α-1的双侧置信区间。

3. 置信度与置信区间的关系 在估计总体参数时,一般都会给出一个较高的置信度,如95%或99%等。

但是,在样本容量n 为一定时,置信度越高,置信区间的范围越大,估计的参数相对精度就会越低。

反之,置信度越低,则精度相对就会越高。

例如,在公式(3.6)中,如果95.01=-α,05.0=α,查表得96.12
05.0±=±Z ;如果90.01=-α,1.0=α,查表得64.12
1.0±=±Z 。

可见置信
度越高,临界点的数值就会越大,从而使n
Z X σ
α
2
±就会变大,使μ的估计精度下降。


决这一矛盾的方法就是增加样本容量n ,通过n 的增加可以使n
σ
减小,使μ估计精度提高。

第二节 总体参数的区间估计
本节主要介绍两种总体参数的区间估计方法,即总体均值μ和总体方差2
σ。

一、一个总体均值的区间估计
(一)大样本()30≥n 条件下的区间估计
当样本容量为大样本时,根据中心极限定理可知,X 的抽样分布以正态分布为极限,此时可以不用考虑总体的分布形式,估计时,根据总体标准差σ是否已知分为两种形式:
1.σ已知,μ的置信度为α-1的置信区间为
n
Z X σ
α
2
± (3.8)
2. σ未知,μ的置信度为α-1的置信区间为
n
S Z X 2
α
± (3.9)
如果是有限总体,且是非重复抽样,要使用有限修正因子来修正估计平均误差,如考虑修正因子,则公式(3.8)、(3.9)可以改写为
1
2
--±N n
N n Z X σ
α
(3.10) 1
2
--±N n
N n
S Z X α
(3.11)
例3.1,某大学随机抽取学生100人,得知他们平均每天用于体育锻炼的时间为26min 。

根据以往数据知道,该大学大学生每天体育锻炼时间的标准差为12min 。

试求该大学大学生每天体育锻炼时间的置信区间,置信度为95.45%。

解:已知:26=X ,100=n ,12=σ,由%45.951=-α,得0455.0=α。

该大学虽为有限总体,但N 未知,可看为无穷大,故不用考虑修正因子。

查表3,可得
22
0455.02
==Z Z α,则μ的置信区间为
()4.28,6.23100
122262
=⨯
±=±n
S Z X α
即该大学的大学生每天体育锻炼的时间在23.6~28.4min 之间的可靠程度为95.45%。

例3.2,在上例中,如果已知该大学全部学生为1800人,其他已知同例3.1。

试求该学院学生平均每天体育锻炼时间的置信区间。

解:与上例不同的是,总体人数为1800=N ,且
05.0056.0 =N
n
,因此需要有限修正因子修正。

则μ的置信区间为
()3.28,7.2311800100
1800100
1222612
=--⨯±=--±N n N n S Z X α
即该大学学生平均每天用于体育锻炼的时间在23.7~28.3min 之间的可靠程度为
95.45%。

对例3.1和例3.2估计的平均每天锻炼时间的结果作一比较,可以看出,在同样条件下使用修正因子可以提高估计的精度。

(二)小样本()30 n 条件下的区间估计
当30 n 时,总体分布对X 的抽样分布有很大影响。

如果总体服从正态分布,则X 服从正态分布;如果总体不服从正态分布,则X 的抽样分布很难判断。

因此仅介绍总体服从正态分布时,均值μ的区间估计。

1. σ已知,μ的置信度为α-1的置信区间为
n
Z X σ
α
2
±
2. σ未知,μ的置信区间的估计 对于正态分布,当30 n 时,可以证明
()1~--n t n
S X μ
(3.12)
式中表示随机变量
n
S X μ
-服从自由度为1-n 的t 分布。

由参数区间估计的确定步骤可以将公式(3.12)转换为μ的置信区间的形式,即
()()αμ
αα-=⎪
⎪⎪⎪

⎫ ⎝⎛----11122n t n S X n t P (3.13) 得()()αμαα-=⎪⎪⎭

⎝⎛-+--11122n S n t X n S n t X P 简写为
()⎪⎪⎭
⎫ ⎝⎛-±n S n t X 12α (3.14) 例3.3,从某公司生产的一批罐装产品中,随机抽取10罐产品,测得每罐的质量分别为318,320,322,321,321,323,319,320,320,324(单位:g )。

要求以95%的置信度,估计该公司这批产品平均质量的置信区间(已知罐装质量服从正态分布)。

解:由于是从正态总体中抽取小样本的问题,N 未知,可以不考虑修正因子。

总体方差未知,需要根据样本数据计算X 及S 。

8.32010
3208
==
=
∑n
X X ()
814.11
106
.291
2
≈-=
--=
∑n X X S
又已知95.01=-α,05.0=α,查附表4可得()()262.211012
05.02
=-=-t n t α,则μ的置信区间为
()()30.18.32010814.1262.28.32012±=⎪⎪⎭⎫ ⎝⎛±=⎪⎪⎭⎫ ⎝
⎛-±n S n t X α 即()1.322,5.319。

即该批产品的平均质量为319.5至322.1g 之间,可靠程度为95%。

在例3.3中,如果只关心产品质量的下限是否达到标准,则可以只对平均质量的单侧置信下限进行估计。

假设其他条件与例3.3相同,已知
()1~--n t n
S X μ
,根据单侧置信下限的定义可得
()αμα-=⎪
⎪⎪⎪⎭
⎫ ⎝⎛--11n t n S X P 经整理可得
()αμα-=⎪⎪⎭⎫

⎛⨯--11n S n t X p (3.15)
将数据代入公式中,即有
()95.010814.11108.32005.0=⎪⎪⎭⎫ ⎝
⎛⨯--t p μ
查附表,833.1)9(05.0=t ,代入上式可得
()95.08.319= μp
即在95%的可靠程度下,估计该批产品平均质量的下限为319.8g 。

二、两个总体均值之差的区间估计
对两个总体进行推断必须考虑样本数据的来源。

如果是从两个相互之间没有影响的样本中得到的数据,称之为来自独立样本;如果一个样本的数据与另一个样本的数据是成对出现(或相互影响),则称之为来自配对样本或匹配样本。

在总体参数估计中,对来自独立样本还是来自配对样本,所使用的方法是有所区别的。

本节中,只介绍来自两个独立样本的估计问题。

1.1σ,2σ已知的正态总体
设有两个总体(
)
2
111,~σμN X ,(
)
2
222,~σμN X ,1μ,2μ未知,21σ,2
2σ已知;1n ,
2n 为来自两个独立样本的样本容量;1X ,2X ,1S ,2S 分别两个样本的统计量。

根据抽
样分布理论及正态分布的线性可加性原理,可以证明
⎪⎪⎭⎫ ⎝
⎛+--22
2
1212121,~n n N X X σσμμ (3.16) 经变换得
()()
()1,0~2
22
1
2
1
2121
N n n X X
σ
σ
μμ+
---
由参数置信区间的确定步骤即可得到21μμ-的置信度为α-1的置信区间,即
2
22
1
2
12
21n n Z X X σσα
+
±- (3.17)
2.1σ,2σ未知,但假定21σσ=的正态总体 (1)当21σσ=但未知,且1n ,2n 皆小于30时,有
()()()2~212
2122121
-++---n n t n S n S X X
P
P
μμ (3.18)
式中,()()2
11212222112-+-+-=
n n S n S n S P
(3.19)
按确定置信区间的步骤,可得21μμ-的置信度为α-1的置信区间为
()()⎪⎪⎭
⎫ ⎝⎛
+-+±-22122
12212n S n S n n t X X P P α (3.20)
(2)当21σσ=但未知,且1n ,2n 皆大于30时,则21X X -近似于正态分布。

所以,只需用1S ,2S 分别代替1σ,2σ,仍然用正态分布确定21μμ-的置信度为α-1的置信区间,即为
2
2
2
1212
21n S n S Z X X +±-α
(3.21) 3.301≥n 且302≥n 的任何总体 根据中心极限定理,可知1X 和2X 的抽样分布都服从正态分布,则21μμ-的置信度为
α-1的置信区间同前述的第一种情况。

例3.4,分别在城市1和城市2中随机抽取4001=n ,4002=n 的职工进行调查,经计算两城市职工的平均月收入及标准差分别为16501=X 元,2301=S 元,24852=X 元,
4822=S 元。

求两城市职工平均月收入的99%的置信区间。

解:本例属于大样本推断,因此可不考虑总体分布。

故21μμ-的置信区间适合公式(3.21)。

已知99.01=-α,01.0=α。

查附表2得57.22
01.0=Z 。

将数据代入公式(3.21)中,
即得21μμ-的99%置信度的置信区间为
500
48240023057.2248516502
222
21212
21+⨯±-=+±-n S n S Z X X α
即 ()21.772,79.897-- 即估计城市1与城市2职工平均月收入在99%的置信度下,相差772.21元至897.79元
之间。

三、正态总体方差的置信区间
1.一个总体方差的置信区间
如果(
)2
,~σ
μN X ,从中抽取样本容量为n 的样本,其方差为2
S
,则有
()()1~122
2
--n S n χσ (3.22)
这个统计量中只含有未知参数2
σ,所以可以根据给定的置信度及样本特征值,确定2
σ
的置信区间。

下面给出置信度为α-1的2
σ的双侧置信区间。

因为随机变量()2
21σ
S n -服从自由度为
1-n 的2χ分布,所以有
()()()αχσχαα-=⎭
⎬⎫⎩⎨⎧----11112
222221n S n n P 经过变换,得
()()()()αχσχαα-=⎪⎭
⎪⎬
⎫⎪⎩⎪⎨⎧-----
111112212
2222n S n n S
n P (3.23) 即2
σ的置信度为α-1的双侧置信区间为
()()()()⎪⎪⎪


⎝⎛-----11,112212222n S n n S n α
αχχ (3.24) 总体标准差σ的双侧置信区间为
()()()()⎪⎪⎪⎪⎭

⎝⎛-----11,1122122
22
n S n n S n ααχχ (3.25)
例3.5,对某乳品厂生产的袋装鲜奶质量进行测量。

随机抽出20袋,测得每袋平均质量
为250.8g ,标准差为1.25g 。

已知每袋质量服从正态分布,求σ的置信度为90%的置信区间。

解:由题中可知,8.250=X g ,25.1=S g ,20=n 。

因为总体服从正态分布,所以
可以根据公式(3.25)估计σ的置信区间。

已知9.01=-α,1.0=α。

查2
χ分布表,得()144.3019221.0=χ,()117.10192
2
1.01=-χ,将数据公式代入(3.25)中,得σ的置信区间

()()⎪⎪⎭
⎫ ⎝⎛--117.1025.1120,114.3025.112022 即 ()713.1,992
.0 则每袋鲜奶质量的标准差在0.992g 至1.713g 之间,可靠程度为90%。

相关文档
最新文档