李洁 指数分布总体的参数估计及应用讲解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高等教育自学考试
毕业论文
指数分布总体的参数估计及应用
Parameter estimation and application of exponential
distribution
李洁
Li jie
专业:数学与应用数学
主考学校:兰州大学数学与统计学院
准考证号: 432412205023
指导教师姓名职称:牛明飞
甘肃省高等教育自学考试办公室印制
年月日
目录
摘要 (1)
引言 (1)
1指数分布总体的参数估计 (2)
1.1指数分布的概念 (2)
1.2极大似然估计法 (3)
2指数分布总体的应用 (6)
2.1概率与生活的关系 (6)
2.2分布总体的概念 (7)
2.3指数分布与生活 (7)
2.4 指数分布的具体应用 (8)
参考文献 (11)
指数分布总体的参数估计及应用
摘要
随着科学技术的迅猛发展和人类文明的不断进步,数学这门古老而传统的学科正在越来越显示出它的强大威力和实用价值。
作为数学的一个年轻的分支,概率统计更是如此。
在我们的生活中概率统计可以说是无处不在,大到国家预算、小到家庭生活中都有。
在概率论中,指数分布是可靠性工程中一种有用的失效分布,还被常用于描述伺服机构、车辆、电子产品等的寿命,运用十分广泛。
指数分布不仅在生产实践中有广泛的应用,而且在科学研究中有极其重要而特殊的作用。
估计问题是统计学的基本问题之一,其中的极大似然估计法是一种理论上较为优良、应用范围较为广泛的估计方法,因而在数理统计的参数估计中占有极为重要的地位。
关键字:指数分布;极大似然估计;寿命分布;指数分布总体
引言
概率统计中有许多重要的分布。
比如正态分布、泊松分布、几何分布、卡方分布等。
其中指数分布就是最重要的分布之一。
指数分布由于形式简洁、性质良好,所以经常被应用在各个领域。
指数分布函数的一个重要特征是无记忆(Memoryless Property,又称遗失记忆性)。
估计问题是统计学的基本问题之一。
在许多情形中,我们已经对总体的分布形式有所了解,但对分布中的参数缺乏认识,需要通过样本信息对参数进行判断。
设总体X服从F()θ,x,其中θ为未知参数,如何通过样本信息来估计θ,这类问题即是参数参数估计问题。
在概率论中,已经涉及到参数估计。
如捕鱼问题,需要估计鱼池中鱼的总条数N,而N正是超几何分
μ,通过抽布中的参数。
又如一次合格的考试,学生成绩应当服从正态分布N)
,σ
(2
μ亦是参数估计的问题。
在生存分析和保障样,如何利用样本信息来估计参数2
,σ
精算中,指数分布就是一种重要的参数模型,既然指数分布如此重要,那就有必要对它进行详细的研究。
同时指数分布由于只有一个参数,所以对这个唯一参数的估计问题也显得非常重要了。
本文就是对指数分布的一些特殊问题进行了较为
深入的研究,并在若干情形下对指数分布唯一的参数进行了估计。
在概率论中,有一种估计参数的方法叫极大似然估计法。
即大概率事件在一次试验中几乎必然发生,反过来理解,一次试验就发生的事件往往可以理解为大概率事件。
上面提到的捕鱼问题,正是用这样的思想和方法求出了鱼池中的总数N,这种方法正体现了极大的思想。
所谓极大似然法,就是以最大的概率来保证估计的正确性的统计估值方法。
1指数分布总体的参数估计
1.1指数分布的概念
设随机变量的分布密度函数为
⎝
⎛≤>=-0,00,)(X x e x P x λλ )0(>λ 则称ξ服从参数为λ的指数分布。
指数分布也是概率统计中的一类重要分布,不仅在生产实践中有广泛应用,而且在科学研究中有极其重要的作用,关键在于它具有“无记忆性”。
设随机变量ξ服从参数为λ的指数分布,则对于任意的s>0,t>0,有
{}{}{}s P t s P s t s P ≥+≥=≥+≥ξξξξ|)
(1)(1s F t s F -+-= ===--+-t s t s e e
e λλλ)
({}t P ≥ξ 如果把 ξ理解为寿命,则上式表明,无论某种产品被使用了多长一段时间s,只要还没有损坏,它能再使用一段时间t 的概率与一件新产品能使用到时间t 的概率一样,即这种产品是“永远年轻”的。
这一点也说明以指数分布作为寿命分布是有缺陷的。
尽管如此,在很多场合人们还是愿意采用这种易于计算的分布作为产品使用寿命的模型。
例1.一个使用了t 小时的热敏电阻在t ∆内失效的概率是)(t t ∆+∆ολ。
设该
热敏电阻的使用寿命是连续行随机变量,求该热敏电阻的使用寿命分布。
解:用ξ表示该热敏电阻的使用寿命,要求的是{
}x P x F ≤=ξ)( 由题意得
{}{}{}
)(|t t t P t t t P t t t t P ∆+∆=≥∆+<=≥∆+≤<ολξξξ 即 0),()
(1)()(≥∆+∆=--∆+t t t t F t F t t F ολ 其中)()(1t F t F =-称为ξ的生存函数。
完全类似地,对于t>0,当0>∆-=t t s 时,有 {}t t t t t P t t F t t F t F ∆->≤<∆-=∆--∆--ξξ|)(1)()(
{
})(|t t s t s s P ∆+∆=>∆+≤<=ολξξ 于是对上面两式,均除以t ∆,在令0→∆t ,得 0,)
()(≥='t t F t F λ 两端积分得t ce t F λ-=)(,t 为常数。
再利用1)0(==c F ,立即可得,t e t F λ-=)(,于是0,1)(≥-=-t e t F t λ。
求导后得密度函数
⎩⎨⎧<≥=-0,
00,)(x x e x P x λλ 即为指数分布。
1.2极大似然估计法
极大似然估计法是建立在极大似然原理基础上的一种统计方法,它最早是由高斯(C.F.Gauss )提出的,后来费舍尔(R.A.Fisher )重新提出,并且证明了这个方法的一些性质。
极大似然原理的基本原理的基本思想是:一个随机试验有若干个可能的结果
A,B,…,若在一次试验中,结果A 出现,则一般认为试验条件对A 出现有利,也即A 的出现概率很大。
下面我们对总体分别为离散型和连续型两种情况来阐述极大似然估计法的具体思想。
设X 是离散型总体,总分布律为);(θx f ,其中Θ∈θ(Θ为可能取值的范围)为未知参数。
n x x x ,...,,21是来自总体的一个样本,);(~θx f x i ,则n x x x ,...,,21的联合分布律为
∏=n
i i x f 1);(θ 设n x x x ,...,,21为样本的一组观测值,则样本n x x x ,...,,21的概率是
{}∏=====n
i i n n x f x X x X x X P 12211);(,...,,θ 上式是关于θ的函数,我们用)(θL 来表示,则有
Θ∈==∏=θθθθ,);(),...,,;()(121n i i n x f x x x L L
这一概率随θ的变化而变化,把)(θL 称作样本的似然函数。
依据极大似然原理,我们有以下直观的想法:既然样本能取到观测值n x x x ,...,,21,则说明样本n x x x ,...,,21的概率比较大,因此我们只要在Θ中
选取的)(θL 达到极大值的参数θ
ˆ,作为θ的估计值。
即取θˆ使得 ),...,,;(),...,,;ˆ(2121max n n x x x x x x L θθθΘ∈=
这样得到的θˆ的值与样本的观测值n x x x ,...,,21有关,记为),...,,(ˆ21n x x x θ
称为参数θ的极大似然估计量。
若X 是连续型总体,其概率密度函数为f(x; θ),其中Θ∈θ(Θ为θ可能的取值范围)为未知参数,n x x x ,...,,21为来自总体的一个样本,);(~θi i x f x ,则n x x x ,...,,21的联合概率密度函数为
∏=n
i i x f 1);(θ 设n x x x ,...,,21为样本的一组观测值,于是n x x x ,...,,21落入观测值n x x x ,...,,21的邻域内的概率近似为
i n
i i x x f ∆∏=1);(θ 它是θ的函数。
既然n x x x ,...,,21在一次抽样中出现,当然可以认为样本n x x x ,...,,21落到n x x x ,...,,21的邻域的概率比较大,所以我们在Θ中找出使得
i n i i x x f ∆∏=1);(θ达到极大值θ的值),...,,(ˆ21n x x x θ。
由于i x ∆是不依赖于θ的增
量,所以只需求出使得Θ∈==∏=θθθθ,);(),...,,;()(121n
i i n x f x x x L L 达到极大
值的),...,,(ˆ21n x x x θ
作为θ的估计值,便可得到θ的极大似然估计。
由此,求极大似然估计量的问题就归结为微分学中求极大值的问题。
在很多情况下,如果);(θx F 关于θ可微,利用微积分的知识,这时θ
ˆ可通过方程
0)(=θ
θd dL 求得。
在实际计算中,往往通过求)(ln θL 的极大值点来求θ
ˆ,这是因为函数)(ln θL 与)(θL 有相同的极值点,故令
0)(ln =θ
θd L d 求出θ
ˆ即为θ的极大似然估计。
例2 设总体X 服从参数为λ的指数分布,试求参数λ的极大似然估计。
解: 由题设,X 的密度函数为
⎝
⎛≤>=-.0,00,),(x x e x f x λλλ 对于一组样本观测值n x x x ...,,
,21,当x>0时, 有 x n n i n ni e e L αλλλλ-=-∏==1)( x n nInL InL λλ-=)(
令 0)(=-=x n n d dInL λ
λλ 解得 x x n
n i i 1ˆ1==∑=λ
由此得到λ的极大似然估计为x
1ˆ=λ。
2指数分布总体的应用
2.1概率与生活的关系
在自然界和现实生活中,一些事物都是相互联系和不断发展的。
在它们彼此间的联系和相互发展中,根据它们是否有必然的因果关系,可以分成两大类:一类是确定性现象,指在一定条件下,必定会导致某种确定的结果。
如,在标准大气压下,水加热到100摄氏度,就必然会沸腾。
事物间的这种联系属于必然性的。
另一类是不确定的现象,这类现象在一定条件下的结果是不确定的。
例如,同一个工人在同一台机床上加工零件若干个,它们的尺寸总会有一定的差异。
又如,在同样条件下,进行小麦品种的人工催芽试验,各颗种子的发芽情况也不尽相同有强弱和早晚之别等。
为什么在相同的情况下,会出现这种不确定的结果呢?这是因为,我们说的“相同条件”是指一些主要条件来说的,除了这些主要条件外,还会有许多次要条件和偶然因素是人们无法事先预料的。
这类现象,我们无法用必然的因果关系,对现象的结果事先做出确定的答案。
事物间的这种关系属于偶然性的,这种现象叫做偶然现象,或者叫随机现象。
概率,简单的说,就是一件
事发生的可能性大小。
2.2分布总体的概念
在数理统计中,我们把研究对象的全体组成的集合称为总体或母体,而把组成总体的每一个元素称为个体。
比如,某地区的成年男子组成总体,每一个男子则是一个个体,灯泡厂生产的全部灯泡组成一个总体,而每一个灯泡则是一个个体。
这里,总体和个体仅仅是一种笼统的、直观的描述,按这种说法,总体中的每个个体都是具体的实物,然而在实际问题中,人们关心的往往不是这些实物本身,而是它的某些数量指标。
例如,产品中杂质的含量、成年男子的身高或体重、灯泡的寿命照明度等等。
当总体确定下来以后,我们所关心的这些指标的数值因个体的不同而不同,其值是不确定的。
因此,这些指标实际上表现为随机变量,为了讨论的方便,我们通常把研究对象的数量指标可能取值的全体看成总体。
这样一来,一个总体即是一个随机变量,总体可能取值范围内的每个实数便代表一个个体。
目的在于将研究对象的特点和变化规律弄清楚,实际上也就是把总体的分布函数弄清楚。
对于有效的抽样方法而言,抽出的个体应能“代表”总体。
要保证代表性,只要保证按随机原则进行抽样就行了;既然抽样是随机进行的,抽取一个个体相当于一次随机实验。
不难想象,由于抽取的个体不确定,实验结果也是不确定的,其结果完全依赖于被抽取的个体,相应与这个随机实验,我们可以定义一个随机变量1X ,抽到的个体的具体值就是1X 的一个取值,显然随机变量1X 与总体X 具有
相同的分布函数,这种同分布性无疑可保证抽样的“代表性”。
2.3指数分布与生活 在概率论和统计学中,指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔,中文维基百科新条目出现的时间间隔等等。
指数分布经常用来描述“寿命”类随机变量的分布,例如家电使用寿命,动植物寿命,电话问题里的通话时间等等。
在电子元器件的可靠性研究中,通常用于描述对发生的缺陷数或系统故障数的测量结果。
这种分布表现为均值越小,分布偏斜的越厉害。
指数分布应用广泛,在日本的工业标准和美国军用标准中,半导体器件的抽验方案都是采用指数分布。
此外,指数分布还用来描述大型复杂系统(如计算机)的故障间隔时间的失效分布。
但是,由于指数分布具有缺乏“记忆”的特性,因而限制了它在机械可靠性研究中的应用。
所谓缺乏“记忆”,是指某种产品或零件经过一段时间0t 的工作后,
仍然如同新的产品一样,不影响以后的工作寿命值,或者说,经过一段时间0t 的工
作之后,该产品的寿命分布与原来还未工作时的寿命分布相同。
“寿命”类分布的方差非常大,以致于已经使用的时间是可以忽略不计的。
例如有一种电池标称可以充放电500次(平均寿命),但实际上,很多充放电次数数倍于500次的电池仍然在正常使用,也用很多电池没有使用几次就坏了——这是正常的,不是厂方欺骗你,是因为方差太大的缘故。
随机取一节电池,求它还能继续使用300次的概率,我们认为与这节电池是否使用过与曾经使用过多少次是没有关系的。
显然,指数分布的这种特性,与机械零件的疲劳、磨损、腐蚀、蠕变等损伤过程的实际情况是完全矛盾的,它违背了产品损伤累积和老化这一过程。
所以,指数分布作为机械零件功能参数的分布形式是有缺陷的。
指数分布虽然不能作为机械零件功能参数的分布规律,但是,它可以近似地作为高可靠性的复杂部件、机器或系统的失效分布模型,特别是在部件或机器的整机试验中得到广泛的应用。
在实际中,某系统中连续发生两次故障之间的时间间隔、飞机在机场上空等待降落的时间均可用指数分布来描述。
指数分布在排队论和可靠性理论中占有重要地位。
有人戏称服从指数分布的随机变量是“永远年轻的”,一个60岁的老人与一个刚出生的婴儿,他们能够再活十年的概率是相等的,你相信吗?——如果人的寿命确实是服从指数分布的话,回答是肯定的。
2.4 指数分布的具体应用
邓培德等提出,我国短历时暴雨用非年最大值法选样时,其超过概率符合下面的两参数指数分布
)(b x a k e p --= (1) 重现期
)(b x a E e T -= (2)
由于根据样本资料用矩法估计参数计算误差太大,邓培德等人建议按传统的做法,以重现期为自变量,雨强为因变量,用最小二乘方方法估算参数。
为此对
式(2)两边取对数后求得
b T a x E +=log (3) 由
∑-2)(x x i
为最小条件得
⎪
⎭
⎪
⎬⎫
-=--=
E K E E K T x b T T T x T x a log )(log log log log 2
2
(4)
式中 X ——雨强
k P ——非年最大值法选样的频率 E T ——重现期 e ——自然对数的底
b a ,,α——参数,α/3026.2=a 各符号上面的横线表示其平均值。
前面的指数分布形式表明,雨强为自变量,超过概率为因变量;而当用最小二乘方方法估计该指数分布的参数时,将超过概率作为自变量,雨强作为因变量。
根据相关分析理论,这一传统方法尽管满足了=-∑=n
i i x x 12)(最小的条件,但由此估计出的参数a 、b ,只是式(3)雨强x 倚重现期E T 与x 完全相关,即实测雨强及用经验式估算的超过概率,没有测量和抽样的误差,点(i E i T x ,)严格位于
)(b x a E e T -=曲线上。
“事实上,水文实测值是我们在一个按一定次序排列的样本中具有的唯一现实值。
因此在最优化方法中,水文数量大小应该作为自变量,而这个自变量所对应的平均重现时段才是要加以估计的,故重现期必须作为因变量。
”因此,应该由E T (或k P )倚X 的相关来估计参数x,a 和b 。
据此提出下面的估计方法 。
设雨强x 的某次观测值为i x ,由重现期公式估计的与该雨相对应的重现期Bi T ,由于Bi T 是由估计而得到的,显然它具有比实测雨强i x 大得多的误差。
Bi T 与发布曲线的离差为
)
(b x a Ei E Ei Bi t e
T T T T --=-=∆
根据回归分析理论,欲使曲线对观测点),(Ei i T x 的拟合最佳,必须使离差Ei T ∆ 的平均和为最小,即
∑∑=-==-=
∆=
n
t
b x a Ei n
t
Ei t e
T T U 1
2
)(2
1
min
][)(
欲使上式取最小值,须使
⎪⎪
⎭
⎪⎪
⎬⎫=--=∂∂=---=∂∂∑∑=--=--n
i i b x n b x a Ei n
i i b x n b T n Ei a x e e T b U b x e e T a U i i i i 1)
()(1
)
()(0)](][[20)](][[2 由于0≠a ,通常情况下0≠b ,上二式经化简后 得
⎪⎪
⎭
⎪
⎪⎬⎫
=-
=
=-
=
∑∑∑∑==-==-0),(0),(1
1
)
2(21
1
)2(1n
i
nx Ei n
i
b x n i ax i Ei n
i b x a i i
i i i e T e b a f e x T e x b a f (5)
式(5)就是用曲线回归方法估计参数a,b 的公式。
它是式(2)在最小二乘方意义上参数的最优估计。
式(5)是一个静定超越方程,可以用下降法或最优化方法求解,用这两种方法求解需给出与a,b 的真值比较较近的初值,以便保证代计算收敛与减少代次数。
为此,假设分布曲线通过第3,4两点的平均位置来初步估计a,b 的值(因En En E E T T T T ,,,121-的估计误差太大,故不采用)。
若
2
/)(、2/)(、2/)(、2/)(232431232431----+=+=+=+=n n E E E E x x x x x x T T T T T T n n 则由假设得
⎪⎭
⎪⎬⎫==--)(2)
(121
b x
a b x
a e T e T 求解此联立方程得
⎪⎪⎭
⎪
⎪
⎬⎫
--=--=121221
121
2ln ln ln ln ln ln T T T x T x b x x T T a (6)
用式(6)估算出的a 、b 值可以作为式(5)迭代计算的初值。
参考文献
[1] M费史.概率论与数理统计[M].上海:上海科技出版设,1978;112-114.
[2]吕林根等.解析几何[M].北京:高等教育出版社,1990.206-209.
[3]吴传志.应用概率统计[M].重庆:重庆大学出版社,2004;112-115.
[4]尹庸斌.概率趣谈[M].成都:四川科学技术出版社,2004;95-97.
[5]赖景耀.概率与统计[M].兰州大学出版社,2001;104-106.
[6]邓培德等.城市暴雨公式统计方法的研究.同济大学学报,1985;67-75.
论文评定表。