极大似然估计法.ppt

合集下载

极大似然估计法

《概率论与数理统计》极大似然思想一般地说，事件A 与参数Θ∈θ有关，θ取值不同，则)(A P 也不同．若A 发生了，则认为此时的θ值就是θ的估计值．这就是极大似然思想．看一例子：例１、设袋中装有许多黑、白球，不同颜色球的数量比为3:1，试设计一种方法，估计任取一球为黑球的概率P ．分析：易知P 的值无非是1/4或3/4．为估计P 的值，现从袋中有放回地任取3只球，用X 表示其中的黑球数，则),3(~P b X ．按极大似然估计思想，对P 的取值进行估计．解：对P 的不同取值，X 取3,2,1,0=k 的概率可列表如下:X ０１２３41=P 6427 6427 649 64143=P641 64964276427故根据极大似然思想即知：⎪⎩⎪⎨⎧===3,2,431,0,41ˆk k P ．在上面的例子中，P 是分布中的参数，它只能取两个值：1/4或3/4，需要通过抽样来决定分布中参数究竟是1/4还是3/4．在给定了样本观测值后去计算该样本出现的概率，这一概率依赖于P 的值，为此需要用1/4、3/4分别去计算此概率，在相对比较之下，哪个概率大，则P 就最象那个．二、似然函数与极大似然估计1、离散分布场合：设总体X 是离散型随机变量，其概率函数为);(θx p ，其中θ是未知参数．设n X X X ,,,21 为取自总体X 的样本．n X X X ,,,21 的联合概率函数为∏=ni i X p 1);(θ，这里，θ是常量，n X X X ,,,21 是变量．若我们已知样本取的值是n x x x ,,,21 ，则事件},,,{2211n n x X x X x X === 发生的概率为∏=ni i x p 1);(θ．这一概率随θ的值而变化．从直观上来看，既然样本值n x x x ,,,21 出现了，它们出现的概率相对来说应比较大，应使∏=ni i x p 1);(θ取比较大的值．换句话说，θ应使样本值n x x x ,,,21 的出现具有最大的概率．将上式看作θ的函数，并用)(θL 表示，就有：∏===ni i n x p x x x L L 121);();,,,()(θθθ （１）称)(θL 为似然函数．极大似然估计法就是在参数θ的可能取值围Θ，选取使)(θL 达到最大的参数值θˆ，作为参数θ的估计值．即取θ，使);,,,(max )ˆ;,,,()(2121θθθθnn x x x L x x x L L Θ∈== （２）因此，求总体参数θ的极大似然估计值的问题就是求似然函数)(θL 的最大值问题．这可通过解下面的方程0)(=θθd dL （３）来解决．因为L ln 是L 的增函数，所以L ln 与L 在θ的同一值处取得最大值．我们称)(ln )(θθL l =为对数似然函数．因此，常将方程（３）写成：0)(ln =θθd L d （４）方程（４）称为似然方程．解方程（３）或（４）得到的θˆ就是参数θ的极大似然估计值．如果方程（４）有唯一解，又能验证它是一个极大值点，则它必是所求的极大似然估计值．有时，直接用（４）式行不通，这时必须回到原始定义（２）进行求解．２、连续分布场合：设总体X 是连续离散型随机变量，其概率密度函数为);(θx f ，若取得样本观察值为n x x x ,,,21 ，则因为随机点),,,(21n X X X 取值为),,,(21n x x x 时联合密度函数值为∏=ni i x f 1);(θ．所以，按极大似然法，应选择θ的值使此概率达到最大．我们取似然函数为∏==ni i x f L 1);()(θθ，再按前述方法求参数θ的极大似然估计值．三、求极大似然估计的方法1、可通过求导获得极大似然估计：当函数关于参数可导时，常可通过求导方法来获得似然函数极大值对应的参数值．例２、设某工序生产的产品的不合格率为p ，抽n 个产品作检验，发现有T 个不合格，试求p 的极大似然估计．分析：设X 是抽查一个产品时的不合格品个数，则X 服从参数为p 的二点分布),1(p b ．抽查n 个产品，则得样本n X X X ,,,21 ，其观察值为n x x x ,,,21 ，假如样本有T 个不合格，即表示n x x x ,,,21 中有T 个取值为１，T n -个取值为０．按离散分布场合方法，求p 的极大似然估计．解：（１）写出似然函数：∏=--=ni x x i i P p p L 11)1()(（２）对)(p L 取对数，得对数似然函数)(p l ：∑∑==--+-=--+=ni i ni i i p p x p n p x p x p l 11)]1ln([ln )1ln()]1ln()1(ln [)(（３）由于)(p l 对p 的导数存在，故将)(p l 对p 求导，令其为０，得似然方程：0)1(11)111(1)(11=-+--=-++--=∑∑==ni i n i i x p p p n p p x p n dp p dl （４）解似然方程得：x x n pni i ==∑=11ˆ （５）经验证，在x p =ˆ时，0)(22<dpp l d ，这表明x p =ˆ可使似然函数达到最大（６）上述过程对任一样本观测值都成立，故用样本代替观察值便得p 的极大似然估计为：X p=ˆ 将观察值代入，可得p 的极大似然估计值为：nTx p==ˆ，其中∑==ni i x T 1．若总体X 的分布中含有多个未知参数k θθθ,,,21 时，似然函数L 是这些参数的多元函数),,(1k L θθ ．代替方程（３），我们有方程组),,2,1(0)(ln k i L i==∂∂θ，由这个方程组解得kθθθˆ,,ˆ,ˆ21 分别是参数k θθθ,,,21 的极大似然估计值．例３、设某机床加工的轴的直径与图纸规定的中心尺寸的偏差服从),(2σμN ，其中2,σμ未知．为估计2,σμ，从中随机抽取100=n 根轴，测得其偏差为10021,,,x x x ．试求2,σμ的极大似然估计．分析：显然，该问题是求解含有多个（两个）未知参数的极大似然估计问题．通过建立关于未知参数2,σμ的似然方程组，从而进行求解．解：（１）写出似然函数：212222)(2212)(2)2(21),(σμσμπσσπσμ∑===---=--∏ni i i x n ni x ee L（２）写出对数似然函数：21222)(21)2ln(2),(∑=---=n i i x n l μσπσσμ（３）将),(2σμl 分别对2σμ、求偏导，并令它们都为０，得似然方程组为：⎪⎪⎩⎪⎪⎨⎧=-+-=∂∂=-=∂∂∑∑==0)(212),(0)(1),(1242221222ni i ni i x n l x l μσσσσμμσμσμ （４）解似然方程组得：x =μˆ，∑=-=ni i x x n 122)(1ˆσ （５）经验证2ˆ,ˆσμ使),(2σμl 达到极大，（６）上述过程对一切样本观察值成立，故用样本代替观察值，便得2,σμ的极大似然估计分别为：X =μˆ，2122)(1ˆn n i i S X X n =-=∑=σ．２、不可通过求导方法获得极大似然估计：当似然函数的非零区域与未知参数有关时，通常无法通过解似然方程来获得参数的极大似然估计，这时可从定义（２）出发直接求)(θL 的极大值点．例4、设总体X 服从均匀分布),0(θU ，从中获得容量为n 的样本n X X X ,,,21 ，其观测值为n x x x ,,,21 ，试求θ的极大似然估计．分析：当写出其似然函数)(θL 时，我们会发现)(θL 的非零区域与θ有关，因而无法用求导方法来获得θ的极大似然估计，从而转向定义（２）直接求)(θL 的极大值．解：写出似然函数：⎩⎨⎧≤≤≤=-其它场合,00,)()()1(θθθn n x x L 为使)(θL 达到极大，就必须使θ尽可能小，但是θ不能小于)(n x ，因而θ取)(n x 时使)(θL 达到极大，故θ的极大似然估计为：)(ˆn X =θ．进一步，可讨论估计θˆ的无偏性：由于总体),0(~θU X ，其密度函数与分布函数分别为：⎪⎩⎪⎨⎧<<=其它,00,1)(θθx x p ，⎪⎩⎪⎨⎧≥<<≤=θθθx x x x x F ,10,0,0)(，从而)(ˆn X =θ的概率密度函数为：θθθ<<==--y ny y p y F n p nn n 0,)()]([11ˆ θθθθθθθ≠+====⎰⎰1)()()ˆ(0ˆ)(n ndy ny dy y yp X E E nnn 这说明θ的极大似然估计)(ˆn X =θ不是θ的无偏估计，但对θˆ作一修正可得θ的无偏估计为：)(11ˆn X nn +=θ．通过修正获得未知参数的无偏估计，这是一种常用的方法．在二次世界大战中，从战场上缴获的纳粹德国的枪支上都有一个编号，对最大编号作一修正便获得了德国生产能力的无偏估计．综上，可得求极大似然估计值的一般步骤．四、求极大似然估计的一般步骤1、由总体分布导出样本的联合概率函数（或联合密度）；2、把样本联合概率函数（或联合密度）中自变量看成已知常数，而把参数θ看作自变量，得到似然函数)(θL ；3、求似然函数)(θL 的最大值点（常转化为求对数似然函数)(θl 的最大值点）；4、在最大值点的表达式中，用样本值代入就得参数的极大似然估计值．五、极大似然估计的不变性求未知参数θ的某种函数)(θg 的极大似然估计可用极大似然估计的不变原则，证明从略．定理（不变原则）设θˆ是θ的极大似然估计，)(θg 是θ的连续函数，则)(θg 的极大似然估计为)ˆ(θg ．例5、设某元件失效时间服从参数为λ的指数分布，其密度函数为0,);(≥=-x e x f x λλλ，λ未知．现从中抽取了n 个元件测得其失效时间为n x x x ,,,21 ，试求λ及平均寿命的极大似然估计．分析：可先求λ的极大似然估计，由于元件的平均寿命即为X 的期望值，在指数分布场合，有λ1)(=X E ，它是λ的函数，故可用极大似然估计的不变原则，求其极大似然估计．解：（１）写出似然函数：∑===-=-∏ni iix nni x eeL 11)(λλλλλ（２）取对数得对数似然函数：∑=-=ni i x n l 1ln )(λλλ（３）将)(λl 对λ求导得似然方程为：0)(1=-=∑=ni i x n d dl λλλ（４）解似然方程得：xxnni i1ˆ1==∑=λ经验证，λˆ能使)(λl 达到最大，由于上述过程对一切样本观察值成立，故λ的极大似然估计为：X1ˆ=λ；根据极大似然估计的不变原则，元件的平均寿命的极大似然估计为：X X E ==λˆ1)(．五、小结1、极大似然估计的思想；2、求解未知参数极大似然估计的一般步骤；3、极大似然估计的不变原则．。

极大似然估计

6
第1章极大似然估计
1.2.4
方差矩阵的估计方法
( = ∂ 2 LnL −E ′ ∂θ0 ∂θ0 [ [ ])−1
由渐进公式 [I (θ0 )]
−1
ˆ带入上式作为θ ˆ的方差估计量，即信息矩阵的逆，可以将θ ( ˆ) = Var(θ 在线性回归模型中， [I (θ0 )]−1 = [ ∂ 2 LnL −E ∂θ∂θ′ ( −E ] = [ ])−1
n n i=1 i=1
梯度向量也称为得分向量（score vector）。梯度向量g 为k × 1向量。将所有观测值对应的gi 构成的矩阵G = [g1 , g2 , . . . , gN ]′ (N × k )称为梯度向量的贡献矩阵。梯度向量g 的每个元素为矩阵G的各列的和。似然函数的二阶导数称为海赛矩阵（Hessian Matrix）： ∂ 2 ln f (y |θ) ∑ ∂ 2 ln f (yi |θ) ∑ H= = = Hi ∂θ∂θ′ ∂θ∂θ′
i=1 i=1
(1.2)
λxi e−λ xi !
第2节
1.2.1 极大似然估计的原理
极大似然估计
极大似然估计是指使得似然函数极大化的参数估计方法，即估计那些使得样本(x1 , x2 , . . . , xN )出现的概率最大的参数。例1.3. 正态分布的ML估计对于n个相互独立的随机变量x = (x1 , x2 , . . . , xn ), xi ∼ N (µ, σ 2 )(i = 1, 2, . . . , n)。根据前面推导的(x1 , x2 , . . . , xn )的联合似然函数： ∑n (xi − µ)2 n n LnL(µ, σ |x) = − ln(σ 2 ) − ln(2π ) − i=1 2 2 2σ 2

极大似然法

均寿命的极大似然估计．
极大似然估计的不变性
• 分为X析的：期可望先值求，在的指极数大分似布然场估合计，，有由于E元( X件)的平1均，寿它命是即
的函数，故可用极大似然估计的不变原则，求其极大似然
估计．
n
•
解：（１）写出似然函数：L()
n
e e xi
xi
n
i 1
i 1
n
（２）取对数得对数似然函数： l() n ln xi i 1
• 2、把样本联合概率函数（或联合密度）中自变量看
成已知常数，而把参数看作自变量，得到似然函数
L( )
• 3、求似然函数 L( ) 的最大值点（常转化为求对数似
然函数 l( ) 的最大值点）；
• 4、在最大值点的表达式中，用样本值代入就得参数的极大似然估计值．
极大似然估计的不变性
• 求未知参数的某种函数 g( )的极大似然估计可用极大
n
L( ) L(x1, x2 ,, xn ; ) p(xi ; ) i1
称 L( )为似然函数．
求总体参数的极大似然估计值的问题就是求似
然函数 L( )的最大值问题．
似然函数与极大似然估计
• ２、连续分布场合：
设总体 X 是连续离散型随机变量，其概率密
度函数为 f (x; ) ，若取得样本观察值为
取x1值, x为2 ,(x1,,xxn2，,则, 因xn为)时随联机合点密(度X1函, X数2 ,值,为X n )
n
f (xi ; ) 。所以，按极大似然法，应选
择i1 的值使此概率达到最大．我们取 )
再按前述方法求参数
的极大似然估i1计值．
极大似然函数
极大似然估计，是以极大似然函数为基础。所谓“似然函数”，就是构造一个以观察数据和

最大似然估计法

P{ X x} p x (1 p)1 x , x 0,1.
设(X1,X2,…,Xn)是来自总体X的样本。
似然函数为：
L( p)

i 1
n
P ( x i , p)

i 1
n
p x i (1 p)1 x i
p i 1 (1 p)
n
xi
n
n
xi
i 1
x
i 1
i
0
得，
1 n 1 ˆ n
x x
i i 1 n
n
④所以θ的最大似然估计值为:
x x
i i 1
练习1 : 设总体X的分布律为：
P{ X x} p x (1 p)1 x , x 0,1.
0<p<1, p未知 , 求参数p 的最大似然估计量. 解:总体X的分布律为：
1 n
ˆ使得：即取
ˆ ) max L( x , , x ; ) L( x1 , , x n ; 1 n
ˆ与x ,, x 有关，记为 ˆ ( x ,, x ); 1 n 1 n 称其为参数的最大似然估计值。 ˆ( X ,, X )称为参数的最大似然估计量。
1 ˆ p n
x
i 1
n
i
练习2：设(X1,X2,…Xn)是来自总体X的一个样本
x 1 , X ~ f ( x) 0,
解： θ的似然函数为：
L( )
0 x 1 其它
其中 >0,
L( ) L( x1 ,, x n ; )
p( x ; ), .
i i 1
n
它是的函数。 L( )称为样本的似然函数。

参数估计极大似然法

将其取对数,然后对 1 , 2 ,, 2 , , k ) 0 1 ln L( 1 , 2 , , k ) 0 k
该方程组的解 ˆi ˆi (x1, x2 ,, xn ),i 1,2,, k , 即为 i 的极大似然估计值.
求极大似然估计的一般步骤归纳如下：
（1）求似然函数 L( ) ；
（2）求出 ln L( ) 及方程
d ln L( ) 0 d
；
（3）解上述方程得到极大似然估计值
ˆ ˆ( x , x ,, x ) 1 2 n .
（4）解上述方程得到极大似然估计量
ˆ ˆ( X , X ,, X ) 1 2 n .
令
ˆ( x , x ,, x ) 解此方程得θ的极大似然估计值 1 2 n ,
从而得到θ的极大似然估计量ˆ( X1, X 2 ,, X n ) .
因为解方程
L( )
与
ln L( )
具有相同的最大值点
d ln L( ) 0 d
也可得θ的极大似然估计值
ˆ( x , x ,, x ) 和θ的极大似然估计量 ˆ( X , X ,, X ) . 1 2 n 1 2 n
~ x d 2 ln L() 且 0 2 d ~ x
~ 从而得出λ的极大似然估计量为 X
例：设总体 X 服从参数为λ 的指数分布，其中λ 未
( x1 , x2 ,, xn ) ( X 1 , X 2 ,, X n ) 为从总体抽取一个样本，知，
为其样本观测值，试求参数λ 的极大似然估计值和估计量.
例:设随机变量X服从泊松分布:
P{ X k}
k e
k!
,

极大似然法估计鱼

20002
500
8000.
用极大似然法估计湖中的鱼数为了估计湖中的鱼数N，第一次捕上r条鱼，做上记号后放回. 隔一段时间后, 再捕出S 条鱼, 结果发现这S条鱼中有m条标有记号. 根据这个信息，如何估计湖中的鱼数呢？
第二次捕出的有记号的鱼数X是一个离散型
随机变量, X具有超几何分布：
P{X
k}
C Ck S k r Nr CNS
,
0
k
min(
S, r)
P{X
k}
Crk
C Sk N r
CNS
,0
k
min(
S, r)
在一次试验这里的试验是指：观察第二次捕鱼中有记号的鱼数中，
事件X m就发生了，我们有理由相信，事件X m发生的概率比较
大，也即是PX
m
Crm
C
C
S N
S N
m r
比较大.直观的想法
是
：k取m时，
P X k
CrkΒιβλιοθήκη CS Nk r
C
S N
取得最大值.
Crk
C
S N
k r
C
S N
Crk
C S k N 1r
CS N 1
(N S)(N r) N(N r S k)
N 2 Nr SN Sr N 2 Nr SN Nk
容易知道，当N Sr 时，该比值大于1； k
当N Sr 时，该比值小于1. k
这就是说，当N增大时，PX
k
Crk
C
S N
k r
CNS
先增大后减小，
当N
Sr k
时，PX
k取得最大值.故N的极大似然估计为

极大似然估计方法

极大似然估计方法极大似然估计（Maximum Likelihood Estimation，MLE）方法是一种用于估计参数的统计方法，它基于观测到的样本数据，通过选择最大化观测数据出现的概率的参数值来估计未知参数。

极大似然估计是概率论和统计学中最重要的方法之一，广泛应用于各个领域的数据分析与建模中。

极大似然估计方法的核心思想是基于某一参数下观测数据出现的概率，选择使得这个概率最大的参数值。

具体而言，给定一个观测数据集合X，其来自于一个具有参数θ的概率分布，我们要估计未知参数θ的值。

极大似然估计的目标是找到一个参数值θ^，使得给定θ^条件下观测数据集合X出现的概率最大。

数学上，极大似然估计可以通过最大化似然函数来求解。

似然函数是一个参数的函数，表示给定某个参数θ下观测数据出现的概率。

似然函数的定义如下：L(θ|X) = P(X|θ)数的函数，表示给定某个参数θ下观测数据出现的概率。

极大似然估计的目标是寻找一个参数θ^，使得似然函数最大化，即：θ^ = arg max L(θ|X)为了方便计算，通常将似然函数转化为其对数形式，即对数似然函数：l(θ|X) = log L(θ|X)本文将主要介绍如何利用极大似然估计来估计参数。

具体而言，将分为两个部分：首先是介绍极大似然估计的理论基础，包括似然函数和对数似然函数的定义，以及如何通过最大化似然函数来估计参数；其次是通过一个实际的例子，展示如何使用极大似然估计来求解参数。

理论基础似然函数是极大似然估计的核心概念之一。

似然函数是一个参数的函数，表示给定某个参数θ下观测数据出现的概率。

似然函数的定义如下：L(θ|X) = P(X|θ)数的函数，表示给定某个参数θ下观测数据出现的概率。

似然函数的值越大，则表示给定参数θ的取值越可能产生观测数据X。

对数似然函数是似然函数的对数变换，通常在实际计算中会更加方便。

它的定义如下：l(θ|X) = log L(θ|X)对数似然函数和似然函数存在着一一对应关系，因此在求解参数时，两者等价。

概率与统计第七章第二节极大似然估计

n
L( ) f ( xi , ) i 1
似然方程为
n xi e e n
i1 xi !
i1
n
xi !
i 1
log
L( )
n
1
n
xi
i 1
0
BJUT
第七章
参数估计
得解 :
*
1 n
n
xi
i 1
x
2
2
log
L( )
1
2
n
xi
i 1
0
* x
是logL()的最大值点. ∴ 的极大似然估计量是
第七章第二节极大似然估计
BJUT
第七章参数估计
极大似然法
是在总体类型已知条件下使用的一种参数估计方法 .
它首先是由德国数学家高斯在1821年提出的 , 然而，这个方法常归功于英国统计学家费歇 .
Gauss
费歇在1922年重新发现了
这一方法，并首先研究了这
种方法的一些性质 .
Fisher
BJUT
n i1
1
e ， ( xi )
xi
0,
其它
i=1,2,…,n
BJUT
第七章参数估计
解：似然函数为
L(
,
)
i
n 1
1
e ， ( xi )
xi
0,
其它
i=1,2,…,n
1
n
1
e ,
n i 1
(
xi
)
0,
对数似然函数为
min xi
其它
BJUT
ln
L( , )
n ln

第二章1-矩估计和极大似然估计

0
解法二
E
X
x
1
x
e dx
1
x
x e dx (2)
2
0
即 E|X|
1 n
用 n i1 X i
替换
EX
即得的另一矩估计量为
ˆ 1
n
n i 1
Xi
16
• 矩估计的优点 – 不依赖总体的分布，简便易行 – 只要n充分大，精确度也很高。
• 矩估计的缺点 – 矩估计的精度较差； – 要求总体的某个k阶矩存在； – 要求未知参数能写为总体的原点矩的函数形式
得和2的估计值分别为13(mm)和 0.133(mm)2
12
例2 设总体X的概率密度为
f
( x;
)
x 1 ,
0,
0 x 1 其它
X1,X2,,Xn为来自于总体X的样本,x1,x2, ,xn 为样本值,求参数的矩估计。
解：先求总体矩
1
1
E( X ) x x 1dx x dx
x 1 1
ˆ2 (x1, x2 ,, xn )
数值
ˆk (x1, x2 ,, xn )
称数ˆ1,ˆ2 ,,ˆk 为未知参数1,2 ,,k 的估计值对应的统计量为未知参数1,2 ,,k 的估计量
问题如何构造统计量？
6
二.点估计的方法
1、矩方法；（矩估计） 2、极大似然函数法（极大似然估计）.
1. 矩方法
• 极大似然估计的缺点要求必须知道总体的分布函数形式
29
多参数情形的极大似然估计
若总体X的概率密度为：f (x;1,2 , ,k )
其中
1
,
2
,,

极大似然估计

极大似然估计极大似然估计极大似然估计方法在金融领域中的应用十分广泛。

该方法利用已知的概率密度函数形式，构造对数似然函数，然后最大化该似然函数从而求得概率密度函数中所含的参数估计量。

比如：对GARCH(1,1)模型中的参数估计中，如果均值方程中的扰动项服从正态分布，则我们可以利用正态分布的概率密度函数对所含参数进行估计。

1．极大似然估计基本原理 (1)参数估计下面以线性回归中系数的极大似然估计为例来说明极大似然估计基本原理。

考虑线性回归：Y X βε=+，2~(0,)Y X N εβσ=−则对于X 和Y 的每一对观测值(,)i i X Y ，这里，i X 为行向量，其概率密度函数形式如下： 21(,)())2i i i i Y X f X Y βσ−=− 给定N 对相互独立的观测值(,)i i X Y ，1,2,...,i N =，样本中所有观测值的总体概率密度函数(,)L βσ为单个观测值概率密度函数的乘积，即：211(,)())2Ni i i Y X L ββσσ=−=− （1）极大似然估计要给出参数(,)βσ的估计量使得（1）式最大。

由于（1）式为乘积的形式，直接对最大化（1）式求解最优解，比较麻烦。

因此，采用似然函数的对数形式：2211(,)[()]2Ni i i LnL Ln Y X βσβσ==−−∑然后求解以下最优化问题：22(,)11max (,)[()]2Ni i i LnL Ln Y X βσβσβσ==−−∑ （2）最后得到的参数(,)βσ的估计量与普通最小二乘法得到的结果一样。

因此，当普通最小二乘法回归方程中的残差服从正态分布时，普通最小二乘估计与极大似然估计的结果是一样的。

更一般地，我们用θ表示需要估计的参数向量，相应地对数似然函数为：()LnL θ。

(2)参数估计的标准误差求解优化问题（2），虽然给出了参数θ的估计量ˆθ，但并没有给出估计的标准误差。

如果对数似然函数()LnL θ在其估计量ˆθ处的二阶倒数的期望是已知的，则极大似然估计量的渐进协方差矩阵1[()]I θ−满足：2111()()()[()]{[]}{[()()]}LnL LnL LnL I E E θθθθθθθθ−−−∂∂∂=−=′′∂∂∂∂ （3）通常情况下()LnL θ是一个非常复杂的非线性函数，我们很难得到（3）式中期望值的解析解形式。

极大似然估计

所以 x ( n )是的最大似然估计 .
的
一个观察值，则样本的联合概率分布
L(1 , 2 , m ) P { X 1 x 1 , X 2 x 2 X n x n }
p( xi ;1 , 2 , m )
i 1 n
-------似然函数
应选取使 L ( 1 , 2 , , m ) 达到最大值的 ˆ1 , ˆ 2 , , ˆm 作为 1 , 2 , , m的估计值是最合理的。
1
( xi ) 0 2 i1 n n 1 2 ( xi ) 0 4 2 2 2 i 1
n
n
ˆ X n 2 1 ( X X )2 . ˆ i
n i 1
例 5 . 设总体 X 服从 [ 0 , ]上的均匀分布 , 求未知参数的极大似然估计。
2
解
X ~ ( x; , )
2
1 2 π
( xi ) 2
2 2

(x ) 2
2
2
e
,
L( , )
2 i 1
n
1 2π

e
( 2 )
2

n 2

1 2
2
n

i1
( xi )
2
e
( 2 )
2

n 2

1 2
2
n

i1
2 . 若 X 是连续型随机变量， X ~ f ( x ; 1 , 2 , , m )，

最大似然估计法

n
i
例
设总体 X ~N( μ , σ 2 , μ , σ 2未知 . x1 , , xn )
是来自 X 的样本值 , 试求 μ , σ 2的最大似然估计量 . 解 X 的概率密度为
f ( x) 1 2
( x )2 2 2
e
, x
似然函数为
L( μ, σ )
设(X1,X2,…,Xn)是来自总体X的样本。
似然函数为：
L( p)

i 1
n
P ( x i , p)

i 1
n
p x i (1 p )1 x i
p i 1 (1 p)
n
xi
n
n
xi
i 1
n i
n
l n L( p) (
x ) l n p (n x ) l n (1 p)
L( ) L( x1 ,, x n ; )
p( x ; ), .
i i 1
n
它是的函数。 ( )称为样本的 L 似然函数。
由极大似然估计法：固 x1 , , x n ; 挑选使概率定 ˆ L( x , , x ; )达到最大的参数，作为的估计值，
取对数
ln L( ) n ln ( 1)
ln x
i 1
n
i
求导并令其为0
d ln L( ) n d
ln x
i 1
n
i
=0
从中解得
n
n

ln x
i 1
n
i
, ,

极大似然估计的原理和方法

1n x n 0 ,. . . . . ( 1 ) 2 i 2 ln L ( , ) 0 , i 1 令 n 2 n 1 2 ln L ( , ) 0 , ( x ) 0 . . . . . . ( 2 ) 2 i 2 22 2 2 ( )
（二）极大似然原理及数学表述
若一试验有n个可能结果 A 1, 中出现的概率最大。现做一试验, ,A n,
若事件Ai 发生了, 则认为事件Ai 在这n个可能结果一次试验就出现的事件（应该）有较大的概率
极大似然估计就是在一次抽样中,若得到观测值
ˆ(x , , x )作为θ的估计值。 x ,x 1, n 则选取 1 n ˆ 使得当 ( x , ,x ) 时,样本出现的概率最大。 1 n
极大似然估计法最早由高斯（C.F.Gauss）提出。后来为费歇在1912年的文章中重新提出，并且证明了这个方法的一些性质。极大似然估计这一名称也是费歇（R.A.Fisher）给的。这是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法。
（C.F.Gauss）
（R.A.Fisher）

i 1
2 极大似然估计值为故和的
1 n ˆ xi x, n i 1
1n ˆ (xi x)2, ni1
2
这一估计值与矩估计值是相同的.
例3 设总体 X 服从 [0, ] 上的均匀分布， 0 未知， x1 , x2 . , xn 是来自于总体 X 的样本值，求出的极
大似然估计值.
解
记
x m a x ( x , x , , x ) , ( h ) 1 2 n

4.1 极大似然估计法

• 被解释变量样本的对数似然函数为：
ln L
n
2
ln 2
n
2
ln 2
ln J(yi , ) i
2

1 2
2
[h(yi , ) g(xi , )] i
ln 2 ln 2 + ln J(yi , ) 2 2 2 i n n
x2i xki
其中 h () 和 g () 是非线性函数，和是参数。

以上是一般非线性模型的完整描述。

模型参数的一种估计方法是最小二乘法，即最小化
S ( , ) [h( yi , ) g ( xi , )]
i
2
• 模型参数的另一种估计方法是极大似然法。得到广泛应用。
2
代替，可得：
2 2
n 1 2 2 ˆ ˆ , ˆ | y, x) [ln(2 ) ln( ˆ )] ln(| |) ln L( , 2 2 n ui n 1 2 ˆ ln(| U U / |) 2 yi i 1
n 1 2 2 ˆ ˆ , ˆ | y, x) [ln(2 ) ln( ˆ )] ln(| |) ln L( , 2 2 n ui n 1 2 ˆ ln(| U U / |) 2 yi i 1
i =1,2,…,n
ˆ ), 2 ) Yi ~ N ( f (Xi , β
2 ˆ L(β, ) P(Y1 , Y2 ,, Yn )
i ~ N (0, 2 )

1 (2 ) n
n 2

1 2
e
ˆ )) 2 ( Y f ( X , i i 2

极大似然估计

是一个样本值
似然函数为 13
似然函数为
因为对于满足
即
在
等价于
的任意
有
时,取最大值 14
似然函数为
即
在
故
时,取最大值的极大似然估计值为:
故
的极大似然估计量为:
15
例5 指数分布的点估计
某电子管的使用寿命 X （单位：小时) 服从指数分布
X:
p(
x;
)
1
e
x
,
x0
( 0)
0 , other
令
解得
解得
p的极大似然估计值
p的极大似然估计量
它与矩估计量是相同的。
9
例2
设总体X的分布列为：
似然估计值。解：
似然函数为
10
令
即
所以参数
的极大似然估计量为
11
例3
解
设 X1, X2, …, Xn 是取自总体X 的一个样本, ，求参数λ的极大似然估计值。
似然函数为:
12
例4 设
求
解设
未知，的极大似然估计量. 的概率密度为：
d ln L( ) 0. d
若母体的分布中包含多个参数，
即可令 L 0,i 1, , k.
i
或 ln L 0,i 1, , k.
i
解k个方程组求得1,
,
的极大似然估计值。
k总体X的一
个样本，试求参数 p 的极大似然估计值.
解：设
是一个样本值。
X的分布列为：
故似然函数为
而令 8
p(x, )
0,
其他.
2. 取对数：
当 0 < xi < 1, (i=1,2, …,n) 时

第3章空间计量模型的极大似然估计

i 1 n
ˆ T X T )(Y XB ˆ) Y T Y B ˆ T X T Y Y T XB ˆB ˆ T X T XB ˆ (Y T B ˆB ˆ T X T XB ˆ Y T Y 2Y T XB
OLS 估计结果：如X T X 可逆，即|X T X | 0， ( T ) ˆ 0 0 2 X T Y 2 X T XB ˆ B -1 T ˆ X TY B ˆ X T XB （X T X） X Y
2.3 SEM模型的极大似然估计结果
ˆ 。依据SEM模型的极大似然估计结果，可以估算最优的
SEM模型的最终估计结果:
ˆ ˆ）解释变量的参数估计值：（
ˆ) ˆ 2 n1S ( 随机误差项的方差估计值：
ˆW )T ( I ˆW )T ]1 方差-协方差矩阵估计值： ˆ 2 [( I n n
Lacombe模型参数估计优化的最小二乘法过程： ˆ (Z T Z )1 Z T ( I W W ) y 参数估计结果： n 1 1 2 2
2 =n1eT e 随机误差项方差估计结果：
Lacombe模型的对数似然函数设定：
2
eT e ln L (n 2) ln( ) ln I n 1W1 -2W2 2 2 其中，e ( I n 1W1 2W2 ) y Z
1.2 SAR、SDM模型中多参数优化向单参数优化的转化
多参数优化向单参数优化转化：将模型中需要优化的多个参数通过等
价变形，转变为一个参数的优化问题，以使所分析的问题更为简单。
SAR、SDM模型的单元优化过程：
第一，设定SAR、SDM模型； y n Wy X ; y n Wy X WX

最小二乘和极大似然估计法

最小二乘和极大似然估计法用于估计随机样本中的总体参数的两种不同方法.主要是在 Minitab 的可靠性命令和分析变异性中需要在这两种方法之间进行选择。

最小二乘法最小二乘估计值是通过将回归线拟合到数据集中的点来计算的，这些数据集具有最小的平方差和（最小二乘误）。

在可靠性分析中,该值标绘在概率图中，这样更容易进行解释.极大似然法似然函数指明了观测的样本作为可能参数值函数的几率有多大。

因此,通过最大化似然函数，可以确定最可能产生观察数据的参数。

从统计学观点来看，一般建议对大样本使用 MLE，因为此方法是通用的,适用于大多数模型和不同类型的数据，而且会产生最精确的估计值。

比较在许多情况下,LS 和 MLE 结果之间的差异非常小，因而这两种方法可以互换使用。

您可能希望同时运行这两种方法并查看其结果是否可以相互印证.如果结果不同，您可能希望找出其中原因.如果不一致，您也可以使用更保守的估计值，或者考虑两种方法的优点，然后再针对您的问题做出选择。

一种方法优越于另一种方法体现在某些方面：LSE 极大似然估计偏倚否是（对于小样本），但会随着样本数量的不断增加而降低估计方差较大较小P 值精确度较高精确度较低系数精确度较低精确度较高删失数据可靠性较低,在极端情况下不可用甚至在极端情况下可靠性也较高如果样本数量较小且删失不是特别严重，请使用 LSE。

否则,一般情况下会首选MLE 估计值。

根据其相对强度,可以对分析的不同部分一同使用 LSE 和 MLE。

请使用 LSE 的更精确的 p 值来选择要在模型中包括的项，并使用 MLE 估计最终系数。

对于某些命令，Minitab 使用调整的极大似然估计计算尺度参数，此估计值可为单纯的样本标准差（对于正态分布）或变换后数据的样本标准差（对于 Box—Cox 和 Johnson 变换以及对数正态分布）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

你就会想，只发一枪便打中，由于猎人命中的概率一般大于这位同学命中的概率，看来这一枪应该是猎人射中的。这个例子所作的推断就体现了极大似然的基本思想。
2
设总体X是离散型随机变量，其概率函数为
，
其中p(
X1X2…Xn的联合概率函数为
常量，X1X2…Xn是变量。

e n
1

n i1
xi
ln
L

n
ln

1

n

i 1
xi
d ln L
d

n

1
2
n

i 1
xi

0
ˆ

1 n
n
xi
i 1

x
1
n
n i 1
xi
1 5723 18

318
10
极大似然估计的法的运算步骤： 1、由总体分布导出样本的联合概率函数； 2、把样本联合概率函数中自变量看成已知常数，
数 , 2 的似然方程组，从而进行求解。
7
n
L(, 2 ) i1
n
1
( xi )2
e (2 ) e 2 2
2
n 2
( xi )2 i1
2 2
2
l
(,
2
)

n 2
ln(2
2
)

1
2
2
n
( xi
i 1
)2
l(, 2 )
d ln L( ) 0 d
4
例1：设某工序生产的产品的不合格率为p，抽n个产品作检验，发现有T个不合格，试求p的极大似然估计值。
分析：设X是抽查一个产品时的不合格品的个数，则X服从参数为p的两点分布。抽查n个产品，则得样本X1,X2,…Xn，其观察值为x1,x2…xn，假如样本有T个不合格，即表示x1,x2…xn中有T个取值为1，有n-T个取值为0。基于此求参数p的极大似然估计值。

1
2
n
( xi
i 1
) 0

l
(
,

2
)
2
n
2 2
1
2 4
n
( xi
i 1
)2
0
ˆ

1 n
n i 1
xi

x
ˆ 2

1 n
n i1
( xi

x)2
8
例3：某电子管的使用寿命X(单位:小时)服从指数
分布：
X:
p(
(3) 对似然函数求导，令其为零，得到似然估计值
dl( p)
dp
n 1 p

n i1
xi
(
1 p
1 ) 1 p
n 1 p

1 p(1
p)
n i1
xi
0

pˆ

1 n
n i 1
xi

T n
6
例2：设某机床加工的轴的直径与图纸规定的中心尺寸的偏差服从N (, 2 )，其中参数, 2未知。为了估计 , 2，从中随机抽取n=100根轴，测得其偏差为x1,x2…x100。试求 , 2的极大似然估计。分析：显然，该问题是求解含有多个(两个)未知参数的极大似然估计问题。通过建立关于未知参
而把参数看作自变量，得到似然函数L( ) ；
3、求似然函数的最大值点(常转化为求对数似然函数的最大值点)；
4、在最大值点的表达式中，用样本值代入就得参数的极大似然估计值。
11
作业：设总体的密度函数为：
p(x; ) ( 1)x , 0 x 1
现在得到总体的一个样本X1,X2,…,Xn，其观测值为
n
L( ) L(x1, x2 ,, xn ; ) p(xi ; ) i1 3
极大似然估计法就是在参数的可能取值范围内，
选取使达L(到 )最大的参数值，作ˆ 为参数
的估计值。即取，使得：
L(
)

L(
x1
,
x2
,,
xn
;ˆ)

max

L(
x1
,
x2
,,
xn
;
)
因此，求参数的极大似然估计值的问题就是
求似然函数 L( ) 最大值问题。这通过解方程dL() / d 0
来得到。因为 ln L( )和 L( )的增减性相同，所以它们
在的同一值处取得最大值，称 ln L( ) 为对数似然
函数。可以通过求解下列方程来得到极大似然解。
随机逼近法是由统计学中，通过连续逼近以获得估计参数发展而来的。它是随机问题的梯度法应用于观测数据被噪声污染，且对此噪声的统计特性不够了解的情况。算法十分简单，具有实用价值。
1
极大似然的思想
先看一个简单例子：
某位同学与一位猎人一起外出打猎，一只野兔从前方窜过。只听一声枪响，野兔应声到下了，如果要你推测，这一发命中的子弹是谁打的？
第六章极大似然法及其它辩识方法
对参数估计来说，预报误差法、极大似然法适用范围均较为广泛，它们不仅适用于线性模型也适用于非线性模型，是处理残差序列相关情况下的另一类辩识算法。
预报误差法类似于最小二乘法，它并不要求任何关于数据概率分布的统计假设为前提条件，而极大似然估计属于一种概率性的参数估计法。
x1,x2,…,xn，求参数的极大似然估计。
12
6.1 极大似然法(Maximum Likelihood Estimation)
1.极大似然原理对极大似然原理描述如下：对于已有的一组观
测数据{y1,y2,…,yN}，它所具有的联合概率分布表示了出现该观测结果的可能性。而观测值
5
(1) 写出似然函数
n
L( p) pxi (1 p)1xi i 1
(2) 对似然函数取对数，得到对数似然函数:
n
l( p) [xi ln p (1 xi ) ln(1 p)] i 1
n
n ln(1 p) xi[ln p ln(1 p)] i 1
x;
)

1

e
x
,
0 ,
x0 other
( 0)
今取得一组样本Xk数据如下，问如何估计θ？
16 29 50 68 100 130 140 270 280
340 410 450 520 620 190 210 800 1100
9
L( )
n i 1
1

e

xi

。这里n ，p(X i 1
i
,是 )
如果样本取值x1x2…xn，则事件 {X1 x1, , X n xn}
发生的概率为 n i1
p(
xi
,
)
。这一概率随
的值变化而
变化。从直观上来看，既然样本值x1x2…xn已经出现
了，它们出现的概率相对来说应比较大，应使其概
率取比较大的值。取似然函数如下：

极大似然估计法.ppt

极大似然估计法

极大似然估计

极大似然法

最大似然估计法

参数估计极大似然法

极大似然法估计鱼

极大似然估计方法

概率与统计第七章第二节极大似然估计

第二章1-矩估计和极大似然估计

极大似然估计

极大似然估计

最大似然估计法

极大似然估计的原理和方法

4.1 极大似然估计法

极大似然估计

第3章 空间计量模型的极大似然估计

最小二乘和极大似然估计法

第3章空间计量模型的极大似然估计