第7章 极大似然法和预报误差方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

的数据在 (k 1)时刻输出量的条件概率分布
5
• 预报误差方法
– 需要事先确定一个预报误差准则函数 – 利用预报误差的信息来确定模型的参数 – 某种意义上
• 与极大似然法等价的 • 或极大似然法的一种推广
6
• 极大似然法和预报误差方法
– 优点:参数估计量具有良好的渐近性质 – 缺点:计算量比较大
噪声模型已知的情形(已知)
将模型(C)写成最小二乘格式:
z L

H
θ
L

e
L
其中:
z L

[z(1), z(2),, z(L)]
e L

[e(1), e(2),, e( L)]
θ [a1, a2,, an ,b1,b2,,bn ]
z(0) z(1 n) u(0) u(1 n)

H
θˆ
L ML
)
(z
L

H
θˆ
L ML
)
对噪声方差的最小二乘估计:
ˆe2

L

1
dimθ
(z
L

H
θˆ
L LS
)
(z
L

H
θˆ
L LS
)
噪声模型未知的情形(未知)
此时,令
e(k) v(k) d1v(k 1) dnv(k n)
θ [a1, a2 ,, an ,b1,b2 ,,bn , d1, d2 ,, dn ]
根据考察的模型(C),有:
n
n
n
z(k) ai z(k i) biu(k i) v(k) div(k i)
i 1
i 1
i 1
将此式代入到上式,我们有:
p(z(1), z(2),, z(L) u(1),u(2),,u(L 1)θ, )
Fra Baidu bibliotek

ML z在 (真0 值)条件下的
概率密度函数

max
p(z | ML) p(z |0)
– 上式反映极大似然原理的本质,但数学上不好实1现2
Kullback-Leibler信息测度:
我们称
I (θ0,θ)
ˆ
E{log
p(zθ0 )}
E{log
p(zθ)}
Elog
p(zθ0 ) p(zθ)
预报误差法——需要事先确定一个预报误差准则函 数,并利用预报误差的信息来确定模型的参数。
4
• 意味着
– 模型输出的概率分布将最大可能地逼近实际过程输 出的概率分布
– 通常要求具有能够写出输出量的条件概率密度函数 的先验知识
– 独立观测的条件下,必须知道输出量的概率分布
– 在序贯观测的条件下,需要确定基于 k 时刻以前
1
)2
exp
k 1

1
2
2 v
v2
(k
)

const

(2

)
L 2
(
2 v
)

L 2
exp

1
2
2 v
L
v
2
(k
)

const
k 1

记:
z L

[z(1), z(2),, z(L)]
u L 1

[u(1),u(2),,u(L
1)]

HL


z(1)
z(2 n)
u(1)
u(2 n)


z(L 1) z(L n) u(L 1) u(L n)
因为:e(k) v(k) d1v(k 1) dnv(k n)
则有 E{e(k)e(k
再次利用极大似然原理,参数θ 的极大似然估计θˆML 必须使
得:
l(z L u L1,θ) θˆML max
令:
V (θ) 1 L v2 (k)
L k 1
(G)
则这等价于使得
V (θˆML)
1 L
L
v2 (k ) θˆML
k 1
min
其中v(k)满足(F)的约束条件。


j)}

n i0
dl
dl

j
2 v
d0 ˆ 1; dl 0 (l 0 or l n)
记噪声e(k)的协方差阵为
e

E{e
e
L
L
}
,则由v(k)的
正态性,可知:
z L
~
N
(
H
θ
L
,
e )
因此,有:
p(z Lθ)

(2
L
)2
1
(dete ) 2
exp
在独立观测的前提下,当获得L组输入输出数据 u(k),z(k) 后,在给定的参数θ 和输入信号u(1),u(2),,u(L 1)的 条件下, z(1), z(2),, z(L) 的联合概率密度函数可 写成:
p(z(1), z(2),, z(L) u(1),u(2),,u(L 1)θ, )
1 2
(z L

H Lθ)
e1(z L

H Lθ)
对应的对数似然函数为:
l(z Lθ) log p(z Lθ)


L 2
log(2
)

1 2
log(dete )

1 2
(z L

H Lθ)
e1(z L

H Lθ)
由极大似然原理可得:
θˆ ML

(HL e1HL )1 HL e1zL

| )
ML

0
– log L(zL |-)对数似然函数


ML
- 极大似然参数估计值
– 使得似然函数或对数似然函数达到最大值
11
物理意义(极大似然原理的数学表现)
– 对一组确定的随机序列 zL
– 设法找到参数估计值

ML

使得随机变量
z在


大可能地逼近随机变量
条件下的概率密度函数最
p(z(L) z(1), z(2),, z(L 1),u(1),u(2),,u(L 1)θ, )
p(z(L 1) z(1), z(2),, z(L 2),u(1),u(2),,u(L 1)θ, )

p(z(1) z(0),u(0)θ, )
L
p(z(k) z(1), z(2),, z(k 1),u(1),u(2),,u(k 1)θ, ) k 1

为Kullback-Leibler信息测度。可以证明:
I (θ0,θ) 0
7.2.2 动态过程模型参数的极大似然估计
• 考虑以下模型:
A(z1)z(k) B(z1)u(k) e(k)

e(k )

D( z 1 )v(k )

其中:v(k ) 是均值为零,方差为
第7章 极大似然法和预报误差方法
1
7.1 引言
• 极大似然法
– 一种非常有用的传统估计方法 – 由 Fisher 发展起来的 – 基本思想可追溯到高斯(1809 年) – 用于动态过程辩识可以获得良好的估计性质
2
• 最小二乘法和梯度校正法
– 计算简单 – 参数估计具有优良的统计性质 – 噪声的先验知识要求也不高
i 1
i 1
i 1
因此,当给定θˆ 和vˆ(k) 的初始值 vˆ(1),vˆ(2),,vˆ(n) ML
i 1
i 1
i 1
(E) (F)
利用极大似然原理,由
l(z L u L1,θ)

2 v
ˆ
2 v
0
得噪声方差

2 v
的极大似然估计:
ˆ
2 v

1 L
L
v2 (k )
k 1
将此式代入(E),可得:
l(z
L
u
L 1 ,θ)


L 2
log
1 L
L k 1
v2 (k )

const
经确定,且v(k)与z(1), z(2),, z(k 1),u(1),u(2),,u(k 1) 及θ
无关,因此上式可以写成:
p(z(1), z(2),, z(L) u(1),u(2),,u(L 1)θ, )
L
p(v(k)) const k 1

L
(2
1
)2
(
2 v
这时的 p(zL | ) 称作 的似然函数
以示区别有时记作 L(zL | ) 概率密度函数和似然函数有着不同的物理意义,
但数学表达式是一致的
L(zL | ) p(zL | )
10
极大似然原理的数学表示


L( z L
|

)




ML
0
log
L(zL
L k 1
p v(k)
n
ai z(k i)
i 1
n
biu(k i)
i 1
n

div(k i)
i 1

z(1), z(2),, z(k 1),u(1),u(2),,u(k 1)θ,
由于当观测至k时刻时,k-1时刻以前的z(•)、u(•)和v(•)都已

2 v
的服从正态分布的白噪
声。令:

A( z 1 ) B( z 1 )
1 a1z1 a2 z2 an zn b1z1 b2 z2 bn zn

D( z 1 )
1
d1z 1
d2z2

dnzn
• 且假定过程是渐近稳定的,即 A(z1) 、B(z1) 和 D(z1) 没 有公共因子,且 A(z1) 和 D(z1) 的零点都位于z平面的 单位圆内。
第一步:取


L(θ)θˆ
v( j) ML

2 vˆ( j) L
1 L
(
j)

n
dˆi( j
i 1
i)

0
j n 1,n 2,n L
并令:
( j) 0, j L 1, L 2,L n
得到下面的方程组:
( j)

n
dˆi( j i) 2vˆ( j)
i 1

0,
j

n 1, n 2,, L
v( j) 0,
j L 1, L 2,L n
第二步:就Lagrangian函数 L(θ) 对(k) 求导,并令 其为零,得:
n
n
n
vˆ(k) dˆivˆ(k i) z(k) aˆi z(k i) bˆiu(k i) (J)
• 的极大似然估计就是使 p(zL | ) | max 的
参数估计值
ML
8
即有


p(
zL
|

)




ML

0
log
p(zL

|

)


ML
0
9
显然对一组确定的数据 zL
p(zL | ) 只是参数 的函数,已不再是概率密 度函数
(H)
结论:在 e 未知的情形下,求模型(C)的参
数的极大似然估计等价于以下带有约束条件的优
化问题:优化的目标函数为(G),约束条件为
(F)。同时噪声方差

2 v
的极大似然估计值为
V (θˆML )
Lagrangian乘子法:
根据以上得到的结论,求解带有约束条件的优化问
题。引入Lagrangian乘子 (k), k n 1,n 2,,n ,L
构造Lagrangian函数:
L(θ)

1 L
L k 1
v2 (k )

1 L
L k 1
(k )v(k )

n k 1
div(k

i)
n
n

biu(k i) z(k) ai z(k i)
k 1
k 1

由此,上述优化问题转化为Lagrangian函数 L(θ) 对v(k) 、(k) 和 θ 的求最小值问题。
7
7.2 极大似然参数估计辨识方法
7.2.1 极大似然原理
• 设 z 是一个随机变量 – 在参数 条件下 z 的概率密度函数为 p(z | )
– z 的 L 个观测值构成一个随机序列 {z(k)}
• L 个观测值记作 zL z(1), z(2), , z(L)
z • 则 L 的联合概率密度为 p(zL | )
并且
2l(z Lθ) θ2
ˆML
0
因是此参(数θD)的式M给a出rk了ov参估数计的。极大似然估计值。此时的θˆM
恰好
L
如果 e


2 e
I
,则 θˆ ML

(H
L
H
L
)1
H
z
L
L
此时,参数θ 的极大似然估计和最小二乘估计是等价的。
对噪声方差的极大似然估计:
ˆe2

1 L
(z
L
则有对数似然函数:
l(z L u L1,θ) log L(z L u L1,θ) log p(z L u L1,θ)


L log(2 )
2

L 2
log

2 v

1
2
2 v
L
v2 (k )
k 1

const
其中满足:
n
n
n
v(k) z(k) ai z(k i) biu(k i) div(k i)
• 极大似然法
– 基本思想与最小二乘法和梯度校正法完全不同
3
极大似然法—— 需要构造一个以数据和未知参数 为自变量的似然函数,通过极大化似然函数获得模 型的参数估计值。模型输出的概率分布将最大可能 地逼近实际过程输出的概率分布。为此极大似然法 通常要求具有能够写出输出量的条件概率密度函数 的先验知识。在独立观测条件下,必须知道输出量 的概率分布;在序贯观测的条件下,则需要确定基 于k时刻以前的数据在k+1时刻输出量的条件概率分 布。
相关文档
最新文档