第7章 极大似然法和预报误差方法
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的数据在 (k 1)时刻输出量的条件概率分布
5
• 预报误差方法
– 需要事先确定一个预报误差准则函数 – 利用预报误差的信息来确定模型的参数 – 某种意义上
• 与极大似然法等价的 • 或极大似然法的一种推广
6
• 极大似然法和预报误差方法
– 优点:参数估计量具有良好的渐近性质 – 缺点:计算量比较大
噪声模型已知的情形(已知)
将模型(C)写成最小二乘格式:
z L
H
θ
L
e
L
其中:
z L
[z(1), z(2),, z(L)]
e L
[e(1), e(2),, e( L)]
θ [a1, a2,, an ,b1,b2,,bn ]
z(0) z(1 n) u(0) u(1 n)
H
θˆ
L ML
)
(z
L
H
θˆ
L ML
)
对噪声方差的最小二乘估计:
ˆe2
L
1
dimθ
(z
L
H
θˆ
L LS
)
(z
L
H
θˆ
L LS
)
噪声模型未知的情形(未知)
此时,令
e(k) v(k) d1v(k 1) dnv(k n)
θ [a1, a2 ,, an ,b1,b2 ,,bn , d1, d2 ,, dn ]
根据考察的模型(C),有:
n
n
n
z(k) ai z(k i) biu(k i) v(k) div(k i)
i 1
i 1
i 1
将此式代入到上式,我们有:
p(z(1), z(2),, z(L) u(1),u(2),,u(L 1)θ, )
Fra Baidu bibliotek
ML z在 (真0 值)条件下的
概率密度函数
max
p(z | ML) p(z |0)
– 上式反映极大似然原理的本质,但数学上不好实1现2
Kullback-Leibler信息测度:
我们称
I (θ0,θ)
ˆ
E{log
p(zθ0 )}
E{log
p(zθ)}
Elog
p(zθ0 ) p(zθ)
预报误差法——需要事先确定一个预报误差准则函 数,并利用预报误差的信息来确定模型的参数。
4
• 意味着
– 模型输出的概率分布将最大可能地逼近实际过程输 出的概率分布
– 通常要求具有能够写出输出量的条件概率密度函数 的先验知识
– 独立观测的条件下,必须知道输出量的概率分布
– 在序贯观测的条件下,需要确定基于 k 时刻以前
1
)2
exp
k 1
1
2
2 v
v2
(k
)
const
(2
)
L 2
(
2 v
)
L 2
exp
1
2
2 v
L
v
2
(k
)
const
k 1
记:
z L
[z(1), z(2),, z(L)]
u L 1
[u(1),u(2),,u(L
1)]
HL
z(1)
z(2 n)
u(1)
u(2 n)
z(L 1) z(L n) u(L 1) u(L n)
因为:e(k) v(k) d1v(k 1) dnv(k n)
则有 E{e(k)e(k
再次利用极大似然原理,参数θ 的极大似然估计θˆML 必须使
得:
l(z L u L1,θ) θˆML max
令:
V (θ) 1 L v2 (k)
L k 1
(G)
则这等价于使得
V (θˆML)
1 L
L
v2 (k ) θˆML
k 1
min
其中v(k)满足(F)的约束条件。
j)}
n i0
dl
dl
j
2 v
d0 ˆ 1; dl 0 (l 0 or l n)
记噪声e(k)的协方差阵为
e
E{e
e
L
L
}
,则由v(k)的
正态性,可知:
z L
~
N
(
H
θ
L
,
e )
因此,有:
p(z Lθ)
(2
L
)2
1
(dete ) 2
exp
在独立观测的前提下,当获得L组输入输出数据 u(k),z(k) 后,在给定的参数θ 和输入信号u(1),u(2),,u(L 1)的 条件下, z(1), z(2),, z(L) 的联合概率密度函数可 写成:
p(z(1), z(2),, z(L) u(1),u(2),,u(L 1)θ, )
1 2
(z L
H Lθ)
e1(z L
H Lθ)
对应的对数似然函数为:
l(z Lθ) log p(z Lθ)
L 2
log(2
)
1 2
log(dete )
1 2
(z L
H Lθ)
e1(z L
H Lθ)
由极大似然原理可得:
θˆ ML
(HL e1HL )1 HL e1zL
| )
ML
0
– log L(zL |-)对数似然函数
–
ML
- 极大似然参数估计值
– 使得似然函数或对数似然函数达到最大值
11
物理意义(极大似然原理的数学表现)
– 对一组确定的随机序列 zL
– 设法找到参数估计值
ML
–
使得随机变量
z在
大可能地逼近随机变量
条件下的概率密度函数最
p(z(L) z(1), z(2),, z(L 1),u(1),u(2),,u(L 1)θ, )
p(z(L 1) z(1), z(2),, z(L 2),u(1),u(2),,u(L 1)θ, )
p(z(1) z(0),u(0)θ, )
L
p(z(k) z(1), z(2),, z(k 1),u(1),u(2),,u(k 1)θ, ) k 1
为Kullback-Leibler信息测度。可以证明:
I (θ0,θ) 0
7.2.2 动态过程模型参数的极大似然估计
• 考虑以下模型:
A(z1)z(k) B(z1)u(k) e(k)
e(k )
D( z 1 )v(k )
•
其中:v(k ) 是均值为零,方差为
第7章 极大似然法和预报误差方法
1
7.1 引言
• 极大似然法
– 一种非常有用的传统估计方法 – 由 Fisher 发展起来的 – 基本思想可追溯到高斯(1809 年) – 用于动态过程辩识可以获得良好的估计性质
2
• 最小二乘法和梯度校正法
– 计算简单 – 参数估计具有优良的统计性质 – 噪声的先验知识要求也不高
i 1
i 1
i 1
因此,当给定θˆ 和vˆ(k) 的初始值 vˆ(1),vˆ(2),,vˆ(n) ML
i 1
i 1
i 1
(E) (F)
利用极大似然原理,由
l(z L u L1,θ)
2 v
ˆ
2 v
0
得噪声方差
2 v
的极大似然估计:
ˆ
2 v
1 L
L
v2 (k )
k 1
将此式代入(E),可得:
l(z
L
u
L 1 ,θ)
L 2
log
1 L
L k 1
v2 (k )
const
经确定,且v(k)与z(1), z(2),, z(k 1),u(1),u(2),,u(k 1) 及θ
无关,因此上式可以写成:
p(z(1), z(2),, z(L) u(1),u(2),,u(L 1)θ, )
L
p(v(k)) const k 1
L
(2
1
)2
(
2 v
这时的 p(zL | ) 称作 的似然函数
以示区别有时记作 L(zL | ) 概率密度函数和似然函数有着不同的物理意义,
但数学表达式是一致的
L(zL | ) p(zL | )
10
极大似然原理的数学表示
或
L( z L
|
)
ML
0
log
L(zL
L k 1
p v(k)
n
ai z(k i)
i 1
n
biu(k i)
i 1
n
div(k i)
i 1
z(1), z(2),, z(k 1),u(1),u(2),,u(k 1)θ,
由于当观测至k时刻时,k-1时刻以前的z(•)、u(•)和v(•)都已
2 v
的服从正态分布的白噪
声。令:
A( z 1 ) B( z 1 )
1 a1z1 a2 z2 an zn b1z1 b2 z2 bn zn
D( z 1 )
1
d1z 1
d2z2
dnzn
• 且假定过程是渐近稳定的,即 A(z1) 、B(z1) 和 D(z1) 没 有公共因子,且 A(z1) 和 D(z1) 的零点都位于z平面的 单位圆内。
第一步:取
L(θ)θˆ
v( j) ML
2 vˆ( j) L
1 L
(
j)
n
dˆi( j
i 1
i)
0
j n 1,n 2,n L
并令:
( j) 0, j L 1, L 2,L n
得到下面的方程组:
( j)
n
dˆi( j i) 2vˆ( j)
i 1
0,
j
n 1, n 2,, L
v( j) 0,
j L 1, L 2,L n
第二步:就Lagrangian函数 L(θ) 对(k) 求导,并令 其为零,得:
n
n
n
vˆ(k) dˆivˆ(k i) z(k) aˆi z(k i) bˆiu(k i) (J)
• 的极大似然估计就是使 p(zL | ) | max 的
参数估计值
ML
8
即有
或
p(
zL
|
)
ML
0
log
p(zL
|
)
ML
0
9
显然对一组确定的数据 zL
p(zL | ) 只是参数 的函数,已不再是概率密 度函数
(H)
结论:在 e 未知的情形下,求模型(C)的参
数的极大似然估计等价于以下带有约束条件的优
化问题:优化的目标函数为(G),约束条件为
(F)。同时噪声方差
2 v
的极大似然估计值为
V (θˆML )
Lagrangian乘子法:
根据以上得到的结论,求解带有约束条件的优化问
题。引入Lagrangian乘子 (k), k n 1,n 2,,n ,L
构造Lagrangian函数:
L(θ)
1 L
L k 1
v2 (k )
1 L
L k 1
(k )v(k )
n k 1
div(k
i)
n
n
biu(k i) z(k) ai z(k i)
k 1
k 1
由此,上述优化问题转化为Lagrangian函数 L(θ) 对v(k) 、(k) 和 θ 的求最小值问题。
7
7.2 极大似然参数估计辨识方法
7.2.1 极大似然原理
• 设 z 是一个随机变量 – 在参数 条件下 z 的概率密度函数为 p(z | )
– z 的 L 个观测值构成一个随机序列 {z(k)}
• L 个观测值记作 zL z(1), z(2), , z(L)
z • 则 L 的联合概率密度为 p(zL | )
并且
2l(z Lθ) θ2
ˆML
0
因是此参(数θD)的式M给a出rk了ov参估数计的。极大似然估计值。此时的θˆM
恰好
L
如果 e
2 e
I
,则 θˆ ML
(H
L
H
L
)1
H
z
L
L
此时,参数θ 的极大似然估计和最小二乘估计是等价的。
对噪声方差的极大似然估计:
ˆe2
1 L
(z
L
则有对数似然函数:
l(z L u L1,θ) log L(z L u L1,θ) log p(z L u L1,θ)
L log(2 )
2
L 2
log
2 v
1
2
2 v
L
v2 (k )
k 1
const
其中满足:
n
n
n
v(k) z(k) ai z(k i) biu(k i) div(k i)
• 极大似然法
– 基本思想与最小二乘法和梯度校正法完全不同
3
极大似然法—— 需要构造一个以数据和未知参数 为自变量的似然函数,通过极大化似然函数获得模 型的参数估计值。模型输出的概率分布将最大可能 地逼近实际过程输出的概率分布。为此极大似然法 通常要求具有能够写出输出量的条件概率密度函数 的先验知识。在独立观测条件下,必须知道输出量 的概率分布;在序贯观测的条件下,则需要确定基 于k时刻以前的数据在k+1时刻输出量的条件概率分 布。