信号检测与估计理论(7)第七章 最大似然估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图 7-1 给出了 x = x 0 的 p(x;θ ) 关于θ 的曲线,如果 x = x 0 确实是 已经观测到的数据,那么,可以推断θ = θ 1 是不可能的,因为如果 θ = θ 1 ,则观测到 x = x 0 的概率非常小。而 θ = θ 2 更可能是真值,因 为在这一点,观测到 x = x 0 的概率很大,因此选择 θˆ = θ 2 作为估计 量,或者说在允许的θ 范围内,使 p(x 0 ;θ ) 最大的值 θ 2 作为估计量。
式中, A为待估计参量, w[n] 是方差为 A 的 WGN。因为待估计参 量 A 是观测值的均值和方差,此估计问题不同于前面的问题。
首先我们利用第 3 章介绍的 CRLB 法看能否找到满足等式 条件的 A 的 MVU。已知观测值的 PDF 为
p(x; A) =
取自然对数
1
(2πA) 2
N
⎡ 1 N −1 (x[n] − A)2 ⎤ exp⎢− ∑ ⎥ ⎣ 2 A n =0 ⎦
例7-5 仍考虑例 7-2 的问题(修改的 WGN 中的直流量估计,
A为待估计参量, w[n] 是方差为 A 的 WGN)
为了知道观测长度必须多大才能应用渐进结果,需要进行计 算机仿真。
ˆ 是(7-6)式, 我们已经知道修改的 WGN 中的直流量估计 A
即
N −1 1 ˆ = −1 + 1 A x 2 [n] + ∑ N n =0 2 4
ˆ = 1 A N
∑ x[ n ]
n=0
N −1
我们已经知道样本均值是有效估计(见例 3-3) ,所以这个 MLE 是有效估计。事实上,如果一个有效估计存在,那么,最大似然 方法将产生这个有效估计。
7.3 MLE 的性质 例 7.3 中所找到的估计,在大数情况下是无偏的(或渐进无 偏) ,并获得 CRLB,且有高斯 PDF。可总结为 MLE 满足下式
ˆ) = var( A
N (A + 1 2)
2
1⎞ ⎛ 4 A2 ⎜ A + ⎟ 2⎠ ⎝
A2 = N (A + 1 2 )
根据(7-2)式,上式结果恰好是 CRLB。 综上, (7-6) 式给出的估计是渐进无偏的并渐进地获得 CRLB, 因此,它是渐进有效的。
另外, 根据中心极限定理, 当 N → ∞ 时, 随机变量
2 =N⎡ ⎣ var ( x[ n ] ) + E ( x[ n ] ) ⎤ ⎦ = N ( A + A2 ) 如何选择 g 不明显, 不能简单地变换充分统计量来产生无偏估计。 我们再利用第二种方法求 MVU 估计,即确定条件概率 N −1 ˆ 是任意无偏估计。如果选择 A = x[0] ,那么 E A ∑ n = 0 x 2 [ n] ,这里 A
(
)
MVU 估计应是
N −1 ⎞ ⎛ E⎜ x [ 0 ] x 2 [ n] ⎟ ∑ ⎟ ⎜ n =0 ⎠ ⎝
(7-3)
然而,求上述条件概率是非常繁琐的事,不易得到 MVU 估计。
使用上述方法均无法找到 MVU 估计。 然而, 我们还是可以 提出一些估计,例如,考虑 A 是均值,选择估计为
x ˆ =⎧ A ⎨ 1 ⎩0
N −1
2
⎞ 1 [n] ⎟ + ⎠ 4
对所有的 A
1 1 = − + A + A2 + = A 2 4
所以这个估计是有偏的, 然而, 它确实是合理的。 因为当 N → ∞ 时, 根据大数定律有 1 N −1 2 x [ n ] → E (x 2 [ n ] ) = A + A 2 ∑ N n=0 ˆ→A A (根据(7-6)式)有 ˆ 就称为一致估计。 因此,这个估计量 A
θˆ ~ N (θ , I
a
a
−1
(θ ))
(7-8)
式中符号 ~ 表示“渐进服从” ,这个结果是相当通用的,并且是论 述 MLE 的最优性的基础。 当然,在实际中,很少事先知道 N 必须多大才能满足(7-8) 式。另外,通常不可能推导出 MLE 的 PDF 的解析表达式,这样 就不能评价其性能的好坏。然而,借助计算机仿真可以评价其性 能。
例 7-2 继续例 7-1 的问题 现在提出如下的估计
N −1 1 ˆ = −1 + 1 A x 2 [n] + ∑ N n =0 2 4
(7-6)
1⎞ ⎟ 4⎟ ⎠
由于
⎛ ˆ = E⎜ − 1 + EA ⎜ 2 ⎝
()
1 N
∑x
n =0
N −1
2
[ n] +
≠−
1 ⎛1 + E⎜ 2 ⎝N
∑x
n =0
数最大。 需要指出,最大似然函数不仅产生渐进有效估计,对于有限 数据也可产生有效估计。下面举例说明。
例7-4 WGN 中的直流量估计 已知观测数据为
x[n] = A + w[n]
n = 0,1,", N − 1
式中 A 为待估计参量, w[n] 是已知方差为 σ 2 的 WGN。显然 PDF (或似然函数)为 1 ⎡ 1 N −1 2⎤ p(x; A) = exp⎢− 2 ∑(x[n] − A) ⎥ N ⎣ 2σ n=0 ⎦ (2πσ 2 ) 2 取自然对数后求导 ∂ ln p(x; A) 1 N −1 = 2 ∑ ( x[n] − A]) ∂A σ n =0 令上式等于零求得 MLE 为
1 N
∑
N −1 n=0
x 2 [ n] 服
ˆ 是随机变 从高斯分布。又由于是在大数情况下, (7-7)式中的 A ˆ 也服从高斯分布。 量的线性函数,所以 A
7.2 最大似然估计(MLE)的确定
MLE 的定义:在未知参量θ 的取值范围内,对于确定的 x , 使似然函数 p(x;θ ) 最大的θ 值定义为 MLE。由于 p(x;θ ) 是 x 的函 数,所以最大化后产生的θˆ 也是 x 的函数。
( )
12 ⎞ ⎡1 ˆ =⎛ ⎜ var A ⎜ A +1 2 ⎟ ⎟ var ⎢ N ⎣ ⎝ ⎠
= N (A + 1 2 )
14
()
2
wk.baidu.com
∑x
n =0
N −1
2
⎤ [ n ]⎥ ⎦
1 4
2
var x 2 [ n ]
2 3 2 由于 varx [n] = 4A + 2A (见 3.6 节 p32) ,故
w[1] " w[ N − 1]]
T
。
2
ˆ = −1 + A 与 w[n] 相加得出 x[ n] ,利用 A 2
1 N
∑x
n =0
N −1
[ n] +
1 4
ˆ。 计算 A
ˆ 的实现。 ③ 重复上述过程 M 次,从而产生 M 个 A
(2)统计性能:
ˆ 的均值和方差: ① 确定 A
ˆ = 1 E A M
p ( x; A ) = 1 ⎡ 1 ⎛ 1 N −1 ⎞⎤ exp ⎢ − ⎜ ∑ x 2 [ n ] + NA ⎟ ⎥ exp ( N x ) ⎠⎦ ⎣ 2 ⎝ A n =0
(2πA ) 2
N
⎛ N −1 ⎞ g ⎜ ∑ x 2 [n], A⎟ ⎝ n =0 ⎠
h( x)
根 据 Neyman-Fisher 因 式 分 解 定 理 , A 的 充 分 统 计 量 为 N −1 T (x) = ∑n =0 x 2 [n] 。下一步就是假设 T ( x) 是完备的充分统计量的条件 下,找出一个能产生无偏估计量 的 T ( x) 的函数 g,这个函数是 A 的无偏估计。
ˆ = A 2
x >0 x<0
另外考虑 A 是方差,也可选择另一个估计为
1 N −1 ˆ ∑ x[n] − A 1 N − 1 n =0
(
)
2
但是,这些估计都不能说在任何情况下是最优的。 面对不能找到 MVU 估计的情况,我们提出近似最优估计的 概念,也就是当观测数据长度很大,或 N → ∞ 时,所提出的估计 是有效的,这意味着当 N → ∞ 时,有 ˆ) → A (7-4) E( A ˆ ) → CRLB (7-5) var( A 满足(7-4)式的估计称为渐进无偏估计,如果同时满足(7-4) 和(7-5)式的估计称为是渐进有效的。
假设 T ( x) 是一个完全的充分统计量,则我们要找的 g 应满足
⎡ ⎛ N −1 2 ⎞⎤ E ⎢ g ⎜ ∑ x [ n] ⎟ ⎥ = A ⎠⎦ ⎣ ⎝ n =0
对于所有的 A
由于
⎡ N −1 2 ⎤ 2 E ⎢ ∑ x [ n ] ⎥ = NE ⎡ ⎣ x [ n ]⎤ ⎦ ⎣ n=0 ⎦
7.1 问题的提出 通过举例来讨论为什么我们对近似的最优估计感兴趣。在举 例中我们可以看到,用以前的方法不能明显地找到 MVU,这 时可以考虑近似的最优估计,这个近似最优估计就是最大似 然估计(MLE) ,它近似地等于 MVU。 例 7-1 修改的 WGN 中的直流量的估计 已知观测数据为
x[n] = A+ wn [] n = 0,1,", N −1
g (u ) ≈ g (u 0 ) +
即
ˆ ≈ A+ A ⎡1 1⎢ N A+ ⎣ 2 1 2
dg (u ) du
u =u0
(u − u 0 )
∑x
n =0
N −1
2
⎤ [n] − A + A 2 ⎥ ⎦
(
)
(7-7)
则渐进均值为
ˆ = A E A
ˆ 是渐进无偏的。另外由(7-7)式可得渐进方差 因此 A
ˆ − A) ? = I ( A)( A 上式不能明显地转换成所需要的形式,因此,有效估计不存在。 但仍能确定这个问题的 CRLB (7-2) 2
ˆ) ≥ var( A A 1⎞ ⎛ N⎜ A + ⎟ 2⎠ ⎝
我们现在考虑用充分统计理论(5 章)寻找 MVU 估计,由于 1 N −1 1 N −1 2 2 x [ n ] − 2 Nx + NA ∑ (x[n] − A) = A ∑ A n =0 n =0 则(7-1)式可分解为
考虑它是 A 的函数,也就是似然函数。取自然对数后微分得
N 1 N −1 ∂ ln p(x; A) 1 N −1 (x[n] − A])2 =− + ∑ ( x[n] − A]) + ∑ 2A A ∂A 2 A2 n = 0 n =0
令上式等于零可求得
ˆ2 + A ˆ− N − 1 A 2A N
∑x
n=0
N −1
2
[n] = 0
由此求出 2 个解
ˆ =−1± A 2 1 N
∑x
n=0
N −1
2
[n] +
1 4
ˆ为 根据 A 的允许范围: A > 0 ,选择 A
1 1 N −1 2 1 ˆ A=− + x [n] + ∑ N n =0 2 4
ˆ > 0 。最后可通过二阶微分确认 A ˆ 使似然函数的自然对 上式看出 A
^
( )
^
∑
M
i =1
ˆ A i
(7-9)
^ M ⎛ 1 ˆ = ˆ −E A ˆ var A A ⎜ ∑ i ⎜ M i=1 ⎝
()
()
⎞ ⎟ ⎟ ⎠
2
(7-10)
② 利用直方图,确定 PDF。 表 7-1 给出了 A = 1 情况下的不同数据记录长度的结果。理论 上的渐进均值和归一化(normalized)方差为
− N /2
(7-1)
ln p(x; A) = ln[( 2π A)
⎡ 1 N −1 2⎤ ] + ⎢− ∑( x[n] − A) ⎥ ⎣ 2A n=0 ⎦
对上式求 A 的偏导
∂ ln p(x; A) N 1 N −1 1 N −1 2 = − + ∑( x[n] − A) + 2 ∑(x[n] − A) ∂A 2 A A n=0 2 A n=0
图 7-1 最大似然估计的原理说明
例 7-3 继续例 7-1 的问题( A为待估计参量, w[n] 是方差为 A 的 WGN) 现在利用最大似然原则解决该问题,由(7-1)可知 PDF 为
p(x; A) =
1 (2πA)
N 2
⎡ 1 N −1 (x[n] − A)2 ⎤ exp⎢− ∑ ⎥ ⎣ 2 A n =0 ⎦
ˆ 的均值和方差,可利用线性化方法。 为了求出当 N → ∞ 时的 A
令u =
1 N
∑
N −1 n=0
ˆ ,即 x 2 [n] , u 的函数 g (u ) = A
1 1 g (u ) = − + u + 2 4
由于当 N → ∞ , 进行线性化如下
u=
1 N
∑x
n =0
N −1
2
[n] → A + A 2 ,则 g (u ) 在 u 0 = A + A 2 处,可
现在利用 Monte Carlo 法,对于各种观测数据记录长度产生
ˆ 实现,然后估计 A ˆ 的均值和方差。 M = 1000 次的 A
具体过程如下: (1)数据产生: ① 产生 N 个独立的服从 N (0, A) 的随机变量 w[n] , 利用 MATLAB 语言实现,实现语句: w = sqrt(A) ∗ randn( N ,1) 这个语句将产 生 N × 1 列矢量,即 w = [w[0] ②