数学专业外文文献翻译

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第3章最小均方算法
3．1 引言
最小均方(LMS ,least-mean-square)算法是一种搜索算法，它通过对目标函数进行适当的调整[1]—[2],简化了对梯度向量的计算。

由于其计算简单性，LMS 算法和其他与之相关的算法已经广泛应用于白适应滤波的各种应用中[3]-[7]。

为了确定保证稳定性的收敛因子范围，本章考察了LMS 算法的收敛特征。

研究表明，LMS 算法的收敛速度依赖于输入信号相关矩阵的特征值扩展[2]—[6]。

在本章中，讨论了LMS 算法的几个特性，包括在乎稳和非平稳环境下的失调[2]—[9]和跟踪性能[10]-[12]。

本章通过大量仿真举例对分析结果进行了证实。

在附录B 的B ．1节中，通过对LMS 算法中的有限字长效应进行分析，对本章内容做了补充。

LMS 算法是自适应滤波理论中应用最广泛的算法，这有多方面的原因。

LMS 算法的
主要特征包括低计算复杂度、在乎稳环境中的收敛性、其均值无俯地收敛到维纳解以及利用有限精度算法实现时的稳定特性等。

3．2 LMS 算法
在第2章中，我们利用线性组合器实现自适应滤波器，并导出了其参数的最优解，这对应于多个输入信号的情形。

该解导致在估计参考信号以d()k 时的最小均方误差。

最优(维纳)解由下式给出：
1
0w R p
-= (3.1)
其中，R=E[()x ()]T
x k k 且p=E[d()x()] k k ，假设d()k 和x()k 联合广义平稳过程。

如果可以得到矩阵R 和向量p 的较好估计，分别记为()R k ∧和()p k ∧
，则可以利用如下最陡下降算法搜索式(3．1)的维纳解：
w(+1)=w()-g ()w k k k μ∧
w()(()()w())k p k R k k μ∧∧
=-＋２ (3.2) 其中，k ＝0，1，2，…,g ()w k ∧
表示目标函数相对于滤波器系数的梯度向量估计值。

一种可能的解是通过利用R 和p 的瞬时估计值来估计梯度向量，即 ()x()x ()T
R k k k ∧
=
()()x()p k d k k ∧= (3.3) 得到的梯度估计值为
()2()x()2x()x ()()
T w g k d k k k k w k ∧
=-+
2x()(()x ()())T
k d k k w k =-+ 2()x()e k k =- (3.4)
注意，如果目标函数用瞬时平方误差2
()e k 而不是MSE 代替，则上面的梯度估计值代表了真实梯度向量，因为
2
010()()()
()2()2()2()()()()T
e k e k e k e k e k e k e k w w k w k w k ⎡⎤∂∂∂∂=⎢⎥
∂∂∂∂⎣⎦
2()x()e k k =-
()
w g k ∧
= (3.5)
由于得到的梯度算法使平方误差的均值最小化．因此它被称为LMS 算法，其更新方程为 (1)()2()x()w k w k e k k μ+=+ (3.6) 其中，收敛因子μ应该在一个范围内取值，以保证收敛性。

图3．1表示了对延迟线输入x()k 的LMS 算法实现。

典型情况是，LMS 算法的每次迭代需要N+2次乘法(用于滤波器系数的更新)，而且还需要N+1次乘法(用于产生误差信号)。

LMS 算法的详细描述见算法3．1
图3．1 LMS 自适应RH 滤波器
算法3．1 LMS 算法
Initialization
x(0)(0)[000]T w ==
Do for 0k ≥
()()x ()()T
e k d k k w k =- (1)()2()x()w k w k e k k μ+=+
需要指出的是，初始化并不一定要像在算法3.1小那样将白适应滤波器的系数被创始化为零：比如，如果知道最优系数的粗略值，则可以利用这些值构成w(0)，这样可以减少到达0w 的邻域所需的迭代次数。

3．3 LMS 算法的一些特性
在本节中，描述丁在平稳环境下与LMS 算法收敛特性相关的主要特性。

这里给出的信息对于理解收敛因子μ对LMS 算法的各个收敛方面的影响是很重要的。

3．3．1 梯度特性
正如第2章中所指出的(见式(2.79))，在MSE 曲面上完成搜索最优系数向量解的理想梯度方向为
()2{[x()x ()]()[()x()]}
T w g k E k k w k E d k k =-
2[()]Rw k p =- (3.7) 在LMS 算法中，利用R 和p 的瞬时估计值确定搜索方向，即
()2[x()x ()()()x()]
T w g k k k w k d k k ∧
=- (3.8)
正如所期望的，由式(3．8)所确定的方向与式(3.7)所确定的方向很不同。

因此，当通过利用
LMS 算法计算更加有效的梯度方向时，收敛特性与最陡下降算法的收敛特性并不相同。

从平均的意义上讲，可以说LMS 梯度方向具有接近理想梯度方向的趋势，因为对于固定购系数向量w ，有
[()]2{[x()x ()][()x()]}
T w E g k E k k w E d k k ∧
=-
w
g = (3.9)
因此，向量g ()w k ∧
可以解释为w g 的无偏瞬时估计值。

在具有遍历件的环境中，如果对于一个固定的w ，利用大量的输入和参考信号来计算向量g ()w k ∧
，则平均方向趋近于w g ，即
1
1
lim ()M
w
w
M i g
k i g M
∧
→∞=+→∑ (3.10)
3．3．2 系数向量的收敛特性
假设一个系数向量为w 。

的未知FIR 滤波器，被一个具备相同阶数的白适应FIR 滤波器利用LMS 算法进行辨识。

在未知系统输出令附加了测量白噪声n(k)，其均值为零，方差为
2n σ。

在每一次迭代中，自适应滤波器系数相对于理想系数向量0w ，的误差由N+1维向量描述：
0()()w k w k w ∆=- (3.11) 利用这种定义，LMS 算法也可以另外描述为 (1)()2()x()w k w k e k k μ∆+=∆+
0()2x()[x ()x ()()]T T
w k k k w k w k μ=∆+- 0()2x()[x ()()]T
w k k e k w k μ=∆+-∆
0[2x()x ()]()2()x()T
I k k w k e k k μμ=-∆+ (3.12)
其中，0()e k 为最优输出误差．它由下式给出：
00()()x()
T e k d k w k =-
00x()()x()
T T w k n k w k =+-
()n k = (3.13) 于是，系数向量中的期望误差为
0[(1)]{[2x()x ()]()2[()x()]}T E w k E I k k w k E e k k μμ∆+=-∆+ (3.14)
假设x()k 的元素与()w k ∆和0()e k 的元素统计独立，则式(314)可以简化为 [(1)]{2[x()x ()]}[()]T
E w k I E k k E w k μ∆+=-∆
(2)[()]I R E w k μ=-∆ (3.15) 如果我们假设参数的偏差只依赖于以前的输入信号向量，则第一个假设成立，而在第二个假设中，我们也考虑了最优解对应的误差信号与输入信号向量的元素正交。

由上述表达式可得
1
[(1)](2)
[(0)]k E w k I R E w μ+∆+=-∆ (3.16)
如果将式(3．15)左乘Q T
(其中Q 为通过一个相似变换使R 对角化的酉矩阵)，则可以得到
[(1)](2)[(T T T
E Q w
k I Q R Q E Q w k
μ∆+=-∆ '
[(1)]E w k =∆+ '
(2)[()]I E w k μ=-Λ∆
1
'1200
012[()]0
012N E w k μλμλμλ-⎡⎤
⎢⎥
-⎢
⎥=∆⎢⎥⎢
⎥
-⎣
⎦
(3.17) 其中，'
(1)(1)T
w k Q w k ∆+=∆+为旋转系数误差向量。

应用旋转可以得到一个产生对角矩阵的方程，从而更加易于分析方程的动态特性。

另外．上述关系可以表示为 '
1
'[(1)](2)
[(0)]k E w k I E w μ+∆+=-Λ∆
101
'1
1(12)00
0(12)[(0)]00(12)k k k N E w μλμλμλ+++⎡⎤
-⎢⎥
-⎢
⎥=∆⎢⎥⎢
⎥-⎢⎥⎣
⎦
(3.18) 该方程说明．为了保证系数在平均意义上收敛，LMS 算法的收敛因子必须在如下范围内选
取：
max 1
0μλ<<
(3.19)
其中，max λ为R 的最大持征值。

在该范围内的μ值保证了当k →∞时，式(3．18)中对角
矩阵的所有元素趋近于零．这是因为对于i ＝0，l ，…,N ，有1(12)1i μλ-<-<。

因此，对于较大的k 值，'
[(1)]E w k ∆+趋近于零。

按照上述方法选取的μ值确保了系数向量的平均值接近于员优系数向量0w 比该指出的是，如果矩阵R 具有大的特征值扩展，则建议选择远小于上界μ值。

因此，系数的收敛速度将主要取决于最小特征值，它对应于式(3．18)中的最慢模式。

上述分析中的关键假设是所谓的独立件理论[4]，它考虑了当i =0，1，…，k 时，所有向量()x i 均为统计独立的情况。

这个假设允许我们考虑在式(3．14)中()w k ∆独立于
()x ()T x k k 。

尽管在x()k 由延迟线元素组成时，这个假设并不是非常有效，但是由它得到
的理论结果与实验结果能够很好地吻合。

3．3．3 系数误差向量协方差矩阵
在本节中，我们将推导得出自适应滤波器系数误差的二阶统计量表达式。

由于对于大的k 值，()w k ∆的平均值为零，因此系数误差向量的协方差的定义为
00cov[()][()()]{[()][()]}T T
w k E w k w k E w k w w k w ∆=∆∆=-- (3.20)
将式(3．12)代人式(3.20),可以得到
c o v [(1)]{[2x ()x ()]()()[
2x T T T
T
w k E I k k w k w k I k k
μμ∆+=-∆∆- 0[2x()x ()]()2()x ()T T
I k k w k e k k μμ+-∆ 02()x ()()[2x()x ()]T T T T
e k k w k I k k μμ+∆-
2204()x()x ()}
T e k k k μ+ (3.21)
考虑到0()e k 独立于()w k ∆且正交于()x k ，因此上式中右边第二项和第三项可以消除。

可以通过描述被消除的矩阵的每一个元素来说明这种简化的详细过程。

在这种情况下， cov[(1)]cov[()][2x()x ()()()T
T
w k w k E k k w k w k μ∆+=∆+-∆∆ 2()()x()x ()T
T
w k w k k k μ-∆∆ 2
4x()x ()()()T
T
k k w k w k μ+∆∆
2204()x()x ()]
T e k k k μ+ (3.22)
另外，假设()w k ∆独立于x()k ，则式(3．22)可以重新写为
cov[(1)]cov[()]2[x()x ()][()()]T
T
w k w k E k k E w k w k μ∆+=∆-∆∆ 2[()()][x()x ()]T
T E w k w k E k k μ-∆∆ 2
4E{x()x ()()()}T
T
k k w k w k μ+∆∆
2204[()x()x ()]
T E e k k k μ+
cov[()]2cov[()]w k R w k μ=∆-∆
222
2cov[()]44n w k R A R μμμσ-∆++ (3.23)
计算式E{x()x ()[()()]x()x ()}T T T
A k k E w k w k k k =∆∆包括了四阶矩，对于联合高斯输人信号样值，可以采用文献[4]，[13]中描述的方法。

通过将算子E[]⋅中的矩阵展开而得到结果。

其结果是
2cov[()]{cov[()]}A R w k R Rtr R w k =∆+∆ (3.24) 其中,tr[.]表示[.]的迹。

为了计算采用LMS 算法时梯度燥声估计所引起的额外MSE ，式(3．23)是必要的。

由于式(3．23)中最后一项为动态矩阵方程提供了激励，因此当k →∞时，
cov[(1)]w k ∆+不会趋近于零。

式(3．23)的更加有用的形式可以通过对其分别左乘Q T
和右乘Q 来得到，于是有
c o v [(1)]c o v [(
T
T
Q w k Q Q w k Q ∆
+=∆ 2cov[()]T T
Q RQQ w k Q μ-∆ 2cov[()]T
T
Q w k QQ RQ μ-∆ 28cov[()]T T T
Q RQQ w k QQ RQ μ+∆ 24{cov[()]}T T T
Q RQQ tr RQQ w k Q μ+∆
224T
n Q RQ
μσ+ (3.25)
其中，利用了恒等式Q Q=QQ T
T I =根据Q tr[B]Q=tr[Q BQ]I T
T
对于任意B 成立的事实，有
'
'
'
'
c o v [(1)]
c o v [()]2c o v [()]2c o v [
()]
w k w k w k w k μμ∆
+=∆-Λ∆-∆Λ 2'2'22
8cov[()]4{cov[()]}4n w k tr w k μμμσ+Λ∆Λ+ΛΛ∆+Λ (3.26)
其中'cov[()][()()]T T
w k E Q w k w k Q ∆=∆∆。

.
正如将要在3．3．6节中证明的，在LMS 算法中，只有'
cov[()]w k ∆对角元素对额外
MSE 有贡献。

如果定义'()v k 为其元素由'cov[()]w k ∆的对角元素组成的向量，且λ为R
的特征值组成的向量．则根据上述方程可以导出如下关系：
'222'22
(1)(484)()4T n v k I v k μμμλλμσλ
+=-Λ+Λ++
'22
()4n Bv k μσλ
=+ (3.27)
其中，B 的元素为
22222
14844i i i ij i j for i j b for i j μλμλμλμλλ⎧-++=⎪=⎨≠⎪⎩ (3.28)
收敛因于μ必须在保证'
()v k 收敛朗某个范围内取值。

由于矩阵B 是对称的，因此它只具有非负特征值。

另外，由于B 的所有元素也是非负值，因此，B 的任意行元素之和的最大值代表了B 的最大特征值的上界，参见文献[14]第63页。

其结果是，保证收敛的充分条件是迫使B 的任意行元素和保持在范围001N
j ij b =<∑<以内。

因为
2222
1484N
N
ij
i i i
j
j j b
μλμλμλλ
===-++∑∑ (3.29)
所以μ的关键值的选取必须使上式接近于1(因为对于任意μ，该表达式总是为正)。

这只有在式(3．29)中最后三项接近于零时才会发生，也就是说
2
2
2
4840
N
i i i j j μλμλμλλ=-++≈∑
经过简单的处理．可以得到如下稳定性条件：
max 00
11
10[]
2N
N j
j
j j tr R μλλλ==<<
<
=
+∑∑
(3.30)
其中，最后一个比较简单的表达式是在实际中应用得比较广泛的。

我们将在后面的式(3．47)中指出，μ控制厂MSE 的收敛速度。

从实际的观点来看，这里得到的μ的上界是很重要的，因为它给出了为实现系数收敛应该选用的μ的最大值。

然而，应该提醒读者的是，这里给出的上界在某种程度上讲是比较乐观的，因为在推导过程中利用了一些近似关系和假设。

在大多数情况下，μ值的选取不应该接近于上界。

3．3．4误差信号的特性
本节在考虑了未知系统模型为无限冲激响应且存在测量噪声的情况下，计算了自适应滤波器输出误差信号的均值。

当考虑了加性测量噪声以后，误差信号出下式结出：
'()()()x()()T
e k d k w k k n k =-+ (3.31) 其中，'
()d k 为没有测量噪声时的期望信号。

对于给定的已知输入向量x()k ，误差信号的期望
'[()][()][()x()][()]T
E e k E d k E w k k E n k =-+
'0[()]x()[()]
T E d k w k E n k =-+ (3.32)
其中，0w 是最优解，即系数向量的维纳解。

注意，在上式中假设输入信号向量是已知的，这是为了便于在自适应滤波器收敛到最优解时，揭示出我们所期望的内容。

如果'
()d k 是通过一个无限冲激响应系统产生的．则由于采用了不充分模型(自适应FIR 滤波器采用的系数数目不充足)，因此减去前面两项后存在着残留误差，即
1[()]()()[()]
i N E e k E h i x k i E n k ∞=+⎡⎤
=-+⎢⎥⎣⎦∑ (3.33)
在上式中，()h i (其中1,i N =+…，∞)为产生没有被自适应滤波器辨识出的'
()d k 部分的
随机过程的系数。

如果输入信号和n(k)具有零均值．则[()]0E e k =。

3．3．5最小均方误差
在本节中，针对不充分模型(undermodeling)情形，在加性噪声环境下计算了最小均方误差(MSE ，minimum mean-square error)。

对于系统辨识问题，假设仍然考虑自适应滤波器的系数少于未知系统系数这种不充分模型情况，此时可以写出
()x ()()
T d k h k n k ∞=+
0x()()x ()T
T k w h n k k --∞⎡⎤⎡⎤=+⎢⎥⎢⎥⎢⎥⎣
⎦⎣⎦ (3.34)
其中，0w 为包含未知系统冲激响应的前面N+1个系数的向量，_
h 则包含了h 的剩余向量。

具有N+1个系数的自适应滤波锯的输出信号出下式给出：
()()x()T y k w k k =
在这种情况下，MSE 具有如下表达形式：
20{()2x()()x()2()()x()T
T T T
E d k w k w k k h x k w k k ξ∞=--
2
2[()x()]()[()x()]}T T w k k n k w k k -+
2
x()x(){()2()0()x ()T
T
T T k k E d k w k w h x k k --∞
∞∞⎡⎤⎡⎤⎡⎤⎡⎤=-⎢⎥⎢⎥⎢⎥⎣⎦⎢⎥⎣
⎦⎣⎦⎣⎦
2
2[()x()]()[()x()]}T T w k k n k w k k -+ 02
[()]2()0()()T
T
T
w E d k w k R w k Rw k h ∞
∞⎡⎤⎡⎤=-+⎢⎥⎣⎦
⎣⎦ (3.35)
其中
x()()()()T T k R E x k x k x k ∞∞∞⎧⎫⎡⎤⎪⎪⎡⎤=⎨⎬⎢⎥⎢⎥⎣⎦⎪⎪⎣⎦⎩⎭ 且0∞是元素全部为零的无限长向量。

通过计算ξ相对于自适应滤波器系数的导数，可以得
到(参见式(2.79)和式(2．125)的推导过程)
01
1
0011{}N N w w w R trunc p R trunc R h ∧
--∞+∞+⎧⎫⎡⎤⎪⎪
==⎨⎬
⎢⎥⎪⎪⎣⎦⎩⎭
11
{}N R trunc R h -∞+= (3.36)
其中，1{}N trunc a +表示由a 的前面N+1个元素产生的向量。

应该注意的是，式(3．35)和式(3．36)的结果与算法无关。

当假设输入信号是与加性噪声信号无关的白噪声时，可以根据式(3．35)得到MSE ，即
2
2
2
2min min 1
[()]()[()][()]
i N E e k h i E x
k i E n k ξ∞
=+==
-+∑
2
221
()X n
i N h i σ
σ∞
=+=
+∑ (3.37)
当假设自适应滤波器乘积系数固定于其最优值时，可以实现最小误差，参考式(2．125)中的类似讨论。

在自适应滤波器具有充分阶数、可以模拟产生()d k 的过程的情况下，能够实现的最小MSE 等于加性噪声的方差，即2
n σ。

读者应该注意的是，本小节中所讨论的非充分模型的影响会产生相对于2
n σ的额外MSE 。

3．3．6额外MSE 和失调
上一节的结果假设了自适应滤波器系数收敛到其最优值，但实际上并不是这样。

尽管系数向量平均收敛到0w ，但由噪声梯度估计引起的瞬时偏差0()()w k w k w ∆=-会产生额外MSE 。

额外MSE 可以利用本节巾描述的方法进行度量。

在第k 时刻的输出误差为
0()()x()()()
T T e k d k w k w k x k =--∆
0()()()
T e k w k x k =-∆ (3.38)
于是
220()()()()()()()
T T e k e k w k x k w k x k w k =∆+∆∆ (3.39)
所谓的独立性理论假设向量x()k 对于所有k 值都是统计独立的，允许对LMS 算法进行简单的数学处理。

正如前面提到的，这个假设通常是不成立的，对x()k 由延迟线几素组成的情形来说尤为如此。

然而，即使在这种情况下，分析和实验结果的一致也可以说明采用独立性假设是合理的。

在独立性假设条件下，可以考虑()w k ∆是独立于x()k 的，因为在确定
()w k ∆时只包含了以前的输入向量。

利用这个假设，并对式(3．39)应用期望值运算，有
2
()[()]k E e k ξ= min 02[()][()x()][()x()x ()()]
T T T E w k E e k k E w k k k w k ξ=-∆+∆∆
min 02[()][()x()]{[()x()x ()()]}
T T T E w k E e k k E tr w k k k w k ξ=-∆+∆∆
min 02[()][()x()]{[x()x ()()()]}T T T E w k E e k k E tr k k w k w k ξ=-∆+∆∆ (3.40)
在上面的第四个等式中，利用了特性tr[A B]=tr[B A]⋅⋅。

上式中最后一项可以重新写为
{[x()x ()][()()]}T T
tr E k k E w k w k ∆∆
因为R=E[()x ()]T
x k k ，且由正交原理有0E[()()]=0e k x k ，因此上式可以简化为 min ()[()()]T
k E w k R w k ξξ∆
=+∆∆ (3.41) 于是额外MSE 为
min ()()[()()]T
k k E w k R w k ξξξ∆
∆=-=∆∆ {[()()]}T E tr R w k w k =∆∆
{[()()]}T
tr E R w k w k =∆∆ (3.42) 通过利用Q Q=I T
的事实，可以得到如下关系：
(){[()()]}T T T T
k tr E QQ RQQ w k w k QQ ξ∆=∆∆
'{cov[()]}T
tr Q w k Q =Λ∆ (3.43) 因此
'
(){cov[()]}k tr w k ξ∆=Λ∆ (3.44) 根据式(3．27)，可以证明 ''0
()()()N
T
i i i k v k v k ξλλ
=∆==∑ (3.45)
因为 '2
2
'
2
'
22
1
()(148)()4()4N
i i i i i
j j n i j v k v k v k μλμλμλλμσλ+==-+++∑ (3.46)
且对于大的k 值，有'
'
(1)()i i v k v k +≈。

可以对上式进行求和处理，以便得到
2
2''000
02()
()1N N
N
n i i i i i j j
N
j i
i v k v
k μσλμλλμλ====+=
-∑∑∑∑
2001N
n i
i N
i
i μσλμλ==≈
-∑∑
2[]
1[]
n tr R tr R μσμ=- (3.47)
其中，2'
02()N j i i v k μλ=∑与分子的剩余部分相比是很小的。

该假设不太容易证明，但它对于
较小的μ值是有效的。

于是，额外MSE 可以表示为 2
[]
lim ()1[]
n exc
k tr R k tr R μσξξμ→∞=∆≈- (3.48) 对于小的μ值，上式可以近似为
222
[](1)exc n n x tr R N ξμσμσσ≈=+ (3.49)
其中2x σ为输人信号方差，2
n σ为加性噪声方差。

失调M 的定义为exc ξ和最小MSE 之间的比值，该参数常常用于比较不同自适应信号处理算法。

对于LMS 算法，失调由下式给出： min []
1[]
exc tr R M tr R ξμξμ∆
=
≈- (3.50) 3．3．7 瞬态特性
LMS 算法在达到稳态特性以前，已在瞬态部分耗去了很多次迭代。

在这段时间里，
自适应滤波器系数和输出误差从其韧始值变比到接近于对应的最优解值。

对于白适应滤波器系数，平均收敛将遵循比值为(12)ui i r μλ=-的N+l 几何衰减曲线。

每一条曲线都可以由一个时间常数为wi τ的指数包络近似如下，见式(3．18)：
121
112!wi
r wi wi
wi
r e
ττ-==-
+
+ (3.51)
其中，对于每次迭代．指数包络中的衰减等于原始几何曲线中的衰减。

通常情况下，uc r 比1略小，尤其是对对应于小的i λ和μ的慢衰减模式来说。

因此 1
(12)1wi i wi
r μλτ=-≈- (3.52)
于是
12wi i
τμλ=
对于0,1,,i N =⋅⋅⋅成立。

注意，为了保证抽头系数在平均意义上收敛，μ必须在范围
max 01/μλ<<(见式(3．19))内取值。

按照式(3．30)，对于MSE 的收敛，μ 的取值范围是01/[]tr R μ<<。

考虑到2
μ项相对于矩阵B 的剩余项很小，可以根据式(3．27)中的矩阵B 计算出对应的时问常数．在这种情况下，几何衰减曲线的比值为(14)ei i r μλ=-，它可以与具有如下时间常数的指数包络相匹配：
14ei i
τμλ=
(3.53)
其中，0,1,,i N =⋅⋅⋅，误差和系数收敛所需的时间取决于输入信号相关矩阵持特征值的比值。

回到抽头系数的情形，如果选取的μ值与max 1/λ接近，则对应的系数的时间常数为 max max
min
22wi i λλτλλ≈
≤ (3.54) 由于具有最大时间常数的模式需要更长时间才能达到收敛．因此收敛速率是由根据
max
max min /(2)w
τλλ=确定的最慢模式决定的。

假设当最慢模式提供的衰减为100时，可认
为实现了收敛，即
max
0.01k
e
τ-=
这需要经过如下多次迭代以后才能达到收敛： max
min
4.6
2k λλ≈ 因为选取的μ值较高，所以上述情形是比较乐观的。

正如前面所提到的，实际上我们选择的μ值应该比上界小得多。

对于特征值扩展近似为1的情况，按照式(3．30)，选择的μ值应该小于max 1/[(3)]N λ+。

①在这种情况下，LMS 算法将至少需要 max
min
(3)4.6 2.3(3)2N k N λλ+≈≈+
次迭代才能实现系数的收敛。

本节给出的分析结果对于平稳环境是有效的。

LMS 算法也可以在非平稳环境下工作．这将在下节个进行讨论。

3．4 非平稳环境下的LMS 算法特性
在实际情形下，自适应滤波器所处的环境可能是非平稳的。

此时，输入信号白相关矩阵和(或)互相关向量，分别记为R(k)和p(k)将是随时间变化的。

因此、系数向量的最优解也是一个时变向量，用0()w k 表示。

由于最优系数向量不是固定的，因此分析LMS 算法是否能够跟踪0()w k 的变化是很重要的。

知道由0[()]()E w k w k -给出的系数的跟踪误差将如何影响输出ＭＳＥ也是很有意义的。

后面将会指出．跟踪0()w k 时引起的额外MSE 可以与测量噪声引起的额外MSE 分离。

因此，为不失一般性，在后面的分析中将考虑加性噪声为零的情形。

在LMS 算法中，系数向量的更新可以写为如下形式： (1)()2x()()w k w k k e k μ+=+
()2x()[()x ()()]T
w k k d k k w k μ=+- (3.55) 因为
0()x ()()T
d k k w k = (3.56)
因此系数的更新可以表示为
0(1)()2x()[x ()()x ()()]T T
w k w k k k w k k w k μ+=+- (3.57)
现在假设已经建立了非平稳自适应辨识过程的全体(ensemble)，其中每一次实验中的输入信号都是从相同的随机过程中取出的。

我们认为输入信号是平稳的，并义是退出过程。

这个假设将导致固定的R 矩阵，而且非平稳性是由输入信号应用到时变系统后产生的期望信号所引起的。

根据这些假设，对全体应用期望值计算，每次实验中的系数更新由式(3．59)给出，并且假设w(k)是独立于x(k)的，则得到
0[(1)][()]2[x ()x ()]()
2[x ()x ()][()]
T T
E w k E w k E k k w k E k k E w k μμ+=+- 0[()]2{()[()]}E w k R w k E w k μ=+- (3.58) 如果将系数向量中的滞后定义为
0()[()]()lw k E w k w k =- (3.59) 则式(3．60)可以重新写为
00(1)(2)()(1)()lw k I R lw k w k w k μ+=--++ (3.60)
为了简化分析，对上式左乘Q T
，得到一个去耦合的方程组
''''
00(1)(2)()(1)()l w k I l w k w k w k μ+=-Λ-++ (3.61)
其中，带有上标的向量为投影到变换空间中的原始向量。

正如所看到的，滞后误差向量的每—个元素是由如下关系确定的：
''''
(1)(2)()(1)()i i i oi oi l w k I l k w k w k μλ+=--++ (3.62)
其中，'()l k 为'
()w l k 的第i 个元素。

通过正确地解释上述方程，我们可以说滞后是通过将变换后的瞬时最优系数应用到一阶离散滤波器而产生的，该滤波器称为滞后滤波器．记为
''()i L z ，即
'
''''
1()()()()12i oi i oi i
z L z w z L z W z z μλ-=-
=-+ (3.63)
离散滤波器瞬时响应以指数包络的时间常数收敛，由下式给出： 12i i
τμλ=
(3.64)
当然，对于每个抽头系数而言、其时间常数是不同的。

因此，LMS 算法中系数的跟踪能力依赖于输入信号相关矩阵的特征值。

自适应滤波器系数的滞后(延迟)将导致额外MSE 。

为了计算出额外MSE ，假设最优系数向量的每一个元素都用一个一阶马尔可夫过程来建模。

这种非平稳情形可以视为真实情形的某种程度的简化。

然而，这种情形便于在保留复杂情形的本质的基础上进行数学分析。

一阶马尔可夫过程可以描述为
()(1)()o w o w w k w k n k λ=-+ (3.65)
其中，()w n k 是一个向量，其元素是零均值、方差为2
w σ的白噪声过程，并且1w λ<注意，因为最优系数值的变化，当0,1,,i N =⋅⋅⋅时，(12)1i w μλλ-<<必须比自适应滤波器的跟踪速度更慢，即
11
21w
μλ
λ<
-时。

当1w λ→时，这个模型不能代表一个真实系统，因为如果()w n k 不是准确的零均值过程，则0cov[()]w k 的元素将是无界的。

更加现实的模型应该包括一个因子2
(1)p
w λ-，其中1p ≥，将该因子与()w n k 相乘以保证0cov[()]w k 是有界的c 在后面的讨论中．将不会考虑这种情况，因为对应的结果很容易导出(见习题10)。

根据式(3．64)和式(3．65)，可以推断出滞后误差向量元素是通过对未知系统系数向量
应用一阶离散系统而产生的，两者都在变换空间中。

另一方面，未知系统的系数是通过将噪声向量()w n k )的每个元素应用到一个一阶全极点滤波器而产生的，其极点位于w λ。

对于采用上述模型的未知系数向量，滞后误差向量的元素可以通过将变换后的噪声向量
'()Q ()T w w n k n k =的每个元素应用到一个离散滤波器而产生，滤波器的传输函数为
(1)()(12)()i i w z z
H z z z μλλ--=
-+- (3.66)
这个传输函数是由滞后滤波器
''()
i L z 和表示一阶马尔可夫过程的全极点滤波器的级联组成
的，如图3．2所示。

利用逆Ｚ变换，则可以通过下式计算出向量'()
w l k 的元素的方差：
'2
121
1[()]
()()2i
i i w
E l w k H z H z z d z j
σπ--=⎰
11
(12)(12)11i w w i w i w i w μλλλμλλμλλμλλ⎡
⎤⎡⎤--=+⎢
⎥⎢⎥---+-+⎣
⎦⎣⎦ (3.67)
如果认为w λ的值很接近于1，则可以将上式简化为 2
'2
[()]4(1)
w
i i i E l w k σμλμλ≈
- (3.68)
图3．2 非平稳环境下的滞后模型
自适应滤波器系数向量相对于最优系数滤波器的任何误差都会产生额外MSE ，见式(3．43)。

由于滞后是自适应滤波器系数的一种误差源，因此由于滞后产生的额外MSE 为
[()()]T
lag w w E l k Rl k ξ=
{[()()]}T
w w E tr Rl k l k = {[()()]}T
w w tr RE l k l k =
'()i w n k
''()i L z
w
z z λ-
'()i l k
''{[()()]}T
w w tr E l k l k =Λ
'20
[()]N
i i
i E l
k λ==
∑
201
41N w i i
σμμλ=≈-∑ (3.69) 如果μ值很小，则由于滞后产生的MSE 趋近于无穷大，说明在这种情况下的LMS 算法不能跟踪环境的任何变化。

另一方面，如果对μ进行合理的选取。

则算法可以跟踪环境的变化，从而导致额外MSE 。

这个额外MSE 取决于最优系数扰动的方差，以及输入化号自相关短阵的特征值，正如式(3．71)所表明的那样。

现在分析由滞后产生的误差与在MSE 算法中内梯度的有噪声计算产生的误是之间的相互关系。

抽头中的总误差为
()()(){()[()]}{[()]o o w k w k w k w k E w k E w k w k ∆=-=-+- (3.72)
其中，上式中的第一项误差是由加性噪声引起的，而第二项误差是由滞后产生的。

于是，总的额外MSE 可以表示为
{[()()][()()]}T
total o o E w k w k R w k w k ξ=--
{(()[()])(()[()])}T
E w k E w k R w k E w k ≈--
{([()]())([()()])}T
o o E E w k w k R E w k w k +-- (3.73)
上式中用到了2{([()]())([()()])}0T
o o E E w k w k R E w k w k --≈，这是团为我们考虑了在
每次实验中0()w k 保持固定这个事实。

因此，将式(3．50)和式(3．71)中的结果相加，可以得到总的额外MSE 的估计值，即
220[]1
1[]41N n w total
i i
tr R tr R μσσξμμμλ=≈+--∑ (3.74) 如果采用很小的μ值，则上式可以简化为
2
2[](1)4w
total
n
tr R N σξμσμ
≈++ (3.75)
将上式相对于μ求微分，并令结果等于零，得到如下的μ的最优值 2
2
(1)4[]
w opt
n N tr R σμσ+= (3.76)
假设出opt μ能够得到最小额外MSE 。

然而，读者应该牢记的是，只有当opt μ，满足稳定性条件并可认为其值足够小时，才能保证式(3．75)有效。

另外，只有当不考虑量化效应时，这个值才是最优的，此时若采用短字长实现，则最优的μ值应该根据下节中给出的指南进行选取。

还应该指出的是，当输入信号和期望信号都同时是非平稳的时候[8]，[10]—[16]，研究由于环境的非平稳性引起的失调将更加困难。

因此，只有当所提出的假设条件满足时，这里给出的分析才
有效。

然而，这种简单的分析为LMS 算法在非平稳环境下的特性提供了很好的例子，对更加夏杂倩况下的特性也具有普遍的指导性。

上一节的分析结果是在假设算法利用无限精度实现时得到的。

然而，自适应滤波算法在实时系统中的广泛使用，要求利用短字长实现，以便满足速度要求。

当利用短字长精度实现时，LMS 算法的特性与用无限精度实现所期望的特性有很大不同。

特别地，当收敛因子μ趋于零时，通常期望最小均方误差达到稳定状态。

然而，由于量化效应的影响，如果μ小于某个值，则MSE 将倾向于显著增加。

事实广，如果μ的选择不正确．则算法可以停止某些滤波器系数的更新。

附录A 中的A ．1节给出了对LMS 算法中量化效应的详细分析。