chapt(精)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

矩阵分析及其应用
3.1 矩阵序列
定义3.1 设矩阵序列{A (k)},其中A(k)=()
(k ij a )∈C m ⨯n ,当k →∞, )(k ij a →a ij 时,称矩阵序列{A (k)}收敛,并称矩阵A=(a ij )为矩 阵序列{A (k)}的极限,或称{A (k)}收敛于A, 记为
A A k k =∞
→)(lim 或 A (k)→ A 不收敛的矩阵序列称为发散的。

由定义,矩阵序列A (k) 发散的充要条件为存在ij 使
得数列)(k ij a 发散。

类似地,我们可以定义矩阵收敛的Cauchy 定义
定义3.1' 矩阵序列{A (k)}收敛的充要条件为
对任给ε>0 存在N(ε), 当 k , l ≥ N(ε) 时有
||A (k)-A (l )|| < ε
其中||.||为任意的广义矩阵范数。

例1 ⎪⎪⎪⎪⎭
⎫ ⎝⎛-=∑=-n k n n k k e n n 12)()sin()1sin(11A 如果直接按定义我们因为求不出A (n )的极限从而
很难应用定义3.1证明收敛。

相反,由于∑∑∑+=+=+=-≤≤n m k n m k n m k k k k k k 1121
2)1(11)sin( < 1/m 从而只要l 充分大,则当m, n > l 时就有
ε≤∑+=n m k k k 12)sin( 这样A (l ) 收敛。

定理3.1 A (k)→ A 的充要条件为
||A (k) -A||→0
证明:利用广义矩阵范数的等价性定理,仅对∞范数可以证明。

即 c 1 ||A (k) -A||∞ ≤ ||A (k) -A||≤ c 2 ||A (k) -A||∞ 性质0 若A (k)→ A , 则 ||A (k)|| → ||A|| 成立。

性质1. 设A (k)→ A m ⨯n ,B (k)→ B m ⨯n , 则
α⋅ A (k)+β ⋅ B (k) → α⋅ A+β ⋅ B , ∀ α,β∈C
性质2. 设A (k)→ A m ⨯n ,B (k)→ B n ⨯l , 则 A (k) ⋅B (k)→ A ⋅B
证明:由于矩阵范数地等价性,我们可以只讨论相容的
矩阵范数。

||A (k) ⋅B (k)-A ⋅B|| ≤ || A (k) ⋅B (k) -A ⋅B (k)||+||AB (k)- A ⋅B||
≤ || A (k) -A||⋅||B (k)||+||A||⋅||B (k)-B||
注意||B(k)||→||B||,则结论可得。

特别地有
性质2’. A(k)→ A的充要条件为
A(k) x→Ax, 对任意x成立
或者y H A(k) x→ y H Ax, 对任意x,y成立.
(在无穷维空间中称为弱收敛,但在有限维空间中
和一般收敛性定义是等价的)
对于Hermite(对称)矩阵我们有如下的定理:
设A(k),k=1,2,…,和A都为Hermite矩阵,那么
A(k)→ A的充要条件为
x H A(k) x→x H Ax, 对任意x成立
推论:A(k),k=1,2,…, 为Hermite矩阵,
且单调减少,即A(k+1)-A(k)为半正
定Hermite矩阵,那么A(k)有极限.
性质3设A(k)和A都为可逆矩阵,且A(k)→A,则
(A(k))-1→A-1
证明:因为A-1⋅ (A(k)) →I. 所以存在K,当k >K时有||I- A-1⋅ (A(k))||<1/2
我们有(A(k))-1= A-1+( I- A-1⋅ (A(k))) (A(k))-1
从而||(A(k))-1||≤||A-1||+||( I- A-1⋅ (A(k)))||⋅|| (A(k))-1||
当k>K时,有
||(A(k))-1||≤||A-1||+1/2⋅|| (A(k))-1||
即||(A(k))-1||≤2⋅||A-1||
因为A-1- (A(k))-1= A-1 (A(k)- A) (A(k))-1
从而|| A-1- (A(k))-1||≤||A-1||⋅||A(k)- A||⋅||(A(k))-1||
(当k>K时) ≤||A-1||⋅||A(k)- A||⋅2||A-1||
(当k→∞时) →0
由定理3.1有(A(k))-1→ A-1
定义3.2矩阵序列{A(k)}称为有界的,如果存在常数
M>0,使得对一切k都有
a|<M 或等价的|| A(k)||<M’
|)(k
ij
定理:有界的矩阵序列{A(k)}一定有收敛的子列。

定义3.3 设A为方阵,且当k→∞时有A k→0,则称A为收敛矩阵。

定理3.2(迭代法基本定理) A k→0的充要条件为谱半径
ρ(A)<1.
证明:必要性:设A k→0,证明ρ(A)<1.
对A的任意特征值λ和相应的特征向量x有
λx=Ax.
这样我们有A k x=λk x
从而有|λ|k ⋅||x||=||A k x||≤||A k||⋅||x||
从而有|λ|k ≤||A k ||→0
这样有|λ|<1, 由于λ为A 的任意特征值,
所以ρ(A)<1, 即必要性得证。

充分性。

已知ρ(A)<1,证明A k →0.
取ε=(1-ρ(A))/2 >0,由定理2.10有,存在某种相容的 矩阵范数||.||M 使得 ||A||M < ρ(A)+ ε <1 从而||A k || M ≤(||A||M )k <(ρ(A)+ ε)k 所以当k →∞有||A k || M →0, 从而A k →0.
定理3.3 A k →0的充分条件为存在矩阵范数||.||M 使得 ||A||M <1
3.2矩阵级数
定义3.4设矩阵序列{A (k)},其中A (k)=()(k ij a )∈C
n ⨯n ,由它们 形成的无穷和 A (0)+A (1)+…+A (k)+…称为矩阵级数, 记为 ()0
k k A
∞=∑,即有 ()0k k A
∞=∑= A (0)+A (1)+…+A (k)+…
定义3.5 记S (N )=
()0N k k A =∑,称其为矩阵级数()0k k A ∞=∑的部分和. 如果矩阵序列{S (N)}收敛,且有极限S, 即有
S (N)→S
那么称矩阵级数
()0k k A ∞=∑收敛,且和为S, 记为 S=()0
k k A
∞=∑ 不收敛的矩阵级数称为发散的。

显然()0k k A
∞=∑=S 是指()0
k ij ij k a s ∞==∑,∀ i ,j 即矩阵级数收敛是指它的每个分量所构成的数项级数收敛。

性质:矩阵级数
()0k k A ∞=∑收敛的充要条件为对任意向量x, 向量级数()0k k A
x ∞=∑收敛。

定义3.6 设矩阵级数
()0k k A ∞
=∑的每个分量)(k ij a 所构成的数项 级数()0k ij k a
∞=∑绝对收敛,则称矩阵级数()0k k A ∞=∑绝对收敛。

关于绝对收敛,我们有如下的定理:
性质1. 绝对收敛的()0
k k A
∞=∑交换求和次序不改变其绝对 收敛性和极限值。

性质2. 矩阵级数()0k k A
∞=∑绝对收敛的充要条件为正项级数
()0||||k k A
∞=∑收敛。

性质3. 如果矩阵级数
()0k k A ∞=∑(绝对)收敛,那么()0k k PA Q ∞=∑ 也是(绝对)收敛,且有 ()0k k PA
Q ∞=∑=P (()0k k A ∞
=∑)Q 性质4. 设C n ⨯n
的两个矩阵级数
S 1: A (1)+A (2)+…+A (k)+…
S 2: B (1)+B (2)+…+B (k)+…
都绝对收敛,其和分别为A 和B.则矩阵级数
S 3: A (1) B (1)+ [A (1) B (2)+ A (2) B (1)]+…
+[ A (1) B (k)+ A (2) B (k -1) +…+A (k) B (1)]+… 绝对收敛且和为AB.
证明:由于S 1: A (1)+A (2)+…+A (k)+…绝对收敛的充要条件为 正项级数||A (1)||+||A (2)||+…+||A (k)||+…收敛且与排列无关。

我们证明的思路是证明正项级数:
||A (1) B (1)||+ ||A (1) B (2)+ A (2) B (1)||+…
+||A (1) B (k)+ A (2) B (k -1) +…+A (k) B (1)||+…
收敛。

引用魏氏定理,我们仅需验证下列正项级数:
||A (1)||⋅||B (1)||+ { ||A (1) ||⋅||B (2)||+ ||A (2) ||⋅||B (1)||}+… +{||A (1) ||⋅||B (k)||+ ||A (2) ||⋅||B (k -1) ||+…+||A (k) ||⋅||B (1)||}+… 收敛。

这由题设
正项级数||A (1)||+||A (2)||+…+||A (k)||+…
和正项级数 ||B (1)||+||B (2)||+…+||B (k)||+…
的收敛性可得。

定理3.4 幂级数 I+A+A 2+…+A k +…收敛的充要条件为 A 的谱半径ρ(A)<1, 收敛时其和为(I -A)-1。

若有矩阵范数||.||使得||A||<1,则
||(I -A)-1- (I+A+A 2+…+A k )||≤||A||k+1/(1-||A||) 证明: 必要性. 由于I+A+A 2+…+A k +…收敛,从而 S (k)= I+A+A 2+…+A k 收敛。

记T (k)= I+A+A 2+…+A k+1, A k+1=T (k)- S (k)收敛,且T (k)- S (k) →0,这样我们有
A k →0,从而ρ(A)<1.
充分性:设ρ(A)<1,(I -A)-1存在,由于
I+A+A 2+…+A k =(I -A)-1 -(I -A)-1 A k+1
因A k →0,所以 I+A+A 2+…+A k +…→ (I -A)-1.
又因为
(I -A)-1 - (I+A+A 2+…+A k )= (I -A)-1 A k+1
从而
||(I -A)-1 - (I+A+A 2+…+A k )||=|| (I -A)-1 A k+1||
设B=(I -A)-1A k+1,从而(I -A)B=A k+1即
B=AB+ A k+1,从而
||B||≤ ||A||⋅||B||+ ||A k+1||≤ ||A||⋅||B||+ ||A||k+1
因为矩阵范数||.||使得||A||<1,所以
||B||≤||A||k+1/(1-||A||)成立。

定理3.6 设幂级数 ∑∞==0)(k k k
z c z f 的收敛半径为r ,
如果方阵A 满足ρ(A)< r , 则矩阵幂级数
∑∞
==0)(k k k A c A f 是绝对收敛的;如果ρ(A) > r ,
∑∞=0k k k
A c 是发散的。

证明:利用绝对收敛的性质。

反之,设A 的特征值λ满足|λ|=ρ (A ),x 为λ相应的 特征向量 ∑=n k k k x A c 0)(=∑=n k k k x c 0)(λ=x c n k k
k
)(0
∑=λ, 由于ρ(A) > r ,那么x c n k k k )(0
∑=λ发散(注意x 为非零向量)
从而∑=n
k k
k x A c 0)(发散,这样∑∞=0k k k
A c 发散。

矩阵函数
定义:设一元函数f (z)能展开为z 的幂级数
∑∞
==0)(k k k z c z f (|z|<r)
其中r>0表示该幂级数的收敛半径。

当n 阶矩阵A 的 谱半径ρ(A ) < r 时,把收敛的矩阵幂级数
∑∞=0k k k A c 的和 为f (A ), 即 f (A )= 0k k
k c ∞=∑A .
性质1(代入规则): 若f (z )能展开为z 的幂级数,且f (z )=g (z ), 对 |z | < r 成立,则当ρ (A )< r 时, f (A )=g (A ).
矩阵函数举例:
sin(z )=z -z 3/3!+z 5/5! -… 则 sin(A )= I -A 3/3!+A 5/5! -…
cos(z )=1-z 2/2!+z 4/4! -…
cos(A )= I -A 2/2!+A 4/4! -…
e z =1+z +z 2/2!+z 3/3!+… e A =I+A +A 2/2!+A 3/3!+…
sin 2(z )+ cos 2(z )=1
可得:sin 2(A )+cos 2(A )= I
性质2 二元函数f (x ,y )能展开为x ,y 的幂级数,f (x ,y )=g (x ,y ). 若AB =BA ,则 f (A ,B )=g (A ,B ) (二元函数的代入规则).
矩阵函数值的求法
1.待定系数法
设n阶矩阵A的特征多项式ϕ(λ)=det(λI-A). 如果首1 多项式ψ(λ)=λm+b1λm-1+…+b m-1λ+b m(1≤m ≤n)
满足:(1) ψ(A)=0;(2) ψ(λ)整除ϕ(λ)(矩阵A的最小多项式与特征多项式均满足这些条件). 那么, ψ(λ)的零点都是A的特征值.记ψ(λ)的互异零点为
λ1, λ2,…, λs,相应的重数为r1,…,r s(r1+r2+…+r s=m),则有ψ(l)(λi)=0 (l=0,1,…,r i-1;i=1,2,…,s)
这里, ψ(l)(λ)表示ψ(λ)的l阶导数(下同).
设f(z)=∑∞
=0
k
k
k
z
c= ψ(z)g(z)+r(z). 其中r(z)是次数低于m的
多项式,于是可由f(l)(λi) = r(l)( λi ) 确定r(z).
利用f(A)= ψ(A)g(A)+r(A)=r(A).
因此我们的问题就是给定函数f(z),由约束条件
r(l)( λi )=f(l)(λi) l=0,1,…,r i-1;i=1,2,…,s
确定r(z)。

若知道函数f(x)在x0的函数值和直到n阶导数值,
则由Tayler展开式可得多项式:
T f(x)=f(x0)+f'(x0)(x-x0)+[f"(x0)/2!](x-x0)2
+[f(3)(x0)/3!](x-x0)3+…+[f(n)(x0)/n!](x-x0)n 使得T f(l)(x0)=f(l)(x0),l=0,1,2,…,n成立.
相应的若知道函数f(x)在x0,x1,x2,…x n的函数值
则有相应的Newton插值公式
N f(x)=f (x0)+f [x0,x1](x-x0)+f [x0,x1,x2](x-x0)(x-x1)+…
+f [x0,x1,…,x n](x-x0)(x-x1)…(x-x n-1)
使得N f (x i)=f (x i),i =0,1,2,…,n成立.
其中N f(x)的项为均差。

均差的定义和简单性质如下:
均差及性质
定义:f[x0,x k]=(f(x k)-f (x0))/(x k-x0)
为f (x)关于点x0,x k的一阶均差;
f[x0,x1,x k]=(f [x0,x k]-f [x0,x1])/(x k-x1)
为二阶均差。

一般地,称
f [x0,x1,…,x k]=(f [x0,x1,…,x k-2,x k]-f [x0,x1,…,x k-1])/(x k-x k-1) 为f (x)的k阶均差。

性质1. k阶均差可表为函数值的线性组合;
性质2. 均差与节点的排列次序无关;
性质3(均差与导数) 若f (x)在[a,b]上存在n阶导数,且结点x0,x1,x2,…x n∈[a,b],则存在ξ∈[x0,x1]使得
f [x0,x1,…,x n]=f(n)(ξ)/n!
成立,其中x0=min{x0,x1,x2,…x n}, x1=max{x0,x1,x2,…x n}。

推论:若f (x)在[a,b]上存在n阶导数,则对任何c∈[a,b], f [c,c,…,c]=f(n)(c)/n! 成立。

证明:在性质3中令x0,x1,x2,…x n同时趋于c可得结论. 由此可见Newton插值公式可以看作Tayler展开式的推广,Tayler展开式只不过是插值节点重合的情形,相应的函数值变为导数值而已。

均差的计算:
x 0 f (x 0)
x 1 f (x 1) f [x 0,x 1]
x 2 f (x 2) f [x 1,x 2] f [x 0,x 1,x 2]
x 3 f (x 3) f [x 2,x 3] f [x 1,x 2,x 3] f [x 0,x 1,x 2,x 3]
x 4 f (x 4) f [x 3,x 4] f [x 2,x 3,x 4] f [x 1,x 2,x 3,x 4] f [x 0,x 1,x 2,x 3,x 4]
相应地,若有x 1=x 2=x 3,则有
x 0 f (x 0)
x 1 f (x 1) f [x 0,x 1]
x 1 f (x 1) f ' (x 1) f [x 0,x 1,x 1]
x 1 f (x 1) f ' (x 1) f " (x 1)/2! f [x 0,x 1,x 1,x 1]
x 4 f (x 4) f [x 1,x 4] f [x 1,x 1,x 4] f [x 1,x 1,x 1,x 4] f [x 0,x 1,x 1,x 1,x 4]
其它的类似.因此我们可以使用Newton 插值公式
得到满足插值条件的多项式.
例1 设⎥⎥⎥⎦
⎤⎢⎢⎢⎣⎡-=311211002A , 求e A t . 解 ϕ(λ)=det(λI -A )=(λ-2) (λ-5) (λ+1)
z f (z)=e z t 2 e 2 t
5 e 5 t ( f (5) -f (2))/(5-2)= (e 5 t -e 2 t )/3
-1 e - t ( f (-1) -f (5))/( -1-5)= (e 5 t - e - t )/6 (e 5 t -2e 2 t +e - t )/18 从而 f (z)=e z t =ϕ(z)P(z)+r(z),
其中 r(z)= e 2 t +(z -2) (e 5 t -e 2 t )/3+(z -2)(z -5) (e 5 t -2e 2 t +e - t )/18 = e 2 t (1+(z -2)/3-(z -2)(z -5)/9)
+ e 5 t ((z -2)/3+(z -2)(z -5)/18)
+ e - t (z -2)(z -5)/18
f (A )=e A t =r(A )= e 2 t (I+(A -2⋅I )/3-(A -2⋅I )(A -5⋅I )/9)
+ e 5 t ((A -2⋅I )/3+(A -2⋅I )(A -5⋅I )/18)
+ e - t (A -2⋅I )( A -5⋅I )/18
= ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-9/163
/23/23/49
/49/5001
2t e +⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--9/16/6/13/19/29/20005t e + ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-----9/26
/16/13/19
/19/1000
t e 例3.5 设⎥⎥⎥⎦
⎤⎢⎢⎢⎣⎡-=31111
1002A , 求e A t 解ϕ(λ)=det(λI -A )=(λ-2)3
z f (z)=e z t
2 e 2 t 2 e 2 t f ' (2)= te 2 t
2 e 2 t f ' (2)= te 2 t f ''(2)/2!= t 2 e 2 t /2
从而 f (z)=e z t =ϕ(z )P(z )+r(z ),
其中 r(z)= e 2 t +t e 2 t (z -2)+t 2e 2 t (z -2)2/2
f (A )=e A t =r(A )= e 2 t (I+t (A -2⋅I )+ t 2(A -2⋅I )2/2 )
=⎥⎥⎥⎦
⎤⎢⎢⎢⎣⎡+--t t t t t e t 1110012
例: ⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎣⎡----=1110010000101121A , 求 f (A ), 其中 f (z)= z 16-z 10。

解:由于det(λI - A )=( λ-1)3(λ+1)=ϕ(λ) ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡----=1110010000101121A ,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡---=10000100001003512A ⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎣⎡-----=11100100001014713A , 求 r(z )使得f (z )=P(z) ϕ(z)+ r(z), 其中f (z)= z 16-z 10
z f (z)
1 0
1 0 f '(1)=6
1 0 f '(1)=6 f ''(1)/2!=75
-1 0 0 (0-6)/( -1-1)=3 (3-75)/ ( -1-1)=36 因此 r(z)= 0+6(z -1)+ 75(z -1)2+36(z -1)3
从而f (A )=r(A )= 6(A - I )+ 75(A - I )2+36(A -I )3 即r(A)= ⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎣⎡-0000000000000990
2. 数项级数求和法。

利用A m =k 0I+k 1A+k 2A 2+…+k m -1A m -1
代入计算即可。

3. 对角阵法
若A 相似于对角阵,求出它的对角矩阵和相似矩阵
即 A=PDP -1, 则f(A)= Pf(D)P -1
4.Jordan 标准型法
A= P -1J P , 则f(A)= P -1f(J)P
作业:利用MA TLAB 编制一个计算任意矩阵函数的程序.
(提示:可以利用已有的矩阵特征值求解程序)
4 矩阵的微分和积分
定义3.9 如果矩阵A(t)=(a ij (t))m ⨯n 的每一个元素a ij (t) 是变量t 的可微函数,则A(t)关于t 的导数(微商)定义为 A '(t )= (
dt d a ij (t ) )m ⨯n 性质1. dt d (A(t)+B(t))= dt d A(t)+ dt
d B(t) 性质2.dt d (A (t)B (t))=dt d A (t)⋅B (t)+A (t)⋅dt
d B (t) 性质3. dt d (α(t)A(t))= α'(t)A(t)+ α(t) ⋅dt
d A(t) 性质4. 如果A(t )和dt
d A(t )可交换,f (z )和t 无关 则有dt d f (A(t))=f '(A(t))dt
d A(t) 特别注意若A(t )和dt
d A(t )不可交换, 则上式不一定成立。

定义3.10 如果矩阵A(t )的每个元素a ij (t )都是区间[t 0,t 1]上 的连续函数,则定义A(t)在[t 0,t 1]上的积分为分量积分 构成的矩阵. 即

10t t A(t) dt=(⎰10t t a ij (t)dt ) 性质:(积分算子仍为线性算子) ⎰1
0t t (A(t)+B(t))dt=
⎰10t t A(t)dt+⎰10t t B(t)dt ⎰10t t P ⋅A(t)⋅Qdt=P(⎰10t t A(t)dt) Q
当a ij (t)都在[t 0,t 1]上连续时,就称A(t)在[t 0,t 1]上连续. 且有 dt d ⎰t
a A(s)ds=A(t)
当a ij (t)都在[a,b]上连续时 ⎰b a A '(s)ds=A(b)-A(a)
其它微分概念
1函数对矩阵的导数(包括向量)
定义:设X =(ξij )m ⨯n ,mn 元函数
f (X )=f (ξ11, …, ξ1n , ξ21…, ξm1,…, ξmn )
定义f (X )对矩阵X 的导数为
X d df =n m ij f ⨯⎪⎪⎭⎫ ⎝⎛∂∂ξ=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡∂∂∂∂∂∂∂∂mn m n f f
f f ξξξξ
1111
=11m n
T i j i j ij f ξ==∂∂∑∑e e
矩阵的分量和矩阵符号的关系
这个关系式实际上可以为我们把一个关于分量的等式转化为 关于矩阵-向量的形式。

最后一个式子可以由第二个式子 结合vec(∙)向量化算子的定义推得。

实际上有所谓的转换定理
转换定理:设X =(x ij )和Y =(y ij )分别是m ⨯n 和p ⨯q 的矩阵, A ,B ,C 和D 分别为p ⨯m ,n ⨯q ,p ⨯n 和m ⨯q 的矩阵,它们可以是 X ,Y 的函数,则如下两条是等价的 (1)
D n m C
E B n m AE x Y T ij ij ij
)()(⨯+⨯=∂∂,n j m i ,...,1,,...,1== (2) C q p DE B q p E A X y T ij T ij T ij )()(⨯+⨯=∂∂,q j p i ,...,1,,...,1== 其中 E ij (m ⨯n )表示第i 行第j 列元素为1,而其余元素为0的m ⨯n 矩阵. 证明:为了简单起见,我们记e i 为第i 个分量为1,而其余分量为0的 单位列向量,其维数根据上下文确定。

首先证明(1)→(2),
实际上
il
kj jl ki l T i j T k l T
j i T k l ij
T k ij kl d c b a De e Ce e Be e Ae e e x Y e x y +=+=∂∂=∂∂
由于
∑∑==∂∂=∂∂m s n t T t s st ij ij
e e x y X y 11
∑∑==+=m s n t T t s sj it tj is e e d c b a 11)( ∑∑==+=m s n t T t
s t T i j T s t T T
j i T T s e e Ce e De e e B e e A e 11)(∑∑∑∑====+=m s n t T t t T i j T s s m s n t T t
t T T j i T T s s e Ce e De e e e e B e e A e e 1111
∑∑∑∑====+=m s n
t T t t T i j T s s m s n t T t t T T j i T T s s e e C e De e e e e B e e A e e 11
11)()(C q p DE B q p E A T ij T ij T )()(⨯+⨯= 而证明(2)→(1)是一个类似的过程。

性质1.1 若 f (t)=f (x ), x =x (t)为向量, 则d f /dt=d x T /dt ⋅d f /d x .
性质1.2若 f (t)=f (X ), X =X (t)为矩阵, 则d f /dt=tr(d X T /dt ⋅d f /d X )
性质1:关于迹函数的导数 d(tr(X T A ))/d X =A . d(tr(A T X))/d X =A .
d(tr(A X))/d X =A T .
例 f (x)=x T Ax, 则d f /dx=(A+A T )x,
特别地,若A 为对称矩阵,g(x)=x T Ax/2,
则d g/d x=Ax.
例 设非奇异矩阵A(t )的对t 可导,则
d (|A |)/dt =|A | tr(A -1⋅d A /dt ) d(log|A |)/d A =(A T )-1
证明:由于d |A |/dt =121|(,,...,
,...,)|n i n i da a a a dt
=∑ = 121|(,,...,,...,)|||||
i n n i d dt =∑a a a a A A 考虑线性方程组A ⋅x =d a i /dt , 其中a i 为矩阵A 的第i 列。

根据Gramer 法则可得
12|(,,...,,...,)|/||i i n d x dt
=a a a a A 另一方面,我们知道x =A -1⋅ d a i /dt , 所以有 12|(,,...,
,...,)|/||i i n d x dt =a a a a A =1T i i d dt -a e A 因此有
d |A |/dt = 11
||n T i i i da e A dt -=∑A =11||n T i i i dA e A e dt -=∑A = |A | tr(A -1⋅d A /dt )
1) d (|A |)/dt = |A | tr[A -1⋅ d A /d t]
2).d (log|A |)/d A =(1/|A |)⋅d (|A |)/d A =(A T )-1
或者 det(A )=1n ij
ij j a =∑A , 其中A ij 为在矩阵A 中
去掉第i 行第j 列的代数余子式。

排列A ij 得如下矩阵
A ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nn n n n n A A A A A A A A A
212222111211 则根据代数余子式的定义可得
A (A
)T =|A | I 因此A = |A | (A T )-1
. 注意A ij 显然和a ij 无关,因此我们有d(|A |)/d A =A
=|A | (A T )-1
矩阵函数对矩阵的导数
(主要考虑向量值函数对向量的导数)
为了进行下面的讨论我们引入A 与B 的直积定义.
定义5.9 设A =(a ij )∈C m×n ,B =(b ij )∈C p ×q ,则称
如下的分块矩阵 1112121
22212n n mp nq m m mn a a a a a a C a a a ⨯⎡⎤⎢⎥⎢⎥⊗=∈⎢⎥⎢⎥⎣⎦
B B B B B B A B B B B (5.4.1) 为A 与B 的直积(Kronecker 积)。

定义3.13 设X=(ξij )m ⨯n 的mn 元函数
f ij (X )=f ij (ξ11, …, ξ1n , ξ21…, ξm 1,…, ξmn )
定义矩阵
F (X )= ⎥⎥⎥⎦
⎤⎢⎢⎢⎣⎡rs r s f f f f
1111 对矩阵X 的导数如下: dX dF =⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡∂∂∂∂∂∂∂∂mn m n F F F F ξξξξ
1
111
=11()m n T i j i j ij ξ==∂⊗∂∑∑F e e 其中 ij F ξ∂∂=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡∂∂∂∂∂∂∂∂ij rs ij
r ij s ij
f f f f ξξξξ 1111 (i =1,2,…r , j =1,2,…,s ) 我们可以进行形式化的表示为:
dX dF =⎪⎭⎫ ⎝⎛dX 1⊗dF
类似地,我们可以定义 dX dF =dF ⊗⎪⎭
⎫ ⎝⎛dX 1 当然只是形式上的表示而已.
性质2: y =Wx, 函数f (y )是向量y 的函数
则 d y T /d x =W T ,
d(f (y ))/d W=d(f (y ))/d y ⋅ x T
性质3:设f (x )是向量x 的函数,而x 又是u 的函数,则
d f /d u =d x T /d u ⋅d f /d x
根据定义 d x T /d u =(d x T /d u 1, d x T /d u 2,.., d x T /d u n )T
其中d x T /d u i =(d x 1/d u i ,…, d x n /d u i )
类似地, 设f (x )是向量x 的函数,而x 又是向量u 的
的向量值函数,u 是v 的向量值函数,则
d f /d v =d u T /d v ⋅d x T /d u ⋅d f /d x
证明:由题设f (x )是向量u 的函数,所以
d f /d v = d u T /d v ⋅d f /d u 而 d f /d u = d x T /d u ⋅d f /d x
从而d f /d v =d u T /d v ⋅d x T /d u ⋅d f /d x 成立。

性质4:设f (A )是矩阵A 的函数,而A 又是标量t 的函数,则
d f /d t =tr(d A T /dt ⋅d f /d A )
应用:考虑如下前馈神经网络模型模型的学习问题:
u =Wx
v =ϕ(u ) (即v i =ϕ(u i ), 其中, ϕ(⋅)为一元可微函数)
p =Uv
q =φ(p ) (即q i =φ(p i ), 其中, φ (⋅)为一元可微函数)
o =Vq e =(1/2)⋅ ||y -o ||2
其中:x , u,v,p,q,o 为向量,W ,U ,V 为矩阵.
求de /d V , d e/d U ,d e/d W .
解:"性质2: y =Wx, 函数f (y )是向量y 的函数
则 d y T /d x =W T ,
d(f (y ))/d W=d(f (y ))/d y ⋅ x T
性质3:d f /d v =d u T /d v ⋅d x T /d u ⋅d f /d x "
d e/d o =o -y
d e/d V =d e/d o ⋅q T
de /d U =de /dp ⋅v T =(d q T /d p )(d o T /d q )⋅de /d o ⋅v T
=diag(φ'(p i ))V T de /d o ⋅v T
de /d W =de /d u ⋅x T
= (d v T /d u )(d p T /d v )⋅de /d p ⋅x T
=diag(ϕ'(u i ))U T de /d p ⋅x T
定义δ3= o -y , δ2 = de /dp , δ1 = de /d u , 那么有
δ2 = diag(φ'(p i ))V T δ3, δ1=diag(ϕ'(u i ))U T δ2,
这就是在前馈神经网络模型中著名的误差反向传播算法。

其中,x 为网络输入,y 为网络的期望输出,而o 则为网络实际输出,δ3为误差.。

相关文档
最新文档