矩阵微积分及应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
函数 f ( x, y) 5x y 的梯度
y 8 7 6 5 4 3 2 1 1
x+y=2 x+y=4 x+y=6 x+y=8
f(x,y)=5(x+y) x=[x y]T ▽x f(x)=[5 5]T
2
3
4
5
6
7
8
x
中国科学院空间信息处理与应用系统技术重点实验室
常用例子-2
函数 f ( x, y)
1 2 x y2 2
的梯度
8 7 6 5 4 3 2 1
x2+y2=4 x2+y2=16 x2+y2=36
y
f(x,y)=0.5x2+0.5y2 x=[x y]T ▽x f(x)=[x y]T
–8 –7 –6 –5 –4 –3 –2 –1 –1 –2 –3 –4 –5 –6 –7 –8
1
2
Z
F
vecZ tr ZZ T
中国科学院空间信息处理与应用系统技术重点实验室
O
常用例子-4
行列式相对于矩阵的梯度
8 7 6 5 4 3 2 1 O 1
S A
y
S C
Ζ 1 T Ζ Ζ Ζ
C
1 1 Z x A x B y y B A
1 1 1 1 xC 3 7 3 yC 3 3 6
x1 y1 f ( A) x2 y1 A xm y1 x1 y2 x2 y2 xm y2 x1 yn x1 x2 yn y1 yn xyT xm xm yn
1. 向量函数对于向量的求导,相当于向量函数中的 每一个分量函数对向量求导。 2.行向量函数对列向量自变量求导形成矩阵;列向 量函数对行向量自变量求导也可以形成矩阵。
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
例1
f (x) x x1 , x2 ,, xn
f x x 2
xn
f x x n
1. 以列向量为自变量的标 量函数,其对于自变量的 梯度仍然为一阶数相同的 列向量 2. 梯度的每个分量代表着 函数在该分量方向上的变 化率。
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
实值向量函数对于实向量的梯度
商法则
f x g x 1 f x g x 2 g x f x x g x x x
链式法则 f gx gT x f g
x x g
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
实值标量函数对于实向量的梯度
f x f x f x f x x f x , , , x x x x 1 2 n
T
x1
f x x1
x2
x f x f x x x
矩阵微积分
耿修瑞
中国科学院电子学研究所
gengxr@
2017.2
几个常用例子 实值函数相对于实向量的梯度 实值函数相对于矩阵的梯度 矩阵微分 迹函数的矩阵梯度 行列式的矩阵梯度 Hessian矩阵 应用实例
中国科学院空间信息处理与应用系统技术重点实验室
常用例子-1
实值函数相对于实向量的梯度
常用梯度公式及求导法则 函数 f (x) c
0 c 0 0 x 0
T f ( x ) a x 函数
aT x xT a a x x
函数 f (x) xT Ay
x T Ay Ay x
1 1 1 1 1 S Z 3 7 3 2 2 3 3 6
T
A
B
1 33 9 12 1 1 1 1 1 1 Ζ 3 7 3 3 7 3 3 3 0 Ζ 4 0 3 3 6 3 3 6 4
a11 f A am 1 f A a 1n f A a mn
f vec A vec A
A f A unvecvec A f vecA
f vec A vec A
T ˆ e e i j dxij i 1 j 1 m n
X ˆ Tj ei e xij
非常重要的一个公式
f X df (X) tr X
dX
T
中国科学院空间信息处理与应用系统技术重点实验室
,
矩阵微分
3
4
5
6
7
8
x
中国科学院空间信息处理与应用系统技术重点实验室
常用例子-3
迹函数相对于矩阵的梯度
tr ZZ T tr ZT Z 2Z Z Z
tr (ZZ T ) vec Z 2vecZ 2z
z vec(Z)
链式法则
g f A dg y f A A dy A
中国科学院空间信息处理与应用系统技术重点实验室
矩阵微分
对于一个以向量 x x1, x2 ,, xn 为变量的实值函
T
数 f (x) ,其微分公式定义如下
f x df (x) dxi i 1 xi
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于矩阵的梯度
实值函数 f A 相对于其自变量m n 矩阵 A 的 梯度定义为
f A a 11 f A f A a21 A f A am1 f A a12 f A a22 f A am 2 f A a1n f A a2 n A f A f A amn
例3
f (x) xT Ax
n n i 1 j 1
f (x) aij xi x j
与 x k 相关的项
a
j 1
n
kj k
x x j aik x i x k
i 1
n
n f (x) n akj x j aik xi A(k , :) x A(:, k )T x A(k , :) A(:, k )T x xk j 1 i 1
1.实值函数相对于矩阵的梯度仍然为一与矩阵同阶 的矩阵 2.实值函数相对于矩阵的梯度矩阵的每一个分量对 应于该函数在矩阵的每一个分量的变化率。
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于矩阵的梯度
实值函数相对于矩阵的求导和相对于向量的 求导本质上没有区别 f A
f x f1 x, f 2 x,, f m x
f1 x x 1 f x f m x 1 f x f1 x f 2 x , ,, x2 x x x x f x 1 xn f 2 x x1 f 2 x x2 f 2 x xn f m x x1 f m x x2 xf x f m x xn
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于矩阵的梯度
T f A x Ay 相对于矩阵 A 的梯度。 例:求
方法2:向量求导法
f A x Ay vec A
T
f vec A vec A
kron y, x
T
kron y, x
T
f (x) x T I n n T x T x f (x) xT I nn x x f (x) x vec Inn x T x f (x) xT vec I n n T T x x
T
中国科学院空间信息处理与应用系统技术重 unvec vec A f vec A
unvec kron y, x xy
unvec kron y, x
xyT
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
常用梯度公式及求导法则 线性法则
c1 f A c2 g A f A g A c1 c2 A A A
乘积法则 商法则
f A g A f A g A g A f A A A A
f A g A 1 f A g A 2 f A g A A g A A A
矩阵微分满足如下规则
线性法则
d X dX 乘积法则
d X Y dX dY
d XY dX Y X dY
证明:令 Z XY, 则有
zij xik ykj
S B
2
3
4
5
6
7
8
0 S S x A x Ζ S y A
0
S x B S y B
0 0 0 0 1 S 3 3 0 xC 2 S 4 0 4 y C
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
例2
f (x) Ax
A1, :x A2, :x f (x) Ax An, :x
f (x) Ax A T T x x
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
f (x) Ax AT x x
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
常用梯度公式及求导法则 线性法则
c1 f x c2 g x f x g x c1 c2 x x x
乘积法则
f x g x f x g x g x f x x x x
n
对于一个以 m n 阶矩阵 X 为变量的实值函数 f (x) , 其微分公式定义如下
f X df ( X) dxij i 1 j 1 xij
m n
中国科学院空间信息处理与应用系统技术重点实验室
矩阵微分
重要公式
dx 11 dx 12 dx 21 dx 22 dX dx dx m 2 m1 dx 1n dx 2n dx mn
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于矩阵的梯度
T f A x Ay 相对于矩阵 A 的梯度。 例:求
方法1:逐元素求导
f A x Ay aij xi y j
T i 1 j 1 m n
f ( A) xi y j aij
y 8 7 6 5 4 3 2 1 1
x+y=2 x+y=4 x+y=6 x+y=8
f(x,y)=5(x+y) x=[x y]T ▽x f(x)=[5 5]T
2
3
4
5
6
7
8
x
中国科学院空间信息处理与应用系统技术重点实验室
常用例子-2
函数 f ( x, y)
1 2 x y2 2
的梯度
8 7 6 5 4 3 2 1
x2+y2=4 x2+y2=16 x2+y2=36
y
f(x,y)=0.5x2+0.5y2 x=[x y]T ▽x f(x)=[x y]T
–8 –7 –6 –5 –4 –3 –2 –1 –1 –2 –3 –4 –5 –6 –7 –8
1
2
Z
F
vecZ tr ZZ T
中国科学院空间信息处理与应用系统技术重点实验室
O
常用例子-4
行列式相对于矩阵的梯度
8 7 6 5 4 3 2 1 O 1
S A
y
S C
Ζ 1 T Ζ Ζ Ζ
C
1 1 Z x A x B y y B A
1 1 1 1 xC 3 7 3 yC 3 3 6
x1 y1 f ( A) x2 y1 A xm y1 x1 y2 x2 y2 xm y2 x1 yn x1 x2 yn y1 yn xyT xm xm yn
1. 向量函数对于向量的求导,相当于向量函数中的 每一个分量函数对向量求导。 2.行向量函数对列向量自变量求导形成矩阵;列向 量函数对行向量自变量求导也可以形成矩阵。
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
例1
f (x) x x1 , x2 ,, xn
f x x 2
xn
f x x n
1. 以列向量为自变量的标 量函数,其对于自变量的 梯度仍然为一阶数相同的 列向量 2. 梯度的每个分量代表着 函数在该分量方向上的变 化率。
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
实值向量函数对于实向量的梯度
商法则
f x g x 1 f x g x 2 g x f x x g x x x
链式法则 f gx gT x f g
x x g
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
实值标量函数对于实向量的梯度
f x f x f x f x x f x , , , x x x x 1 2 n
T
x1
f x x1
x2
x f x f x x x
矩阵微积分
耿修瑞
中国科学院电子学研究所
gengxr@
2017.2
几个常用例子 实值函数相对于实向量的梯度 实值函数相对于矩阵的梯度 矩阵微分 迹函数的矩阵梯度 行列式的矩阵梯度 Hessian矩阵 应用实例
中国科学院空间信息处理与应用系统技术重点实验室
常用例子-1
实值函数相对于实向量的梯度
常用梯度公式及求导法则 函数 f (x) c
0 c 0 0 x 0
T f ( x ) a x 函数
aT x xT a a x x
函数 f (x) xT Ay
x T Ay Ay x
1 1 1 1 1 S Z 3 7 3 2 2 3 3 6
T
A
B
1 33 9 12 1 1 1 1 1 1 Ζ 3 7 3 3 7 3 3 3 0 Ζ 4 0 3 3 6 3 3 6 4
a11 f A am 1 f A a 1n f A a mn
f vec A vec A
A f A unvecvec A f vecA
f vec A vec A
T ˆ e e i j dxij i 1 j 1 m n
X ˆ Tj ei e xij
非常重要的一个公式
f X df (X) tr X
dX
T
中国科学院空间信息处理与应用系统技术重点实验室
,
矩阵微分
3
4
5
6
7
8
x
中国科学院空间信息处理与应用系统技术重点实验室
常用例子-3
迹函数相对于矩阵的梯度
tr ZZ T tr ZT Z 2Z Z Z
tr (ZZ T ) vec Z 2vecZ 2z
z vec(Z)
链式法则
g f A dg y f A A dy A
中国科学院空间信息处理与应用系统技术重点实验室
矩阵微分
对于一个以向量 x x1, x2 ,, xn 为变量的实值函
T
数 f (x) ,其微分公式定义如下
f x df (x) dxi i 1 xi
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于矩阵的梯度
实值函数 f A 相对于其自变量m n 矩阵 A 的 梯度定义为
f A a 11 f A f A a21 A f A am1 f A a12 f A a22 f A am 2 f A a1n f A a2 n A f A f A amn
例3
f (x) xT Ax
n n i 1 j 1
f (x) aij xi x j
与 x k 相关的项
a
j 1
n
kj k
x x j aik x i x k
i 1
n
n f (x) n akj x j aik xi A(k , :) x A(:, k )T x A(k , :) A(:, k )T x xk j 1 i 1
1.实值函数相对于矩阵的梯度仍然为一与矩阵同阶 的矩阵 2.实值函数相对于矩阵的梯度矩阵的每一个分量对 应于该函数在矩阵的每一个分量的变化率。
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于矩阵的梯度
实值函数相对于矩阵的求导和相对于向量的 求导本质上没有区别 f A
f x f1 x, f 2 x,, f m x
f1 x x 1 f x f m x 1 f x f1 x f 2 x , ,, x2 x x x x f x 1 xn f 2 x x1 f 2 x x2 f 2 x xn f m x x1 f m x x2 xf x f m x xn
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于矩阵的梯度
T f A x Ay 相对于矩阵 A 的梯度。 例:求
方法2:向量求导法
f A x Ay vec A
T
f vec A vec A
kron y, x
T
kron y, x
T
f (x) x T I n n T x T x f (x) xT I nn x x f (x) x vec Inn x T x f (x) xT vec I n n T T x x
T
中国科学院空间信息处理与应用系统技术重 unvec vec A f vec A
unvec kron y, x xy
unvec kron y, x
xyT
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
常用梯度公式及求导法则 线性法则
c1 f A c2 g A f A g A c1 c2 A A A
乘积法则 商法则
f A g A f A g A g A f A A A A
f A g A 1 f A g A 2 f A g A A g A A A
矩阵微分满足如下规则
线性法则
d X dX 乘积法则
d X Y dX dY
d XY dX Y X dY
证明:令 Z XY, 则有
zij xik ykj
S B
2
3
4
5
6
7
8
0 S S x A x Ζ S y A
0
S x B S y B
0 0 0 0 1 S 3 3 0 xC 2 S 4 0 4 y C
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
例2
f (x) Ax
A1, :x A2, :x f (x) Ax An, :x
f (x) Ax A T T x x
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
f (x) Ax AT x x
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于实向量的梯度
常用梯度公式及求导法则 线性法则
c1 f x c2 g x f x g x c1 c2 x x x
乘积法则
f x g x f x g x g x f x x x x
n
对于一个以 m n 阶矩阵 X 为变量的实值函数 f (x) , 其微分公式定义如下
f X df ( X) dxij i 1 j 1 xij
m n
中国科学院空间信息处理与应用系统技术重点实验室
矩阵微分
重要公式
dx 11 dx 12 dx 21 dx 22 dX dx dx m 2 m1 dx 1n dx 2n dx mn
中国科学院空间信息处理与应用系统技术重点实验室
实值函数相对于矩阵的梯度
T f A x Ay 相对于矩阵 A 的梯度。 例:求
方法1:逐元素求导
f A x Ay aij xi y j
T i 1 j 1 m n
f ( A) xi y j aij