常用矩阵微分公式
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特别, W 为对称矩阵
∂tr (WA) ∂tr ( AW ) = =A + AT − diag ( A) ∂W ∂W
5. W ∈ R
m×n
, A ∈ R m×n ∂tr (W T A) ∂tr ( AW T ) = = A ∂W ∂W
6. W ∈ R
m×n
∂tr (WW T ) ∂tr (W T W ) = = 2W ∂W ∂W
∂ [ f ( A) g ( A) ] ∂f ( A) ∂g ( A) = g ( A) + f ( A) ∂A ∂A ∂A
(3)商法则: g ( A) ≠ 0
∂ [ f ( A) / g ( A) ] ∂f ( A) ∂g ( A) 1 = − f ( A) g ( A) 2 ∂A ∂A ∂A g ( A)
2.2 运算法则 (1)线性法则:若 f ( A) 和 g ( A) 分别是矩阵 A 的实值函数, c1 和 c2 为实常数,则
∂ [ c1 f ( A) + c2 g ( A) ] ∂f ( A) ∂g ( A) = c1 + c2 ∂A ∂A ∂A
(2)乘积法则:若 f ( A) 和 g ( A) 分别是矩阵 A 的实值函数,则
(3) 若 A ∈ R
m×n
非奇异, x ∈ R
m×1
, y ∈ R n×1 ,则
∂xT A−1 y = − A−T xyT A−T , A-T = ( A−1 )T ∂A
(4) 若 A ∈ R
m×n
, x, y ∈ R
n×1
,则
∂xT AT Ay = A( xyT + yxT ) ∂A
(5) 若 A ∈ R
∂yT Ax ∂x
= yT Ax
= AT y, x
= x, AT y yT AT x
∂ ( xT Ax ) (4) = Ax + AT x ∂x
当 A 为对称阵时,有
T
∂ ( xT Ax ) ∂x
= 2 Ax
T
证明: x Ax 相当于复合函数的微分。 x 和 x 是与同一变量有关但不同的函数,对一 个变量求微分时另一个变量保持不变, 可以将保持不变的 x 替换成与无关的向量 y , 由 公式(2)和(3)即可得证。 注: x 不是相对于 x 的函数,而是相对于 x 的函数。 (5)若 n × 1 向量 a 是与 x 无关的常数向量,则
(4)链式法则:若 y ( x) 是 x 的向量值函数,则
∂f ( y ( x)) ∂yT ( x) ∂f ( y ) = ∂x ∂x ∂y
1.3 基本公式
x, y 为向量, x = [ x1 , x2 , , xn ] , y = [ y1 , y2 , , yn ] 。
A 和 y 为与 x 无关, A 为矩阵, I 为单位矩阵。
T T
∂aT x ∂xT a a = a= , ∂x ∂x
2. 实值函数相对于实值矩阵的梯度
函数以实值矩阵为变元。 2.1 实值函数相对实值矩阵的梯度矩阵 实值函数 f ( A) 相对于 m × n 实矩阵 A 的梯度为一 m × n 矩阵,简称梯度矩阵,定义为
∂f ( A) ∂f ( A) ∂f ( A) ∂A , ∂A , , ∂A 12 1n 11 ∂f ( A) ∂f ( A) ∂f ( A) , , , ∂f ( A) ∂A2 n = ∂A21 ∂A22 ∂A ∂f ( A) , ∂f ( A) , , ∂f ( A) ∂Amn ∂Am1 ∂Am 2
m×n
, x, y ∈ R
m×1
,则
∂xT AAT y = ( xyT + yxT ) A ∂A
(6)指数函数的梯度
∂ exp( xT Ay ) = xyT exp( xT Ay ) ∂A
3. 迹函数的梯度矩阵
2.1 迹和矩阵、向量的关系 1. 二次型
T = f ( x) x= Ax tr ( xT= Ax) tr ( AxxT ) T T T
向量梯度算子: ∇ x =
T
∂ ∂ ∂ , , , ∂xn ∂x1 ∂x2
m 维行实值向量函数 f ( x) = [ f1 ( x), f 2 ( x), , f m ( x) ]
∂f m ( x) ∂f1 ( x) ∂f 2 ( x) ∂x , ∂x , , ∂x 1 1 1 ∂f m ( x) ∂f1 ( x) ∂f 2 ( x) , , , ∂f ( x) ∂x2 ∂x2 = ∇ x f ( x) = ∂x2 ∂x ∂f1 ( x) , ∂f 2 ( x) , , ∂f m ( x) ∂xn ∂xn ∂xn
说明:二次型目标函数 x Ax 等于其核矩阵 A 和向量外积 xx 的乘积的迹( tr ( Axx ) )。 2. 矩阵和迹
A, A = AT A A,= A = A 2 tr ( AT = A) tr ( AAT )
2
3. 向量和迹
= xT y tr = ( xyT ) tr ( yxT )
说明:这个关系很重要,可以简单推导过程。 2.2 迹的梯度矩阵 1. W ∈ R
∂ [ f ( x) g ( x)] ∂f ( x) ∂g ( x) = g ( x) + f ( x) ∂x ∂x ∂x
(3)商法则: g ( x) ≠ 0
∂ [ f ( x) / g ( x)] ∂f ( x) ∂g ( x) 1 = − f ( x) g ( x) 2 ∂x ∂x ∂x g ( x)
1.2 运算法则 (1)线性法则:若 f ( x) 和 g ( x) 分别是向量 x 的实值函数, c1 和 c2 为实常数,则
∂ [ c1 f ( x) + c2 g ( x) ] ∂f ( x) ∂g ( x) = c1 + c2 ∂x ∂x ∂x
(2)乘积法则:若 f ( x) 和 g ( x) 分别是向量 x 的实值函数,则
m×m
∂tr (W ) = Im ∂W
2. W ∈ R
m×m
可逆
∂tr (W −1 ) = −(W −2 )T ∂W
3. x, y ∈ R 的外积
m
∂tr ( xyT ) ∂tr ( yxT ) = = y ∂x ∂x
4. W ∈ R
m×n
, A ∈ R n×m
∂tr (WA) ∂tr ( AW ) = = AT ∂W ∂W
(1)
∂c = 0 , c 为常数。 ∂x
∂xT =I ∂x ∂xT x = 2 x (自己证的,不一定对) ∂x
证明:
(2)
(3)
∂xT x ∂xT y ∂yT x = + = y + y = 2 y = 2x ∂x ∂x ∂x
注:这里 y 是一个中间代换量。
注: (4)
∂xT x ∂xT Ix = ∂x ∂x
常用矩阵微分公式
1. 函数相对于实值向量的梯度
函数以实值向量为变元。 1.1 实值函数相对向量的梯度矩阵 实值函数 f ( x) 相对于 n × 1 行向量 x 的梯度为 n × 1 的行向量,定义为
∂f ( x) ∂f ( x) ∂f ( x) ∂f ( x) = , , , = ∇ x f ( x) ∂x ∂ x ∂ x ∂ x n 2 1
∂Ax = AT ∂x
T ∂ x, AT ∂Ax ∂ A , x ∂xT AT 证明: = = = = AT ∂x ∂x ∂x ∂x
wenku.baidu.com
注: Ax 可以被认为是一个向量函数。 (5) =
∂xT Ay ∂x
∂xT Ay Ay = ∂x ∂xT AT y = AT y ∂x = y) x (A
T T
(3) = 证明:
(4)链式法则:若 y ( A) 是 A 的矩阵值函数,则
∂f ( y ( A)) ∂yT ( A) ∂f ( A) = ∂A ∂A ∂A
2.3 基本公式 (1) c 为常数,则 (2)若 A ∈ R
m×n
∂c = 0m×n 。 ∂A
, x ∈ R m×1 , y ∈ R n×1 ,则 ∂xT Ay = xyT ∂A
7. W ∈ R
m×m
∂tr (W 2 ) ∂tr (WW ) = = 2W T ∂W ∂W
略,关于迹还有好多公式,祥见张贤达的矩阵分析与应用。
∂tr (WA) ∂tr ( AW ) = =A + AT − diag ( A) ∂W ∂W
5. W ∈ R
m×n
, A ∈ R m×n ∂tr (W T A) ∂tr ( AW T ) = = A ∂W ∂W
6. W ∈ R
m×n
∂tr (WW T ) ∂tr (W T W ) = = 2W ∂W ∂W
∂ [ f ( A) g ( A) ] ∂f ( A) ∂g ( A) = g ( A) + f ( A) ∂A ∂A ∂A
(3)商法则: g ( A) ≠ 0
∂ [ f ( A) / g ( A) ] ∂f ( A) ∂g ( A) 1 = − f ( A) g ( A) 2 ∂A ∂A ∂A g ( A)
2.2 运算法则 (1)线性法则:若 f ( A) 和 g ( A) 分别是矩阵 A 的实值函数, c1 和 c2 为实常数,则
∂ [ c1 f ( A) + c2 g ( A) ] ∂f ( A) ∂g ( A) = c1 + c2 ∂A ∂A ∂A
(2)乘积法则:若 f ( A) 和 g ( A) 分别是矩阵 A 的实值函数,则
(3) 若 A ∈ R
m×n
非奇异, x ∈ R
m×1
, y ∈ R n×1 ,则
∂xT A−1 y = − A−T xyT A−T , A-T = ( A−1 )T ∂A
(4) 若 A ∈ R
m×n
, x, y ∈ R
n×1
,则
∂xT AT Ay = A( xyT + yxT ) ∂A
(5) 若 A ∈ R
∂yT Ax ∂x
= yT Ax
= AT y, x
= x, AT y yT AT x
∂ ( xT Ax ) (4) = Ax + AT x ∂x
当 A 为对称阵时,有
T
∂ ( xT Ax ) ∂x
= 2 Ax
T
证明: x Ax 相当于复合函数的微分。 x 和 x 是与同一变量有关但不同的函数,对一 个变量求微分时另一个变量保持不变, 可以将保持不变的 x 替换成与无关的向量 y , 由 公式(2)和(3)即可得证。 注: x 不是相对于 x 的函数,而是相对于 x 的函数。 (5)若 n × 1 向量 a 是与 x 无关的常数向量,则
(4)链式法则:若 y ( x) 是 x 的向量值函数,则
∂f ( y ( x)) ∂yT ( x) ∂f ( y ) = ∂x ∂x ∂y
1.3 基本公式
x, y 为向量, x = [ x1 , x2 , , xn ] , y = [ y1 , y2 , , yn ] 。
A 和 y 为与 x 无关, A 为矩阵, I 为单位矩阵。
T T
∂aT x ∂xT a a = a= , ∂x ∂x
2. 实值函数相对于实值矩阵的梯度
函数以实值矩阵为变元。 2.1 实值函数相对实值矩阵的梯度矩阵 实值函数 f ( A) 相对于 m × n 实矩阵 A 的梯度为一 m × n 矩阵,简称梯度矩阵,定义为
∂f ( A) ∂f ( A) ∂f ( A) ∂A , ∂A , , ∂A 12 1n 11 ∂f ( A) ∂f ( A) ∂f ( A) , , , ∂f ( A) ∂A2 n = ∂A21 ∂A22 ∂A ∂f ( A) , ∂f ( A) , , ∂f ( A) ∂Amn ∂Am1 ∂Am 2
m×n
, x, y ∈ R
m×1
,则
∂xT AAT y = ( xyT + yxT ) A ∂A
(6)指数函数的梯度
∂ exp( xT Ay ) = xyT exp( xT Ay ) ∂A
3. 迹函数的梯度矩阵
2.1 迹和矩阵、向量的关系 1. 二次型
T = f ( x) x= Ax tr ( xT= Ax) tr ( AxxT ) T T T
向量梯度算子: ∇ x =
T
∂ ∂ ∂ , , , ∂xn ∂x1 ∂x2
m 维行实值向量函数 f ( x) = [ f1 ( x), f 2 ( x), , f m ( x) ]
∂f m ( x) ∂f1 ( x) ∂f 2 ( x) ∂x , ∂x , , ∂x 1 1 1 ∂f m ( x) ∂f1 ( x) ∂f 2 ( x) , , , ∂f ( x) ∂x2 ∂x2 = ∇ x f ( x) = ∂x2 ∂x ∂f1 ( x) , ∂f 2 ( x) , , ∂f m ( x) ∂xn ∂xn ∂xn
说明:二次型目标函数 x Ax 等于其核矩阵 A 和向量外积 xx 的乘积的迹( tr ( Axx ) )。 2. 矩阵和迹
A, A = AT A A,= A = A 2 tr ( AT = A) tr ( AAT )
2
3. 向量和迹
= xT y tr = ( xyT ) tr ( yxT )
说明:这个关系很重要,可以简单推导过程。 2.2 迹的梯度矩阵 1. W ∈ R
∂ [ f ( x) g ( x)] ∂f ( x) ∂g ( x) = g ( x) + f ( x) ∂x ∂x ∂x
(3)商法则: g ( x) ≠ 0
∂ [ f ( x) / g ( x)] ∂f ( x) ∂g ( x) 1 = − f ( x) g ( x) 2 ∂x ∂x ∂x g ( x)
1.2 运算法则 (1)线性法则:若 f ( x) 和 g ( x) 分别是向量 x 的实值函数, c1 和 c2 为实常数,则
∂ [ c1 f ( x) + c2 g ( x) ] ∂f ( x) ∂g ( x) = c1 + c2 ∂x ∂x ∂x
(2)乘积法则:若 f ( x) 和 g ( x) 分别是向量 x 的实值函数,则
m×m
∂tr (W ) = Im ∂W
2. W ∈ R
m×m
可逆
∂tr (W −1 ) = −(W −2 )T ∂W
3. x, y ∈ R 的外积
m
∂tr ( xyT ) ∂tr ( yxT ) = = y ∂x ∂x
4. W ∈ R
m×n
, A ∈ R n×m
∂tr (WA) ∂tr ( AW ) = = AT ∂W ∂W
(1)
∂c = 0 , c 为常数。 ∂x
∂xT =I ∂x ∂xT x = 2 x (自己证的,不一定对) ∂x
证明:
(2)
(3)
∂xT x ∂xT y ∂yT x = + = y + y = 2 y = 2x ∂x ∂x ∂x
注:这里 y 是一个中间代换量。
注: (4)
∂xT x ∂xT Ix = ∂x ∂x
常用矩阵微分公式
1. 函数相对于实值向量的梯度
函数以实值向量为变元。 1.1 实值函数相对向量的梯度矩阵 实值函数 f ( x) 相对于 n × 1 行向量 x 的梯度为 n × 1 的行向量,定义为
∂f ( x) ∂f ( x) ∂f ( x) ∂f ( x) = , , , = ∇ x f ( x) ∂x ∂ x ∂ x ∂ x n 2 1
∂Ax = AT ∂x
T ∂ x, AT ∂Ax ∂ A , x ∂xT AT 证明: = = = = AT ∂x ∂x ∂x ∂x
wenku.baidu.com
注: Ax 可以被认为是一个向量函数。 (5) =
∂xT Ay ∂x
∂xT Ay Ay = ∂x ∂xT AT y = AT y ∂x = y) x (A
T T
(3) = 证明:
(4)链式法则:若 y ( A) 是 A 的矩阵值函数,则
∂f ( y ( A)) ∂yT ( A) ∂f ( A) = ∂A ∂A ∂A
2.3 基本公式 (1) c 为常数,则 (2)若 A ∈ R
m×n
∂c = 0m×n 。 ∂A
, x ∈ R m×1 , y ∈ R n×1 ,则 ∂xT Ay = xyT ∂A
7. W ∈ R
m×m
∂tr (W 2 ) ∂tr (WW ) = = 2W T ∂W ∂W
略,关于迹还有好多公式,祥见张贤达的矩阵分析与应用。