Whale's Blog

想读数学专业的计算机本科生,分享一些凸优化/非凸优化,网络收敛性分析,计算机视觉,网络架构设计等相关知识

0%

矩阵求导

矩阵求导

矩阵变量函数的导数

定义 (Fréchet 可微) 设 $f(X)$ 为矩阵变量函数,如果存在矩阵 $G \in \mathbb{R}^{m \times n}$,

则称 $f$ 关于 $X$ 是 Fréchet 可微的.满足上式的 $G$ 称为 $f$ 在 $X$ 处在 Fréchet 可微意义下的梯度.

定义 (Gâteaux 可微) 设 $f(X)$ 为矩阵变量函数,如果存在矩阵 $G \in \mathbb{R}^{m \times n}$,对任意方向 $V \in \mathbb{R}^{m \times n}$ 满足

则称 $f$ 关于 $X$ 是 Gâteaux 可微的.满足上式的 $G$ 称为 $f$ 在 $X$ 处在 Gâteaux 可微意义下的梯度.

若 $f$ 是 Fréchet 可微的, 则 $f$ 也是 Gâteaux 可微的,且二者意义下的梯度相等,通常情况下,由于 Gâteaux 可微定义式更容易操作,因此通常是利用 Gâteaux 梯度的定义来计算矩阵变量函数的导数(向量情况类似).

计算实例

例1. $f(X) = \text{Tr}(AX^\text{T}B)$

因此,$\nabla f(X) = BA$.

例2. $f(X) = \text{ln}(\text{det}(X)),X \in S^n_{++}$

由于 $X^{−1/2}VX^{−1/2}$ 是对称矩阵,可以正交对角化,设它的特征值为 $\lambda_1,\lambda_2,\cdots,\lambda_n$,则

因此,$\nabla f(X) = (X^{-1})^\text{T}$.

常用公式

$\dfrac{ \partial a^Tx }{ \partial x } = a$

$\dfrac{ \partial x^Ta }{ \partial x } = a$

$\dfrac{ \partial x^Tx }{ \partial x } = 2x$

$\dfrac{ \partial x^TAx }{ \partial x } = (A+A^T)x$