矩阵求导
矩阵变量函数的导数
定义 (Fréchet 可微) 设 $f(X)$ 为矩阵变量函数,如果存在矩阵 $G \in \mathbb{R}^{m \times n}$,
则称 $f$ 关于 $X$ 是 Fréchet 可微的.满足上式的 $G$ 称为 $f$ 在 $X$ 处在 Fréchet 可微意义下的梯度.
定义 (Gâteaux 可微) 设 $f(X)$ 为矩阵变量函数,如果存在矩阵 $G \in \mathbb{R}^{m \times n}$,对任意方向 $V \in \mathbb{R}^{m \times n}$ 满足
则称 $f$ 关于 $X$ 是 Gâteaux 可微的.满足上式的 $G$ 称为 $f$ 在 $X$ 处在 Gâteaux 可微意义下的梯度.
若 $f$ 是 Fréchet 可微的, 则 $f$ 也是 Gâteaux 可微的,且二者意义下的梯度相等,通常情况下,由于 Gâteaux 可微定义式更容易操作,因此通常是利用 Gâteaux 梯度的定义来计算矩阵变量函数的导数(向量情况类似).
计算实例
例1. $f(X) = \text{Tr}(AX^\text{T}B)$
因此,$\nabla f(X) = BA$.
例2. $f(X) = \text{ln}(\text{det}(X)),X \in S^n_{++}$
由于 $X^{−1/2}VX^{−1/2}$ 是对称矩阵,可以正交对角化,设它的特征值为 $\lambda_1,\lambda_2,\cdots,\lambda_n$,则
因此,$\nabla f(X) = (X^{-1})^\text{T}$.
常用公式
$\dfrac{ \partial a^Tx }{ \partial x } = a$
$\dfrac{ \partial x^Ta }{ \partial x } = a$
$\dfrac{ \partial x^Tx }{ \partial x } = 2x$
$\dfrac{ \partial x^TAx }{ \partial x } = (A+A^T)x$