Chapter 05: Vector calculus

1. 单变量函数的微分

1. 微分

  • derivative:

2. Taylor 级数

3. 微分法则

  • Differentiation Rules:

注:$g \circ f$ 记为复合函数$x \mapsto f(x) \mapsto g(f(x))$

2.部分微分和梯度

  • Partial Differentiation andGradients

1.部分微分

  • Partial Derivative:

即把对$x$的一阶导的集合写在一起形成一行,也可以转置后形成一列。

2. 梯度

  • Gradient as a Row Vector

Gradient写作行向量的原因:

  1. 我们始终可以把梯度推广到向量值函数$f:\mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$;这能让梯度变成矩阵。

  2. 我们可以不考虑梯度维数来应用多变量链式法则。

3. Chain Rule

用矩阵乘法获得梯度:

4. 向量值函数的梯度(从实数域推广到vector field)

5. Jacobian

所有向量值函数$\boldsymbol{f}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$的一阶导数的集合称作$\mathit{Jacobian}$。见如下公式:

确定$\boldsymbol{f}(x)$偏导数维度:


偏导数维度:引用自https://mml-book.com

​ 偏导数的维度:column由$\boldsymbol{f}(x)$决定;row由$\boldsymbol{x}$决定

详解:

  1. $f:\mathbb{R} \rightarrow \mathbb{R}$ 梯度是个标量
  2. $f:\mathbb{R}^{N} \rightarrow \mathbb{R}$ 梯度是$1\times $N行向量(row)
  3. $f:\mathbb{R} \rightarrow \mathbb{R}^{M}$ 梯度是$M \times 1$列向量(column)
  4. $f:\mathbb{R}^{N} \rightarrow \mathbb{R}^{M}$ 梯度是$M \times N$矩阵(matrix)
可视化矩阵关于Vector的梯度计算(两种等价方法)
  • 方法(a):先计算$\frac {\partial \boldsymbol{A}} {\partial {x_1}}, \frac {\partial \boldsymbol{A}} {\partial {x_2}}, \frac {\partial \boldsymbol{A}} {\partial {x_3}}$(都是$4 \times 2$的tensor;再整理成$4\times2\times3$的tensor。

方法(a) 引用自https://mml-book.com
  • 方法(b):先把$\boldsymbol {A} \in \mathbb{R}^{4 \times 2}$展平成向量$\tilde{A} \in \mathbb{R}^{8}$,然后计算其梯度$\frac{\mathrm{d} \tilde{\boldsymbol{A}}}{\mathrm{d} \boldsymbol{x}} \in \mathbb{R}^{8 \times 3}$,我们把得到的梯度tensor再reshape成图例形状。

方法(b) 引用自https://mml-book.com