softmax梯度矩阵向量化实现推导

前言

前面的SVM梯度矩阵向量化实现，其实不能算是推导出来的，应该算是“凑出来的”，由结果推过程，今天又遇到了softmax的梯度矩阵，我觉得不能再逃避了，思考了很久，终于算真正地把这个搞明白

预备知识

向量偏微分

引自我之前写的博客《CS231n学习笔记》里关于数学基础补充的向量偏微分部分：
https://blog.csdn.net/lt1103725556/article/details/89291335#_95

单个数值对向量求偏导
易得应是数值对向量中的每个元素分别求偏导：
${\partial y}/{\partial{\vec{x}}}=\left[ \partial{y}/\partial{x_1},\partial{y}/\partial{x_2},……,\partial{y}/\partial{x_m}\right]$
向量对向量求偏导
由上式易得应是第一个向量中的每个元素对第二个向量求偏导，从而组成一个矩阵，第一行为 $y_1$ 对 $\vec{x}$ 求偏导，第二行为 $y_2$ ，以此类推：
$\partial{\vec{y}}/\partial{\vec{x}}= \left [ \begin{matrix} \partial{y_1}/\partial{x_1}&\partial{y_1}/\partial{x_2}&\cdots&\partial{y_1}/\partial{x_n}\\ \partial{y_2}/\partial{x_1}&\partial{y_2}/\partial{x_2}&\cdots&\partial{y_2}/\partial{x_3}\\ \vdots&\vdots&\ddots&\vdots\\ \partial{y_m}/\partial{x_1}&\partial{y_m}/\partial{x_2}&\cdots&\partial{y_m}/\partial{x_n} \end{matrix}\right ]$
即雅克比矩阵

分清公式中哪些是向量，哪些是标量，哪些是矩阵

（1） $L_i$ 是一个标量，即第i个样本 $X_i$ 带入计算后的损失值
（2） $X_i$ 是一个向量，包含3073个值
（3） $W_j$ 是一个向量，即一个class_j对应的权重向量，也有3073个值
（4）同理 $W_{y_i}$ 也是一个向量

各个变量的维度

（1）W： $3073\times10$
（2）X： $N\times3073$
（3）dW： $3073\times10$
（4）Scores=X.dot(W)： $N\times10$

各个公式

$L_i=-log(e^{S_{y_i}}/\sum{e^{S_j}})$ ：第i个样本的损失值
$S_{y_i}=X_i*W_{y_i}$ ：第i个样本正确分类的得分
$S_{j}=X_i*W_j$ ：第i个样本错误分类的得分
$dW_{y_i}=(e^{S_{y_i}}/\sum{e^{S_j}}-1)*X_i$ :第i个样本正确分类的梯度
$dW_{j}=e^{S_j}/\sum{e^{S_j}}*X_i$ ：第i个样本对错误分类的梯度

开始

（1）从上面公式我们可以看见，第i个样本对错误分类的梯度和正确分类的梯度公式类似，因为当 $j=y_i$ 时 $e^{S_j}=e^{S_{y_i}}$ 。
（2）我们先计算一个样本的梯度矩阵：
由上文向量偏微分可得， $L_1$ 是一个标量， $W_j$ 是一个向量，即标量对向量求导，应是如下形式：
$dL_1/dW_j(j!=y_i)=\left(\frac{\partial{L_1}}{\partial{W_{j,1}}},\frac{\partial{L_1}}{\partial{W_{j,2}}},……\frac{\partial{L_1}}{\partial{W_{j,3073}}}\right)^T$

$W_{j,1}$ 即 $W_j$ 的第一个分量，共3073个分量

带入 $dW_j$ 的公式：
$=\left(\frac{e^{S_j}}{\sum(exp)}*X_{1,1},\frac{e^{S_j}}{\sum(exp)}*X_{1,2},……\frac{e^{S_j}}{\sum(exp)}*X_{1,3073}\right)^T$
而当 $j=y_i$ 时，其实就是把X前的系数-1， $j$ 换成 $y_i$ 而已
当j遍历从1到10，我们就有了第1个样本对所有梯度的贡献，即第一个样本得到的梯度矩阵dW
每个样本都会有一个梯度矩阵，我们把它们全部加起来就是总的梯度矩阵

注：变量exp为np.exp(本行)的结果

观察

观察第一个样本的梯度矩阵，我们可以发现：

第一行每个单位都有一个 $X_{1,1}$ ，第二行都有一个 $X_{1,2}$ ……最后一行都有一个 $X_{1,3073}$
若将所有样本的梯度矩阵相加，以第一行第一个元素为例，应该是( $X_{1,1},X_{2,1},……X_{n,1}$ )的线性组合，第二个元素同理。
因此第一个元素可以分解为两个向量的乘积，同理所有元素可以分解为两个矩阵的乘积，其中左边矩阵第一行应为( $X_{1,1},X_{2,1},……X_{n,1}$ )，因此左边矩阵应为X.T。

再看与左边矩阵相乘的右边第一列，当 $j!=y_i$ 时，系数为 $\frac{e^{S_j}}{\sum(exp)}$ ， $j=y_i$ 时-1即可，即对应该样本的正确分类时，对应的得分np.exp/sum(本行)后-1，其余得分np.exp/sum(本行)即可
因此有代码：

dS = softmax_output.copy()
dS[range(num_train), list(y)] += -1
dW = (X.T).dot(dS)

原文链接：https://blog.csdn.net/lt1103725556/article/details/90603827