一、交叉熵损失函数

1、离散变量 $i$ 的概率分布为 $P (i)$ ，熵的公式： $Entropy=-\sum_iP(i)logP(i)$
2、连续变量 $x$ 的概率分布为 $P (x)$ ，熵的公式： $Entropy=-\int P(x)logP(x)dx$
3、交叉熵：主要度量两个概率分布间的差异性信息： $H(P,Q)=-\sum_{i=0}^NP(x)logQ(x)$

1）二分类

共 $N$ 个样本，总 $L oss$ 值为所有样本的 $Loss^{(i)}$ 均值： $Loss=\frac{1}{N}\sum_{i=1}^NLoss^{(i)}$ $Loss^{(i)}=-[y^{(i)}*log(\hat y^{(i)})+(1-y^{(i)})*log(1-\hat y^{(i)})]$ 单个样本 $Loss^{(i)}$ 计算过程如上所示。要注意区分 $y^{(i)}$ 以及 $\hat y^{(i)}$ ： $y^{(i)}$ 是真实的标签，只能取值0或1。 $\hat y^{(i)}$ 是经过 $s i g m o i d$ 函数预测出的概率。

2）多分类

共 $N$ 个样本，总 $L oss$ 值为所有样本的 $Loss^{(i)}$ 均值： $Loss=\frac{1}{N}\sum_{i=1}^NLoss^{(i)}$ $Loss^{(i)}=-\sum_{k=1}^{q}y_k^{(i)}*log(\hat y_k^{(i)})$ 单个样本 $Loss^{(i)}$ 计算过程如上所示。要注意区分 $y_k^{(i)}$ 以及 $\hat y_k^{(i)}$ ： $y_k^{(i)}$ 是真实的标签对应类别，是第 $k$ 类就取值为1，否则为0，会有很多项为0被屏蔽掉不参与计算。
$\hat y_k^{(i)}$ 是经过 $so f t ma x$ 函数预测出的概率。也就是说，交叉熵损失函数只关心正确标签对应的概率取值为多少，这个概率值越大，就越能保证能够正确分类结果。

3）分类问题为什么用交叉熵损失函数而不是MSE？

1、MSE无差别地关注全部类别上预测概率和真实概率的差；交叉熵关注的是正确类别的预测概率
2、涉及反向求导过程。
MSE因为线性变换之后要套一层sigmoid激活函数，反向求导的时候，开始回趋于0，学习速率非常慢，甚至可能梯度消失。
交叉熵损失函数最后参数求导结果只与(预测值-真实值)*样本值有关。
在这里插入图片描述

4）MSE和交叉熵损失函数分别适合什么场景？

MSE：适合输出为连续、并且最后一层不含Sigmoid、Softmax激活函数的神经网络。
交叉熵损失函数：适合二分类、多分类的场景。

原文链接：https://blog.csdn.net/jump882/article/details/126492348