sigmoid、softmax函数/交叉熵损失函数/二分类、多分类详细推导过程

一、交叉熵损失函数

1、离散变量i ii的概率分布为P ( i ) P(i)P(i),熵的公式:E n t r o p y = − ∑ i P ( i ) l o g P ( i ) Entropy=-\sum_iP(i)logP(i)Entropy=iP(i)logP(i)
2、连续变量x xx的概率分布为P ( x ) P(x)P(x),熵的公式:E n t r o p y = − ∫ P ( x ) l o g P ( x ) d x Entropy=-\int P(x)logP(x)dxEntropy=P(x)logP(x)dx
3、交叉熵:主要度量两个概率分布间的差异性信息:H ( P , Q ) = − ∑ i = 0 N P ( x ) l o g Q ( x ) H(P,Q)=-\sum_{i=0}^NP(x)logQ(x)H(P,Q)=i=0NP(x)logQ(x)

1)二分类

N NN个样本,总L o s s LossLoss值为所有样本的L o s s ( i ) Loss^{(i)}Loss(i)均值:L o s s = 1 N ∑ i = 1 N L o s s ( i ) Loss=\frac{1}{N}\sum_{i=1}^NLoss^{(i)}Loss=N1i=1NLoss(i)L o s s ( i ) = − [ y ( i ) ∗ l o g ( y ^ ( i ) ) + ( 1 − y ( i ) ) ∗ l o g ( 1 − y ^ ( i ) ) ] Loss^{(i)}=-[y^{(i)}*log(\hat y^{(i)})+(1-y^{(i)})*log(1-\hat y^{(i)})]Loss(i)=[y(i)log(y^(i))+(1y(i))log(1y^(i))]单个样本L o s s ( i ) Loss^{(i)}Loss(i)计算过程如上所示。要注意区分y ( i ) y^{(i)}y(i)以及y ^ ( i ) \hat y^{(i)}y^(i)y ( i ) y^{(i)}y(i)是真实的标签,只能取值0或1。y ^ ( i ) \hat y^{(i)}y^(i)是经过s i g m o i d sigmoidsigmoid函数预测出的概率。

2)多分类

N NN个样本,总L o s s LossLoss值为所有样本的L o s s ( i ) Loss^{(i)}Loss(i)均值:L o s s = 1 N ∑ i = 1 N L o s s ( i ) Loss=\frac{1}{N}\sum_{i=1}^NLoss^{(i)}Loss=N1i=1NLoss(i)L o s s ( i ) = − ∑ k = 1 q y k ( i ) ∗ l o g ( y ^ k ( i ) ) Loss^{(i)}=-\sum_{k=1}^{q}y_k^{(i)}*log(\hat y_k^{(i)})Loss(i)=k=1qyk(i)log(y^k(i))单个样本L o s s ( i ) Loss^{(i)}Loss(i)计算过程如上所示。要注意区分y k ( i ) y_k^{(i)}yk(i)以及y ^ k ( i ) \hat y_k^{(i)}y^k(i)y k ( i ) y_k^{(i)}yk(i)是真实的标签对应类别,是第k kk类就取值为1,否则为0,会有很多项为0被屏蔽掉不参与计算。
y ^ k ( i ) \hat y_k^{(i)}y^k(i)是经过s o f t m a x softmaxsoftmax函数预测出的概率。也就是说,交叉熵损失函数只关心正确标签对应的概率取值为多少,这个概率值越大,就越能保证能够正确分类结果。

3)分类问题为什么用交叉熵损失函数而不是MSE?

1、MSE无差别地关注全部类别上预测概率和真实概率的差;交叉熵关注的是正确类别的预测概率
2、涉及反向求导过程。
MSE因为线性变换之后要套一层sigmoid激活函数,反向求导的时候,开始回趋于0,学习速率非常慢,甚至可能梯度消失。
交叉熵损失函数最后参数求导结果只与(预测值-真实值)*样本值有关。
在这里插入图片描述

4)MSE和交叉熵损失函数分别适合什么场景?

MSE:适合输出为连续、并且最后一层不含Sigmoid、Softmax激活函数的神经网络。
交叉熵损失函数:适合二分类、多分类的场景。


版权声明:本文为jump882原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。