【机器学习】sampled softmax loss

目录

1、前置知识softmax loss

2、sampled softmax

1.1、问题引入

1.2、如何通俗理解sampled softmax机制?

3、sampled softmax loss


1、前置知识softmax loss

回顾一下softmax loss(【机器学习】tf.nn.softmax

简单来说,softmax loss = softmax+cross-entropy

损失函数 - 交叉熵损失函数 - 飞鱼Talk的文章 - 知乎

一文详解Softmax函数 - 触摸壹缕阳光的文章 - 知乎

softmax 介绍 + 公式 + 代码

2、sampled softmax

1.1、问题引入

p_i 观测样本 i 属于类别c的概率。

softmax(Z_i) = \frac{e^{z_i}}{\sum_{c=1}^{C}e^{z_c}} = 0.76 = p_i

z_i : 第i个节点的输出值 1/3/-3(整数);

C : 共有几个节点,即分类类别的个数;

在youtubednn的推荐中,由于视频数量巨大,则C巨大,分母超多,现在想要缩减C的范围。

所以,sample_softmax的思想就是:一个正样本,随机挑选几个负样本,来做多分类的问题。

1.2、如何通俗理解sampled softmax机制?

注意这里只是训练的时候sample,预测的时候还是要预测过程仍然要使用完整的词表。

在nlp中的具体实施,(词表就是resys中所有视频)

但是操作起来异常简单。设定一个词频阈值\Gamma,遍历训练语料,当词表大小达到\Gamma时,将遍历过的语料设为子集V_i。然后清空词表,继续遍历,直到所有句子都被分入子集。

训练模型时,在每个子集依次进行训练,只使用子集词表进行softmax通俗地讲,就是将语料有策略地分成多份,在训练中使用每一份的小词表代替完整词表。

文章提及的sampled softmax只在模型训练过程中使用,在模型预测时依然需要遍历词典。个人感觉跟word2vec中采用的negative sampling有异曲同工之妙。

(我觉得就是一个东西(lll¬ω¬))

如何通俗理解sampled softmax机制? - 知乎

3、sampled softmax loss

类似与softmax loss,就是sample_softmax + cross_entropy。

cross_entropy中的预测概率p是来自sample_softmax的产出。


版权声明:本文为weixin_31866177原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。