1、前置知识softmax loss

简单来说，softmax loss = softmax+cross-entropy

2、sampled softmax

p_i 观测样本 i 属于类别c的概率。

$softmax(Z_i) = \frac{e^{z_i}}{\sum_{c=1}^{C}e^{z_c}} = 0.76 = p_i$

z_i : 第i个节点的输出值 1/3/-3（整数）；

C : 共有几个节点，即分类类别的个数；

在youtubednn的推荐中，由于视频数量巨大，则C巨大，分母超多，现在想要缩减C的范围。

所以，sample_softmax的思想就是：一个正样本，随机挑选几个负样本，来做多分类的问题。

注意这里只是训练的时候sample，预测的时候还是要预测过程仍然要使用完整的词表。

在nlp中的具体实施，（词表就是resys中所有视频）

但是操作起来异常简单。设定一个词频阈值 $\Gamma$ ，遍历训练语料，当词表大小达到 $\Gamma$ 时，将遍历过的语料设为子集 $V_i$ 。然后清空词表，继续遍历，直到所有句子都被分入子集。

训练模型时，在每个子集依次进行训练，只使用子集词表进行softmax。通俗地讲，就是将语料有策略地分成多份，在训练中使用每一份的小词表代替完整词表。

文章提及的sampled softmax只在模型训练过程中使用，在模型预测时依然需要遍历词典。个人感觉跟word2vec中采用的negative sampling有异曲同工之妙。
(我觉得就是一个东西(lll￢ω￢))

类似与softmax loss，就是sample_softmax + cross_entropy。

cross_entropy中的预测概率p是来自sample_softmax的产出。