self-attention为什么要除以根号d_k

self-attention的公式为
$\frac{QK}{\sqrt{d_{k}}})V$

个人理解，除以 $\sqrt{d_{k}}$ 的原因有两点：
$d_{k}$ 是词向量/隐藏层的维度
1、首先要除以一个数，防止输入softmax的值过大，导致偏导数趋近于0；
2、选择根号d_k是因为可以使得q*k的结果满足期望为0，方差为1的分布，类似于归一化。

公式分析，首先假设q和k都是服从期望为0，方差为1的独立的随机变量。
Assume： $X=q_{i}$ ， $Y=k_{i}$ ，那么：
1、 $E (X Y) = E (X) E (Y) = 0 * 0 = 0$
2、 $D(XY)=E(X^{2}Y^{2})-[E(XY)]^{2}$
$E(X^{2})E(Y^{2})-[E(X)E(Y)]^{2}$
$E(X^{2}-0^{2})E(Y^{2}-0^{2})-[E(X)E(Y)]^{2}$
$E(X^{2}-[E(X)]^{2})E(Y^{2}-[E(Y)]^{2})-[E(X)E(Y)]^{2}$
$E(X^{2})-[E(X)]^{2}][E(Y^{2})-[E(Y)]^{2}]-[E(X)E(Y)]^{2}$
$D(X)D(Y)-[E(X)E(Y)]^{2}$
$= 1 * 1 - 0 * 0$
$= 1$
3、 $D(\frac{QK}{\sqrt{d_{k}}})=\frac{d_{k}}{(\sqrt{d_{k}})^{2}}=1$
需要注意的是， $D(QK)=D(\sum_{i=0}^{d_{k}}q_{i}k_{i})=d_{k}*1=d_{k}$

原文链接：https://blog.csdn.net/tailonh/article/details/120544719