Transformer机制学习笔记

学习自https://www.bilibili.com/video/BV1J441137V6

RNN，CNN网络的缺点

在这里插入图片描述

难以平行化处理，比如我们要算 $b^4$ ，我们需要一次将 $a^1$ ~ $a^4$ 依次进行放入网络中进行计算。

于是有人提出用CNN代替RNN
在这里插入图片描述
三角形表示输入， $b^1$ 的结果是由 $a^1,a^2$ 产生。
$a^1$ ~ $a^4$ 可以同时并行输入到CNN中。
但是，这么做的话可以表示的内容非常有限，解决方法是再往上继续建造。

这样的话，蓝色的输入，就相当于获得了 $a^1$ ~ $a^4$ 的输入。
CNN的优点就是可以同时计算，缺点就是需要叠很多层。

self-Attention层

self-Attention层要做的就是，既能达到RNN的功能，同时又能像CNN一样平行化。
在这里插入图片描述

self-attention层运作步骤

拿每个q与每个k进行attention运算

$d$ 为 $q, k$ 的维度，这个可以理解为是为了平衡维度带来的影响，因为维度越大，点乘出来的结果就会相应的较大，所以除以维度可以消除一部分影响。
然后再统一做一下softmax
随后 $\hat{a}$ 再和 $v$ 相乘

这样，计算 $b^1$ 既可以并行计算，也能获取到 $x^1$ ~ $x^4$ 的全部数据。