Q K V
self-attention的输入是字的嵌入X
‘我’ [1,0,0,0]
‘你’[0,2,0,0]
输入的是X,但是需要注意的就是,所谓的Q,K,V不是矩阵,而是,Q通道,K通道,V通道,对于这3个通道输入都是X,如下:
其中,矩阵WQ,WK,WV矩阵就是所求的。
版权声明:本文为weixin_43821843原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。
self-attention的输入是字的嵌入X
‘我’ [1,0,0,0]
‘你’[0,2,0,0]
输入的是X,但是需要注意的就是,所谓的Q,K,V不是矩阵,而是,Q通道,K通道,V通道,对于这3个通道输入都是X,如下:
其中,矩阵WQ,WK,WV矩阵就是所求的。