在Transformer中一组q,k,v可以得到一种当前词在句中的表达,那么多组就能得到多种表达,从而得到更为精确的词表达

如下图所示

得到多组特征之后可按照需要进行降维
通过多个Q K V矩阵提取特征,合并得到新的特征

通过多头提取的特征z1,z2再通过全连接层得到r1,r2而一般来说单层的multi-head都是不够的,可在r1,r2继续进行multi-head进行堆叠
版权声明:本文为qq_37217876原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。
在Transformer中一组q,k,v可以得到一种当前词在句中的表达,那么多组就能得到多种表达,从而得到更为精确的词表达

如下图所示

得到多组特征之后可按照需要进行降维
通过多个Q K V矩阵提取特征,合并得到新的特征

通过多头提取的特征z1,z2再通过全连接层得到r1,r2而一般来说单层的multi-head都是不够的,可在r1,r2继续进行multi-head进行堆叠