Transformer--Multi-headed机制

在Transformer中一组q,k,v可以得到一种当前词在句中的表达,那么多组就能得到多种表达,从而得到更为精确的词表达

在这里插入图片描述

如下图所示

在这里插入图片描述
得到多组特征之后可按照需要进行降维
在这里插入图片描述

通过多个Q K V矩阵提取特征,合并得到新的特征

在这里插入图片描述

通过多头提取的特征z1,z2再通过全连接层得到r1,r2而一般来说单层的multi-head都是不够的,可在r1,r2继续进行multi-head进行堆叠


版权声明:本文为qq_37217876原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。