Transformer--Multi-headed机制

在Transformer中一组q，k，v可以得到一种当前词在句中的表达，那么多组就能得到多种表达，从而得到更为精确的词表达

在这里插入图片描述

如下图所示

在这里插入图片描述
得到多组特征之后可按照需要进行降维

通过多个Q K V矩阵提取特征，合并得到新的特征

在这里插入图片描述

通过多头提取的特征z1，z2再通过全连接层得到r1，r2而一般来说单层的multi-head都是不够的，可在r1，r2继续进行multi-head进行堆叠

版权声明：本文为qq_37217876原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/qq_37217876/article/details/112101701