tranformer 在 图片遮挡,图片乱序等流域处理的很好
1. Axial Attention
用res50最后的特征图(14*14)当 transformer输入,降低序列长度,比如 Axial Attention(轴注意力)
现在横轴上做自注意力,再再纵轴上做自注意力,这样序列长度也是大大减小
2 ViT
吧图片分成 patch,用patch训练
大规模数据集做与训练,就可以更好的处理其他任务
引言的最后,放出最想说的结论
GPT NLP领域
3. method
把图片达成patch,因为图片是有顺序的,
所以,引入了position embedding。
只需要根据第一个元素的输出,确定分类
注意
小数据集,不适合用 VIT,更适合resnet
数据集越大,VIT效果越好
版权声明:本文为Inuyasha_1314原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。