HOTR: End-to-End Human-Object Interaction Detection with Transformers

模型在vcoco场景1上的验证效果

模型在vcoco场景2上的验证效果

模型在HICO-DET上的验证效果

HOTR的模型结构图如下所示:
在这里插入图片描述在代码中如何实现的?

在Backbone中:
(1)将图片([bs,3,H,W])送入CNN模型中进行特征提取,使用了ResNet50,得到特征图src([bs,2048,h,w])
(2)引入位置编码pos_embed[bs,256,h,w],query_embed([100,256])
在进入Transformer前,将特征图src降维([bs,256,h,w])
进入Transformer:
(1)Encoder:
首先将src与pos_embed降维,并交换维度:
src由[bs,256,h,w]→[hw,bs,256],
pos_embed由[bs,256,h,w]→[hw,bs,256],
query_embed由[100,26]→[100,bs,256],
B. 将src,pos_embed,query_emb