
将通道注意力模块与提出的RNL结合,并集成到现成的CNN中,表现SOTA!性能优于SmallBigNet(CVPR 2020)、SlowFast、TSM等网络
Region-based Non-local Operation for Video Classification

作者团队:约克大学
论文下载链接: https:// arxiv.org/abs/2007.0903 3
注:如果上述论文链接无法访问或者下载速度过慢,可以看文末,已上传至百度云,方便下载
卷积神经网络(CNN)通过深度堆叠具有小窗口尺寸的卷积运算来对 long-range依存关系进行建模,这使优化变得困难。
本文介绍了基于区域的non-local操作(RNL),这是一种自注意力机制,可以直接捕获远程依赖性,而无需深入的local操作堆栈。

给定一个中间特征图,我们的方法通过聚合来自所有位置的相邻区域的信息来重新校准某个位置的特征。 通过将通道注意力模块与提出的RNL结合使用,我们设计了一个注意力链(chain),可以将其集成到现成的CNN中进行端到端训练。


实验结果
我们在两个视频分类基准上评估了我们的方法。 我们方法的实验结果胜过其他注意力机制,并且在Something-Something V1上达到了最先进的性能。


下载
链接: https:// pan.baidu.com/s/1M4FaD9 X1buumUhzjSiVpCw
提取码:arzl
强烈推荐大家关注计算机视觉论文速递知乎专栏和CVer微信公众号,可以快速了解到最新优质的CV论文。
推荐阅读
使用深度神经网络从Noisy Labels中学习:全面调研
PyTorch3D:面向3D计算机视觉的PyTorch工具箱
剪枝filter?还是剪枝layer?这是个问题
谷歌大脑提出:卷积神经网络的鲁棒性和可迁移性
Facebook发布FAIRScale:用于高性能和大规模训练的PyTorch工具
ECCV 2020 | 53.5 AP!PAA:用于目标检测的IoU预测的概率Anchor分配
ECCV 2020 Oral | LISRD:局部特征描述符的在线不变性选择
ECCV 2020 | BMask R-CNN:边界保持的Mask R-CNN
ECCV 2020 | 即插即用!PSConv:将特征金字塔压缩到紧凑的多尺度卷积层中
ECCV 2020 | 北邮提出PMG:通过渐进式多粒度拼图训练进行细粒度视觉分类
ECCV 2020 | 通过聚类无标签数据来提高人脸识别能力
52.1 AP!MSRA&北大提出RepPoints V2:用于目标检测的验证+回归
AdaptiveReID:用于行人重识别的自适应L2正则化
ECCV 2020 | LibraNet:通过强化学习对人群进行序列化计数
牛津大学VGG组提出D2D:学习用于图像匹配的良好对应关系
CenterNet3D:用于自动驾驶的Anchor-free 3D目标检测器
华南理工大学提出AQD:面向准确的量化目标检测
MS-NAS:用于医学图像分割的多尺度神经网络架构搜索
京东AI提出:用于人脸识别的损失函数搜索
增强注意力!DCANet:学习卷积神经网络的连接注意力
RarePlanes:最大的真实/合成的飞机检测和分类数据集
GBDT与NAS强强联手!中科大&MSRA提出GBDT-NAS:使用GBDT进行神经网络架构搜索