【无标题】

Something-Else: Compositional Action Recognition with Spatial-Temporal Interaction Networks
观察主客体交互的动力学来研究动作的组合性。我们提出了一种新的模型,该模型可以明确地推理组成对象和执行动作的代理之间的几何关系。
它们不能完全捕捉动作和对象的组成性。这些方法侧重于提取整个场景的特征,并没有明确地将对象识别为单个实体;场景级卷积算子可能更多地依赖于空间外观,而不是时间变换或几何关系。
最近,研究人员利用最近提出的图形神经网络[38]研究了视频的时空图形表示。这些方法将密集对象提议作为图节点,并学习它们之间的关系。虽然这无疑为在视频理解中引入关系推理打开了一扇大门,但对3D ConvNet基线的改进并不十分显著。通常,这些方法使用基于每个帧中大量对象建议的非特定对象图,而不是稀疏的语义基础图,该图模拟了动作中代理和组成对象的特定交互。
在本文中,我们提出了一种基于为每个动作学习的稀疏且语义丰富的对象图的模型。我们在演示的动作中使用精确定位的对象框来训练我们的模型。我们的模型学习主客体之间的显式关系;事实证明,这是成功识别合成动作的关键。我们利用最先进的对象检测器准确定位视频中的主题(代理)和组成对象,对其执行多对象跟踪,并为属于同一实例的盒子形成多个轨迹。

Temporal Extension Module for Skeleton-Based Action Recognition
现有方法试图在帧内表示更合适的空间图,但忽略了帧间时间图的优化。具体来说,这些方法在仅对应于帧间同一关节的顶点之间进行连接。在这项工作中,我们重点关注在帧间添加到相邻多个顶点的连接,并基于扩展时间图提取额外的特征。我们的模块是一种简单而有效的方法来提取人体运动中多个关节的相关特征。

Spatial– temporal interaction module for action recognition
一种有效的时空交互(STI)模块。spatial– temporal interaction (STI) module。在STI中,通过注意机制将二维空间卷积和一维时间卷积结合起来,以有效地学习时空信息。捕获时空特征,并从空间信息和时间信息中融合特征。

On the spatial attention in spatio-temporal graph convolutional networks for skeleton-based human action recognition
最近提出的大多数基于GCN的方法通过使用应用于预定义图邻接矩阵的空间注意力来学习网络每一层的图结构来提高性能,该矩阵以端到端的方式与模型参数一起优化。在本文中,我们分析了时空GCN层中使用的空间注意,并提出了一种对称的空间注意,以更好地反映执行动作时人体关节相对位置的对称性。我们还强调了时空GCN层之间的连接,使用对双线性层的附加空间注意力,并提出了时空双线性网络(ST-BLN),它不需要使用预定义的邻接矩阵,并允许更灵活的模型设计。


版权声明:本文为LoveKKarlie_原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。