Context Aware Graph Convolution for Skeleton-Based Action Recognition

Introduction

目前很多图卷积网络的各种变种都是有效的,然而他们大多以局部的方式实现卷积操作,仅仅从中心节点小范围的邻居提取特征。大的感受野有益于把关节动作作为一个整体来理解。堆叠多重图卷积层是一种直接增加感受野的方式,但他的缺点是容易多度很衡量目标的优势,在堆叠多层卷积时,场长范围的依赖必须被解决,最重要的是远距离的的关节只能通过中间关节进卷积层间接的与其他关节产生联系,这阻碍了信息的交换,而且带来了多余的计算。
因此我们提出了CA-GCN,我们提出了不同的方法来计算关节间的联系,能显著的获得长范围的依赖而不需堆叠多重卷积层。换句话说,CA-GCN以更少的参数需求(实验中减少了2/3的网络深度)实现了经典GCN同样的表现能力。此外我们还提出了一个进一步升级的版本模型,他使用更多抽象表征作为关系衡量标准和上下文计算。

Method

我们用G = ( V , E ) G=(V,E)G=(V,E)表示一个图,他包含N v N_vNv个点,在l ll-t h thth层,每一个节点v i v_ivi对应一个特征向量z i l z_i^lzil,对应特征图[ z 1 l , . . . , z N l ] [z_1^l,...,z_N^l][z1l,...,zNl]表示为H l H^lHl,每一个边e i j e_{ij}eij也有一个特征向量e i j l e_{ij}^leijl,对应的特征图为H e l H_e^lHel,此外,每个图对应一个邻接矩阵A AAA i j ∈ { 0 , 1 } A_{ij}\in \{0,1\}Aij{0,1}表示点v i v_iviv j v_jvj是否存在边。

Light CA-GCN

Context Generation 三个关系函数:
(i)Inner product:R e l e ( z i l , z j l ) = ( z i l ) T ⋅ z j l Rele(z_i^l,z_j^l)=(z_i^l)^T\cdot z_j^lRele(zil,zjl)=(zil)Tzjl
(ii)Bi-liner form:R e l e ( z i l , z j l ) = ( z i l ) T W b l z j l Rele(z_i^l,z_j^l)=(z_i^l)^TW_b^lz_j^lRele(zil,zjl)=(zil)TWblzjl
(iii)Trainable relevance score:{ r i j l ∣ v i , v j ∈ V } \{r_{ij}^l|v_i,v_j\in V\}{rijlvi,vjV}
这些方程有不同的特点,而且适用于不同的情形。(iii)是表现最好的,但他仅仅适合固定图,其他两个不依赖于图结构。(ii)一般情况下表现比(i)更好,(i)的优点是不会导致额外的训练负担,而且更高效。
在每一层生成context term c i l c_i^lcil:
在这里插入图片描述
W c l W_c^lWcl是可训练矩阵变换context term的维度,b c l b_c^lbcl是可训练偏重向量,σ \sigmaσ是非线性方程。如果使用(iii),R e l e ( z i l , z j l ) Rele(z_i^l,z_j^l)Rele(zil,zjl)替换为r i j l r_{ij}^lrijll ll层N个context terms的串联[ c 1 l , , , c N l ] [c_1^l,,,c_N^l][c1l,,,cNl]表示为C l C^lCl
Context Aware Convolution 在得到context map C l C^lCl后,我们应用一个聚合函数I n t e ( ) Inte()Inte()聚合上下文信息和之前提到的节点特征图H l H^lHl为背景特征图H c l H_c^lHcl,聚合函数I n t e ( ) Inte()Inte()分addition和concatenation,如此当执行卷积操作时,全局上下文信息能被聚合。W WW是一个可训练的矩阵,被用来改变H c l H_c^lHcl的维度:
在这里插入图片描述
在这里插入图片描述
实验表明我们的轻量模型能显著的提升经典GCN模型,但人有待提升的方面。
首先,內积和双线性方法关系函数直接计算的两个节点的特征向量,没有做任何修改,这缺少灵活性。在第一层节点特征向量是关节的空间坐标,及时在某个动作中两个关节高度相关,如果他们的坐标向量近似正交,那他们的相关性任然接近0,这显然是不合理的。当计算v i v_ivi的context时,v i v_ivi和其他结点的背景信息聚合很困难,因此节点之间的关系衡量标准应该是非对称的。这考虑对內积和双线性关系函数是特有的,trainable score不依赖于节点特征,而是通过最小化分类损失来直接发现最优关联性。
第二,context term是通过图中结点的特征向量的加和计算得到的,这意味着相似的特征向量集将参与卷积和上下文的计算。然而,卷积和上下文计算所需的表示可能不相同,因此最适合卷积计算的向量也不一定是上下文计算的最佳表示。因此,每个顶点可能需要两个独立的表示来表示计算上下文和卷积。
鉴于这两个考虑,我们提出了高级CA-GCN。

Advanced CA-GCN

对于第一个问题,我们为內积和双线性关联函数提出了两个更高等级的表征。在上下文卷积期间,我们把计算上下文的中心节点称为接收者,节点被聚合的称为发送者。为了增加关联性更多的灵活性和非对称性,我们首先对每一个节点提取两个更高等级的向量R ( z i l ) R(z_i^l)R(zil)S ( z i l ) S(z_i^l)S(zil)
在这里插入图片描述
W R l W_R^lWRlW R l W_R^lWRl是训练矩阵,b R l b_R^lbRlb R l b_R^lbRl是偏重,关联性函数重新建模为R e l e ( R ( z i l ) , S ( z j l ) ) Rele(R(z_i^l),S(z_j^l))Rele(R(zil),S(zjl)),非对称性表示为R e l e ( R ( z i l ) , S ( z j l ) ≠ R ( z j l ) , S ( z i l ) ) Rele(R(z_i^l),S(z_j^l)\ne R(z_j^l),S(z_i^l))Rele(R(zil),S(zjl)=R(zjl),S(zil))。因此当接收者和发送者确定时,他们之间的关联性也就确定了。
对于第二个问题,我们对基于上下文的计算生成了另外一个表征,最终,我们有了如下式:
在这里插入图片描述
以上,上下文计算能被重写为:
在这里插入图片描述

Context aware graph convolution for edge feature based GCNs

大部分GCN都是基于节点的,并且在节点上执行卷积,边表示连接关系。这一部分我们介绍我们的模型如何实现基于边的GCN或者同时基于节点和边。我们重新规定上下文计算如下:
在这里插入图片描述
在这里x xx既可以是边也可以是节点,w x , z k l w_{x,z_k^l}wx,zklw x , e i j l w_{x,e_{ij}^l}wx,eijl分别是聚合节点和边特征的权值。