a) ll代表网络的第l层, zlz l代表第ll层卷积,zld,i,j代表第ll层卷积第d通道(i,j)( i , j )位置的值; zlz l的通道数为ClC l, 高度和宽度分别为Hl,W^lH l , W ^ l(避免与权重相同避 免 与 权 重 相 同)
b) Wl−1,bl−1W l − 1 , b l − 1代表连接第l−1l − 1层和第ll层的卷积核权重和偏置; 卷积核的维度为(kl−11,kl−12)。
c) 记损失函数L关于第ll层卷积的输出zl的偏导为δl=∂L∂zl(3)δ l = ∂ L ∂ z l ( 3 )
前向传播
根据以上约定,卷积核权重Wl−1∈Rkl−11×kl−12×Cl−1×ClW l − 1 ∈ R k 1 l − 1 × k 2 l − 1 × C l − 1 × C l,偏置bl−1∈RClb l − 1 ∈ R C l,每个输出通道一个偏置。
则有第ll层卷积层,第d个通道输出为:
zld,i,j=∑c=1Cl−1∑m=0kl−11−1∑n=0kl−12−1Wl−1m,n,c,dzl−1c,i+m,j+n+bl−1i∈[0,Hl−1],j∈[0,W^l−1](4)(4) z d , i , j l = ∑ c = 1 C l − 1 ∑ m = 0 k 1 l − 1 − 1 ∑ n = 0 k 2 l − 1 − 1 W m , n , c , d l − 1 z c , i + m , j + n l − 1 + b l − 1 i ∈ [ 0 , H l − 1 ] , j ∈ [ 0 , W ^ l − 1 ]
其中: Hl=Hl−1−kl−11+1;W^l=W^l−1−kl−12+1H l = H l − 1 − k 1 l − 1 + 1 ; W ^ l = W ^ l − 1 − k 2 l − 1 + 1; 注意前后通道直接相当于全连接,即前后两个卷积层直接所有通道都互相连接。
反向传播
权重梯度
a) 首先来看损失函数LL关于第l−1层权重Wl−1W l − 1和偏置bl−1b l − 1的梯度:
∂L∂Wl−1m,n,c,d=∑i∑j∂L∂zld,i,j∗∂zld,i,j∂Wl−1m,n,c,d=∑i∑jδld,i,j∗∂(∑Cl−1c=1∑kl−11−1m=0∑kl−12−1n=0Wl−1m,n,c,dzl−1c,i+m,j+n+bl−1)∂Wl−1m,n,c,d=∑i∑jδld,i,j∗zl−1c,i+m,j+n//l层的d通道每个神经元都有梯度传给权重Wl−1m,n,c,d(1)(2)(5)(1) ∂ L ∂ W m , n , c , d l − 1 = ∑ i ∑ j ∂ L ∂ z d , i , j l ∗ ∂ z d , i , j l ∂ W m , n , c , d l − 1 / / l 层 的 d 通 道 每 个 神 经 元 都 有 梯 度 传 给 权 重 W m , n , c , d l − 1 (2) = ∑ i ∑ j δ d , i , j l ∗ ∂ ( ∑ c = 1 C l − 1 ∑ m = 0 k 1 l − 1 − 1 ∑ n = 0 k 2 l − 1 − 1 W m , n , c , d l − 1 z c , i + m , j + n l − 1 + b l − 1 ) ∂ W m , n , c , d l − 1 (5) = ∑ i ∑ j δ d , i , j l ∗ z c , i + m , j + n l − 1
对比公式(5)和 单通道中公式(4),可以发现,损失函数 LL关于第l−1层权重 Wl−1:,:c,dW : , : c , d l − 1梯度就是以 δldδ d l为卷积核在 zl−1cz c l − 1上做卷积的结果(这里没有偏置项),单通道对单通道的卷积。
b) 损失函数LL关于第l−1层偏置bl−1b l − 1的梯度同
∂L∂bl−1d=∑i∑jδld,i,j(6)(6) ∂ L ∂ b d l − 1 = ∑ i ∑ j δ d , i , j l
δl−1c,i,j=∑d=1Cl∑m=0kl−11−1∑n=0kl−12−1rot180∘Wl−1m,n,c,dpδld,i+m,j+n(8)(8) δ c , i , j l − 1 = ∑ d = 1 C l ∑ m = 0 k 1 l − 1 − 1 ∑ n = 0 k 2 l − 1 − 1 r o t 180 ∘ W m , n , c , d l − 1 p δ d , i + m , j + n l
其中:
pδld,i,j={δld,i−kl−11+1,j−kl−12+10i∈[kl−11−1,Hl+kl−11−2]且j∈[kl−12−1,W^l+kl−12−2]i,j其它情况(12)(12) p δ d , i , j l = { δ d , i − k 1 l − 1 + 1 , j − k 2 l − 1 + 1 l i ∈ [ k 1 l − 1 − 1 , H l + k 1 l − 1 − 2 ] 且 j ∈ [ k 2 l − 1 − 1 , W ^ l + k 2 l − 1 − 2 ] 0 i , j 其 它 情 况