深度学习训练之卷积核参数初始化（Constant、Random、Xavier、Kaiming）系统详细总结

文章目录

1、卷积核Constant参数初始化

就是对前向计算卷积核的参数初始化，Constant就是一个简单的初始化，就是把卷积核的参数设置为常数，API（pytorch）如下：

torch.nn.init.constant_(tensor, val)  # val：自己设置的常数
torch.nn.init.ones_(tensor)  # 设置为1
torch.nn.init.zeros_(tensor)  # 设置为0

2、卷积核参数随机（random）初始化

2.1 随机分布的参数初始化

概率密度函数为

(

)

f(x)

$f (x)$ , 平均值为

(

)

E(x)

$E (x)$ ，方差为

(

)

Var(x)

$V a r (x)$

下面简单推导一下

(

)

E(x)

$E (x)$ ，

∫

\int_a^b {x} \,{\rm d}x

$\int_{a}^{b} x d x$

∣

=\frac{x^2}{2}|_a^b

$= \frac{x ^{2}}{2} ∣_{a}^{b}$

−

=\frac{b^2-a^2}{2}

$= \frac{b ^{2} - a ^{2}}{2}$
平均值

(

)

−

⋅

(

−

)

(

)

E(x)=\frac{b^2-a^2}{2 \cdot(b-a)}=(a+b)/2

$E (x) = \frac{b ^{2} - a ^{2}}{2 \cdot ( b - a )} = (a + b) / 2$
API（pytorch）：

torch.nn.init.uniform_(tensor, a=0.0, b=1.0)

2.2 正态分布的参数初始化

API（pytorch）：

torch.nn.init.normal_(tensor, mean=0.0, std=1.0)

3、卷积核参数Xavier初始化

一句话解释什么是Xavier初始化：输入和输出的feature map的标准差保持一致。
问题来了，为什么要输入和输出的feature map的标准差保持一致？
因为：输入和输出的feature map的标准差保持一致，可以防止过拟合。

下面开始推导Xavier分布的标准差：
假设输入

X_j

$X_{j}$ ，权重为

W_{i,j}

$W_{i, j}$ ，偏差为

B_i

$B_{i}$ ，所以，输出为：

∑

Y_i=\sum_{j}^{n_I}{W_{i,j}X_j+B_i}

$Y_{i} = j \sum n_{I} W_{i, j} X_{j} + B_{i}$
其中

n_I

$n_{I}$ 为卷积核输入维度，比如卷积核为

3×3

$3 \times 3$ ，输入channel为

$3$ ，则

n_I=3×3×3

$n_{I} = 3 \times 3 \times 3$ ，

保证输入和输出的标准差一致，所以，

(

)

(

∑

)

(

)

Var(Y_i)=Var(\sum_{j}^{n_I}{W_{i,j}X_j})+Var(B_i)

$V a r (Y_{i}) = V a r (\sum_{j}^{n_{I}} W_{i, j} X_{j}) + V a r (B_{i})$
再设定

(

)

Var(B_i)=0

$V a r (B_{i}) = 0$ ，
则：

(

)

∑

(

)

(

)

(

)

(

)

Var(Y_i)=\sum_{j}^{n_I}Var(W_{i,j})Var(X_j)=n_IVar(W_{i,j})Var(X_j)

$V a r (Y_{i}) = \sum_{j}^{n_{I}} V a r (W_{i, j}) V a r (X_{j}) = n_{I} V a r (W_{i, j}) V a r (X_{j})$
因为：

(

)

(

)

Var(Y_i)=Var(X_j)

$V a r (Y_{i}) = V a r (X_{j})$
所以：

(

)

Var(W_{i,j})=\frac{1}{n_I}

$V a r (W_{i, j}) = \frac{1}{n _{I}}$
即：Xavier分布的标准差为

{n_I}

$n_{I}$

3.1 基于Xavier的随机参数初始化和正态分布参数初始化

此推导不难，便不做赘述。

3.2 进阶版的Xavier

前面说的是前向传播，因为进行网络训练时，不能只有前向计算，也要有反向计算，而反向计算的初始化参数也应遵循保持方差一致，所以

(

)

Var(W_{i,j})=\frac{i}{n_O}

$V a r (W_{i, j}) = \frac{i}{n _{O}}$ ，取前向计算和反向计算的调和平均数，公式如下：

同理，反向传播的

(

)

Var(W_{i,j})=\frac{1}{n_O}

$V a r (W_{i, j}) = \frac{1}{n _{O}}$ ，

n_O

$n_{O}$ 为输出的维度，
再计算前向传播和反向传播的调和平均数为：

Xavier API（pytorch):

torch.nn.init.xavier_normal_(tensor, gain=1.0)

torch.nn.init.xavier_uniform_(tensor, gain=1.0)

4、卷积核参数Kaiming初始化

为什么提出Kaiming初始化？
答：因为在网络训练里有使用到relu激活函数，而relu的激活函数的负半轴为0，所以相应的方差为输入前feature map方差的一半，所以

V

a

r

(

W

i

,

j

)

=

2

n

I

Var(W_{i,j})=\frac{2}{n_I}

$V a r (W_{i, j}) = \frac{2}{n _{I}}$

具体推导如下：

∑

(

)

⋅

Y=\sum relu(Z)\cdot W+b

$Y = \sum r e l u (Z) \cdot W + b$
因为经过了

relu

$r e l u$ ，所以方差为输入前的一半，所以

(

)

(

)

Var(y)=2Var(relu(Z))

$V a r (y) = 2 V a r (r e l u (Z))$
所以：

(

)

Var(W)=\frac{2}{n_I}

$V a r (W) = \frac{2}{n _{I}}$

4.1 Kaiming初始化与均匀分布、正态分布

4.2 Kaiming初始化API（pytorch）

torch.nn.init.kaiming_normal_(tensor, a=0,mode='fan_in', nonlinearity='leaky_relu')

torch.nn.init.kaiming_uniform_(tensor, a=0,mode='fan_in', nonlinearity='leaky_relu')

原文链接：https://blog.csdn.net/qq_23022733/article/details/124337655