在分布式深度学习之参数服务器架构一文，给大家介绍了并行化训练模型的分布式架构。在PS架构中，梯度是同步更新还是异步更新是一个问题，同步更新会有短板效应，即训练速度和最慢的机器持平，而异步训练则有较好的并行提速和正则化效应。

但近两年来，模型训练加速的趋势反倒是采用同步式的大批量的数据训练，这点在Federated Learning: 问题与优化算法就有所体现，里面提到的Federated Averaging算法就是一个大批量的例子。

本文是较早的采用大批量SGD去做训练的论文[1]的阅读笔记，里面提出了很多在大批量训练时候的技巧。

回顾

首先，先来回顾一下mini-batch的梯度下降算法。在全部数据集上的损失函数计算如下:

那么mini-batch的梯度下降计算公式如下:

其中，η是学习率，n为当前mini-batch的样本数，B为mini-batch中的样本集合。

技巧一: 学习率和批数据大小呈线性关系

当把mini-batch的size扩大k倍时，学习率也应该相应的扩大k倍。

其理论基础如下，如果k个mini-batch一步一步进行训练的话，那么得到的梯度更新公式如下：

而如果在一个大的batch中，梯度更新公式如下：

这其中的区别就在于，k步训练中每一步计算梯度的参数状态是变化的，而一步计算相当于k个批次都用的是最初始的参数状态计算梯度。

如果假设每一步的参数状态变化不大的话，那么这样做就是可行的。而只有这样做了，才能使得大batch训练的学习曲线和一步一步训练的曲线是类似的。

当然，上面做的假设是一个强假设，在训练刚开始的时候一般是不成立的，因为此时模型的参数状态变化是很大的，因而，在刚开始的时候，需要使用一些warmup策略。

虽然这种方式可以有效的提升训练速度，但是实验发现，当batch-size超过一定阈值后，会导致效果的退化，实验中是在~8k以内这个技巧都有效。

技巧二: 不同的warmup

论文提出了两种warmup策略：

恒定warmup: 在最开始的5个epoch中使用一个较小的learning_rate，然后再使用k*η作为后面的学习率
渐变warmup: 在最开始的1个epoch使用一个较小的learning rate，然后在5个epoch中逐步将learning rate增加到k*η.

其中，第一个策略因为在第5个epoch的时候会有较大变化，所以会导致loss有个突起的尖峰。所以，一般采用第二种策略。

技巧三: 在本地数据上进行批归一化

批归一化一般是在参与一步训练的所有数据上做。但是让我们再次回顾大批量的初衷，大batch的目的是让k步训练合并为分布式系统上的一步，所以做了每步梯度都相差不大的假设。而k步训练的话，每一步都是在小batch上做的。所以，当把k步训练的数据合并为一步时，批归一化也应该是在大batch的1/k数据上分别做k次。