1. 梯度下降法适用于 GAN 训练吗？

我们构建并训练神经网络，使用的 梯度下降法（gradient descent） ，通过找到损失函数的下降通道来找到可学习参数的组合，使得误差最小化，达到训练网络的目的。

比如前面手写数字分类的网络，使用了 Adam 优化器，效果较为理想。

但是 GAN 的动态性不同于简单的神经网络，生成器和鉴别器网络的目标是相反的。

GAN 与对抗游戏是类似的，都是一个选手试图最大化某个目标，而另一个选手是为了最小化这个目标，每个选手都会试图抵消另一方之前的动作的优势。

2. 简单的对抗游戏

考虑一个非常简单的目标函数：

$\cdot y$

其中一个选手控制 $x$ 的值，试图通过改变 $x$ 来 最大化 目标函数 $f$ ；
另一个选手则控制 $y$ ，试图使得目标函数 $f$ 的值最小。

我们将这个函数可视化，下面的图片从三个不同的角度展示了 $\cdot y$ 的表面图：

在这里插入图片描述

可以看到， $\cdot y$ 表面是 马鞍形（saddle） 的。
这意味着，我们沿着一个方向运动时（对应某个值单调变化），目标值将先上升后下降；但是沿另一个方向，目标值会先下降后上升。

下面的图片使用颜色和箭头来表示 $f$ 的值和导数的大小及变化方向：

在这里插入图片描述

如果使用直觉来说的话，我们可能会说最好的答案是在马鞍的中心点 $(x, y) = (0, 0)$ 。

在这个点，如果某个选手设置 $x = 0$ ，第二个选手无论如何选择 $y $的值，都不会影响 $f$ 的值；
类似的，如果先设定 $y = 0$ ， $x$ 的任何取值都不会改变 $y$ 的值。

可以认为，这个值将使得两个选手同等快乐——或者同等不快乐。

”直觉“ 可能只能让我们避免 “不输”（而且，似乎并没有什么依据），下面我们基于 梯度下降 来模拟两个选手，找到对两个选手都很满意的解决方案。

我们可以依赖于目标函数 $f$ 的梯度，对参数 $x$ 和 $y$ 进行小幅度的调整：

$\rightarrow x + lr *\delta f / \delta x \\ y \rightarrow y - lr *\delta f / \delta y$

上面两个式子我们称之为 更新法则（update rules）；两个式子的符号不同，是因为 $y$ 通过降低梯度来最小化 $f$ ，而 $x$ 是通过增加梯度来最大化 $f$ 。另外， $l r$ 是学习率。

对 $\cdot y$ 的导数进行计算，可以将上式进行改写：

$\rightarrow x + lr * y \\ y \rightarrow y - lr * x$

我们可以撰写一些代码，首先随机指定 $x$ 和 $y$ 的初始值，然后重复地应用更新法则来获得连续的 $x$ 和 $y$ 的值。

下图显示了随着训练进程， $x$ 和 $y$ 是如何变化的：

在这里插入图片描述
可以看到 $x$ 和 $y$ 的值并不收敛，而且振荡的幅度越来越大。

尝试不同的初始值，结果也大同小异。减小学习率只不过是延迟了这种不可避免的 分歧(divergence)。

这很不好。

下图将 $x$ 和 $y$ 放在一起展示，可以看到这两个值是环绕着理想点 (0,0) 的，但是距离越来越远。

在这里插入图片描述

本文，我们使用一个简单的目标函数显示梯度下降并不能发现对抗游戏的解决方案。

事实上，它不仅仅是找不到解决方案，而是灾难性地出现分歧。

这是不是意味着 GAN 训练一般都会失败？

实际上，使用有意义的数据的实际 GAN 的函数一般非常复杂，这可以减少失控分歧的概率，这也是我们系列文章中 GAN 的训练都相当好的原因。

但是本文的分析确实解释训练 GAN 困难和混沌的原因。

环绕一个好的解决方案运行也可以解释为什么许多简单的 GAN 似乎通过扩展训练而不是提高图像质量，来解决不同的模式坍塌问题。

无论如何，从根本上讲，梯度下降对于 GAN 来说是错误的，即使它在很多情况下工作得很好。寻找针对 GAN 中对抗性动态的优化技术是当前一个开放的研究问题，一些研究人员已经发表了令人鼓舞的结果。