变分推断二（基于随机梯度求解分布Q）

高方差的问题

根据上一节变分推断一（根据平均场理论求解Q）我们得到了需要求解的分布 $Q$ 的函数。
$\begin{aligned} \tag{1} L(Q) = & \int_{Z} Q(Z)log{P(X,Z) \over Q(Z)} dZ \\ = & E_{Q(Z)}[logP(X, Z) - logQ(Z)] \end{aligned}$
我们最终的目的是求解 $Q$ ，在实际中 $Q$ 分布是有参数的，参数记为 $\varphi$ ，只要求解了参数 $\varphi$ ，也就求得了分布 $Q$ 。因此我们可以将（1）式进一步写成关于未知参数 $\varphi$ 的函数。即
$\tag{2}L(\varphi) = E_{q_{\varphi}(z)}[logp(x^{i},z) - logq_{\varphi}(z)]$
其中 $x^{i}$ 表示第i个样本，并且将（1）式中的大写字母全部转化为小写。这对推导并没有影响。

既然题目是用梯度来求未知参数 $\varphi$ ，那么就要对（2）式求关于 $\varphi$ 的导数。
$\begin{aligned} \tag{3} \nabla_{\varphi}L(\varphi) = & \nabla_{\varphi}(E_{q_{\varphi}(z)}[logp(x^{i}, z)-logq_{\varphi}(z)]) \\ = & \nabla_{\varphi}\int_{z}q_{\varphi}(z)[logp(x^{i}, z) -logq_{\varphi}(z)]dz \\ = & \int_{z}\nabla_{\varphi}q_{\varphi}(z)[logp(x^{i}, z) - logq_{\varphi}(z)]dz \\ & +\int_{z}q_{\varphi}(z)\nabla_{\varphi}[logp(x^{i}, z)-logq_{\varphi}(z)]dz \\ = & A + B \end{aligned}$
将（3）式第三行的两项分别记为 $A 和 B$ ，接下来分别求解。
在这里插入图片描述
所以最后 $L(\varphi)对\varphi的导数$ 就可以用（4）式所示的期望来代替。这样我们就可以用蒙特卡洛模拟的方法，从 $q_{\varphi}(z)$ 中采样若干个点，然后来近似（4）式的期望，也就是近似 $\nabla_{\varphi}L(\varphi)$ 。这样就可以使用梯度下降的方法来更新 $\varphi$ ，最后求得 $\varphi$ 。

上面的方法看似可以，但是仔细分析会存在一些问题。（4）式是函数 $\nabla_{\varphi}logq_{\varphi}(z)[logp(x^{i}, z)-logq_{\varphi}(z)]$ 在分布 $q_{\varphi}(z)$ 下的期望，但是 $logq_{\varphi}(z)$ 的梯度变化会非常大（log函数的图像是由陡变缓的）。假如采样了两个点 $z_{1}, z_{2}，但是q_{\varphi}(z_{1})接近0，而q_{\varphi}(z_{2})接近1$ ，求导之后这两个点的梯度差是非常大的，所以会存在高方差的问题，高方差问题会导致在梯度更新时不稳定。所以就需要一种方法来降方差，使得梯度能稳定的更新。

重参数化降方差

关于重参数化技巧可以看苏剑林的科学空间漫谈重参数，讲解的很详细。下面贴一张从VAE中采样的图，帮助大家理解重参数。
在这里插入图片描述
从（2）式可以看到，问题的根源是 $z$ 是从分布 $q_{\varphi}(z)$ 中采样得到的，所以将（2）式转化为积分形式后（如（3）式所示），里面会出现 $q_{\varphi}(z)$ ，再对 $\varphi$ 求导就会变成（4）式，里面就会出现一项 $\nabla_{\varphi}logq_{\varphi}(z)$ ,这就会导致高方差的问题。

要是 $z$ 不从 $q_{\varphi}(z)$ 中直接采样，而是从一个已知的分布 $p(\varepsilon)$ 中采样得到 $\varepsilon$ ，再通过一个变换 $z=g_{\varphi}(\varepsilon)$ 得到 $z$ ，通过这样的过程来采样 $z$ ，将 $z$ 的随机性转化为 $\varepsilon$ 的随机性，这样就消除了高方差的问题。下面就通过公式来体验一下。

已知：
$\varepsilon \thicksim p(\varepsilon)，z = g_{\varphi}(\varepsilon)$ 。
在这里插入图片描述
通过推导我们得到了（6）式。在计算时，先从 $p(\varepsilon)$ 中采样出 $\varepsilon^{1}, ,,\varepsilon^{k}$ ，对于某个 $\varepsilon^{i}$ ，求出 $\nabla_{z}f(z)$ ， $\nabla_{z}f(z)$ 中必定含有 $z$ ，再将 $z=g_{\varphi}(\varepsilon^{i})$ 带入计算，最后得到 $\nabla_{z}f(z^{i})\nabla_{\varphi}g_{\varphi}(\varepsilon^{i})$ ，则
$\begin{aligned} \nabla_{\varphi}L(\varphi)= & {1 \over k} \sum_{i = 1}^{k} \nabla_{z}f(z^{i})\nabla_{\varphi}g_{\varphi}(\varepsilon^{i}) \\ \varphi^{(t+1)}=& \varphi^{(t)} + \lambda^{(t)}\nabla_{\varphi}L(\varphi) \end{aligned}$
通过上面的梯度更新，最后便可算出 $\varphi$ ，也就求得了分布 $q_{\varphi}(z)$ 。就可以用 $q_{\varphi}(z)来近似代替后验分布p(z|x)$ 。

参考：Gumbel-Softmax Trick和Gumbel分布
最后推荐苏剑林的科学空间中的有关博客和b站白板推导系列视频。

原文链接：https://blog.csdn.net/mch2869253130/article/details/102841205