读书笔记 -- ＞强化学习 -- ＞ The Bellman Equation

本文将总结强化学习中的一个重要基础知识，Bellman Equation。

文章目录

符号定义

$\pi$ ：函数符号，表示策略（Policy）函数，参数常为环境返回的状态，输出为一个具体的动作，可知 $\pi ( s ) \in A$
$r$ ：执行动作 $a$ 后所获取的即时奖励， $r_t$ 表示t时刻所获取即时奖励。
$G$ ：累积奖赏， $G_t$ 表示从t时刻到一轮episode结束累积奖赏。
$E [.]$ : 表示计算期望。

value based 方法

首先了解一下何为强化学习中的value based 方法，我们知道Agent的目标是：在生命周期内，执行一个序列的action，且该序列（马尔科夫奖励链） $a c t i o n$ 所获取的 $r e w a r d$ 之和（可以是加上discount factor $\gamma$ 之后的求和）能达到最大。例如在时刻 $t$ 时，Agent在马尔科夫奖励链上从 $t$ 时刻以后未来所有有衰减的累积奖励（折现的奖励）总和。如下：

$G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + ...=\sum_{j=0}^{T} \gamma^j r_{t+j+1}$

上式中，如果 $\gamma = 0$ ，则表示Agent放弃长远的收益，而只在乎即时的 $r e w a r d$ ，同理如果 $\gamma = 1$ ，则表示Agent将长远收益和当前即时收益放在同等重要位置。通常情况下 $\gamma \in (0,1)$ ，也即是当 $\gamma >0$ 时，是非贪心的。

可以重写上述公式如下：
$G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} +...+\gamma^{T-1} r_{T}$
$=r_{t+1} + \gamma(r_{t+2} + \gamma r_{t+3}+...+\gamma^{T-2} r_{T})$
$r_{t+1} + \gamma (G_{t+1})$

这样就可以通过递归的形式计算G

大部分强化学习算法都涉及到估计状态价值函数（Value Function），该函数的自变量为 状态或状态-动作对，这种称为基于值的学习，也即 value-based。

通常情况下，时刻t后执行序列可能有多条马尔科夫奖励，我们需要使用状态价值函数来评估状态 $s$ 的长期价值。

马尔科夫奖励（Markov Reward Process，MRP）过程定义式如下：
是一个由 $\gamma>$ 组成的元组（tuple）：
$S$ 是有限的状态
$P$ 是状态转移概率矩阵 $P_{ss'} = P(S_{t+1} = S'|S_t = S)$
$R$ 是奖励函数 $R_s = E[R_{t+1}|S_t=s]$
$\gamma$ 是衰减系数， $\gamma \in [0,1]$

The V-function: the value of the state

V-function 可以称为状态价值函数，当Agent遵循策略 $\pi$ 时，根据return G（累积奖赏），评估某个特定状态的好坏。也就是 $v - f u n c t i o n$ 可以定义为从state开始的未来累积奖赏期望值。故V-function 可表示如下：

$v_{\pi}(s)=E_{\pi}[G_t|s=s_t] = E_{\pi}[\sum_{j=0}^{T} \gamma^{j}r_{t+j+1}|s=s_t]$

注意v-function自变量是状态 $s$

为了更好的理解 $V - f u n c t i o n$ ，这里以只有三个状态的环境举例：

在这里插入图片描述

定义reward：

初始在0状态上
当从状态0向左移动时，变成状态1，reward += 1
当从状态0向右移动时，变成状态2，reward += 2

在这里插入图片描述

上述环境始终是确定的，每一个episode都是从状态0开始，当到达状态1或者状态2时，该episode结束。

现在的问题是 $V (0)$ 是多少？根据上面讲到的 $v - f u n c t i o n$ 公式:
$v_{\pi}(s)= E_{\pi}[\sum_{j=0}^{T} \gamma^{j}r_{t+j+1}|s=s_t]$

可知 $V (0)$ 也与策略（policy） $\pi$ 关系很大，例如有如下策略：

策略1：Agent始终向左
策略2：Agent始终向右
策略3：Agent向左移动概率为0.5，向右移动概率为0.5
策略4：Agent向左移动概率为0.2，向右移动概率为0.8

分别根据以上policy计算一个 $e p i s o d e$ 的 $V (0)$ ：

策略1： $V (0) = 1$
策略2： $V (0) = 2$
策略3： $V (0) = 0.5 * 1 + 0.5 * 2 = 1.5$
策略4： $V (0) = 0.2 * 1 + 0.8 * 2 = 1.8$

为了能是 $total\ reward$ 尽可能的大，对于Agent来说，最优的policy是策略2，也即始终向右移动。

上述简单的环境，让人误以为采用 “贪婪”策略，能得到收益最大的reward。然而对于较为复杂的环境并非如此，例如下面有四个状态的环境：
在这里插入图片描述

同上面一样，每次都是从状态0开始，当到达边界是，一个episode结束，reward变化如下：
在这里插入图片描述
显然这时，每个策略的 $V (0)$ 如下：

策略1： $V (0) = 1$
策略2： $V (0) = 2 - 10 = - 8$
策略3： $V (0) = 1.0 * 0.5 + (2 - 10) * 0.5 = - 3.5$
策略4： $V (0) = 1.0 * 0.2 + (2 - 10) * 0.8 = - 6.2$

显然这时候，策略1的收益最大，而策略2的收益最小了。

The Q-function: The value of the action

我们将状态价值函数，扩展到状态-行动对，为每个状态-行动对定义一个值，该值为行动价值函数。该函数表示Agent在遵循策略 $\pi$ 情况下，在状态 $s$ 下，执行动作 $a$ 的预计获取累积奖赏的期望值，用 $Q_{\pi}(s,a)$ 。

$Q_{\pi}(s,a)=E_{\pi}[G_t|S_t=s, A_t=a]=E_{\pi}[\sum_{j=0}^{T} \gamma^j r_{t+j+1}|S_t=s, A_t=a]$

我们再来定义policy在状态 $s$ 下执行动作 $a$ 的概率为 $\pi(a|s)$ ，则有
$\sum_a \pi(a|s) = 1$

这就引入了动作概率，也即策略函数。

再来看看 Q-function 和 V-function 的关系：
$V_{\pi}(s) = \sum_a \pi(a|s) \cdot Q_{\pi} (s,a)$

马尔可夫决策过程（Markov decision process，MDP）是在马尔可夫奖励(MRP)过程的基础上增加了决策（decisions/actions）,是一个由 $\gamma>$ 组成的元组（tuple）：
$S$ 是有限的状态
$A$ 是有限的决策/动作集
$P$ 是状态转移概率矩阵 $P_{ss'}^a = P(S_{t+1} = S'|S_t = S, A_t=a)$
$R$ 是奖励函数 $R_s = E[R_{t+1}|S_t=s, A_t=a]$
$\gamma$ 是衰减系数， $\gamma \in [0,1]$

The Bellman Equation

贝尔曼方程（Bellman Equation）在强化学习文献中随处可见，是许多强化学习算法的核心要素之一。我们可以说，贝尔曼方程将价值函数分解为两部分，即即时reward和未来value（经过discounted）。

也即

$V(s_t) = E_{\pi}[\sum_{j=0}^{T} \gamma^{j}r_{t+j+1}|s=s_t] = E[R_{t+1}+\gamma V(s_{t+1})|s_t = s]$

上述公式就是贝尔曼方程(Bellman Equation)

在这里插入图片描述
为了更好的说明 Bellman Equation，以上图进行举例，上图中 $P$ 表示在状态 $s$ 下执行动作 $a$ ，得到状态 $s^{'}$ 的概率(with reward r)。

Bellman equation for the State-value function

我们以贝尔曼方程(Bellman Equation)来表示 State-value function，如下：
$V_{\pi}(s) = \sum_a \pi(a|s) \cdot \sum_{s'} P^{a}_{ss'}(r(s,a)+\gamma V_{\pi}(s'))$

Bellman equation for the Action-value function

同样的，也可以以贝尔曼方程(Bellman Equation)来表示 Action-value function，如下：
$Q_{\pi} = \sum_{s'}P^{a}_{ss'}(r(s,a)+\gamma \cdot \sum_{a'} \pi(a'|s') \cdot Q_{\pi}(s', a'))= \sum_{s'}P^{a}_{ss'}(r(s,a) + \gamma V_{\pi}(s'))$

Optimal Policy

上面说过，Agent学习的目的是使得total reward最大化，现在我们就需要求解total reward最大时的策略 $\pi^*$ ，那么这个 $\pi^*$ 如何定义呢？

对于所有的 $s t a t e$ $s$ ， $V_{\pi^*}(s) \geq V_{\pi}(s)\ \forall \pi$

显然符合上述条件的 $\pi^*$ 不一定是唯一的，可以存在多个。

则最优状态价值函数为：
$V_{*}(s)=max_{\pi}V_{\pi}(s)$
上述公式表示，寻找一个最优策略 $\pi$ ，使得 $V (s)$ 能达到最大，也即是Agent沿着策略 $\pi^*$ ，在状态 $s$ 能获得最大的累积期望奖励。

同样的对于最优动作价值函数为：
$Q_{*}(s,a)=max_{\pi} Q_{\pi}(s,a)$
上述公式表示，寻找一个最优策略 $\pi$ ，使得 $Q (s, a)$ 能达到最大，也即是在状态 $s$ 下采用动作 $a$ 能获得最大的累积期望奖励。

上面提到的 $V (s)$ 与 $Q (s, a)$ 转换公式：
$V_{\pi}(s) = \sum_a \pi(a|s) \cdot Q_{\pi} (s,a)$

那么 $V_{*}(s)$ 与 $Q_{*}(s,a)$ 转换公式如下：
$V_{\pi^*}(s) = \sum_a \pi^{*}(a|s) \cdot Q_{\pi^*} (s,a)$
显然对于这样最优的 $\pi^*$ 有：
$\pi^*(a|s)= \begin{cases} 1& if\ a = \underset {a \in A}{argmax} Q_{\pi^*}(s,a)\\ 0 & \text{otherwise} \end{cases}$

故有：
$V_{\pi^*}(s) =max_{a} Q_{\pi^*} (s,a)$

The Bellman equation of optimality

通过上述的公式推导，我们可以进一步得到：
$V_{*}(s) = \underset {a}{max} \sum_{s'} P^{a}_{ss'}(r(s,a)+\gamma V_{*}(s'))$

$Q_{*}(s,a) = \sum_{s'} P^{a}_{ss'}(r(s,a)+\gamma \underset {a'}{max} Q_{*}(s', a'))$ ’

总结

Q-Function 与 V-Function 的区别在于在当前时刻是否执行动作 $a$
Bellman Equation 是一种动态规划方法，将最佳问题变成简单子问题

参考资料

https://towardsdatascience.com/the-bellman-equation-59258a0d3fa7
https://zhuanlan.zhihu.com/p/139791993

原文链接：https://blog.csdn.net/Mr_tyting/article/details/119079887