强化学习经典算法笔记——推导贝尔曼方程

在写强化学习经典算法笔记(一)：价值迭代算法Value Iteration和强化学习经典算法笔记(二)：策略迭代算法Policy Iteration的时候，感觉关键的部分——为什么要这样进行值（策略）迭代，没有讲清楚，概念有点模糊，所以感觉有必要重新关注一下Bellman Equation的来龙去脉，也是加强自己对这一块内容的理解。

Bellman Equation

贝尔曼方程用于求解MDP问题，也就是找到最优策略及其对应的价值函数。最优价值函数是在每一个状态上，其值 $\ge$ 其他价值函数在该状态的值的价值函数。
$V^*(s) = max_{\pi}V^{\pi}(s)$

从另一个角度看，在状态 $s$ 取最优的价值 $V^*(s)$ ，也就意味着，在状态 $s$ ，依照最优Q函数，采取最优的动作 $a$ ，得到的价值 $Q * (s, a)$
$V^*(s)=max_a Q^*(s,a)$
我们先给出价值函数的贝尔曼方程，它表示的是当前状态和下一个状态之间的递归关系。
$V^{\pi}(s)=\sum_a \pi(s,a)\sum_{s'}p_{ss'}^a[R_{ss'}^{a}+\gamma V^{\pi}(s')]$

相应地，我们给出基于Q函数的贝尔曼方程。
$Q^{\pi}(s,a) = \sum_{s'} P_{ss'}^a[R_{ss'}^a+\gamma \sum_{a'}Q^{\pi}(s',a')]$

其中， $P_{ss'}^a$ 是前后状态之间的转移概率， $R_{ss'}^a$ 是采取动作 $a$ ，从 $s$ 转移到 $s^{'}$ ，环境反馈的reward。

利用上面的V和Q的关系，得到
$V^*(s) = max_a\sum_{s'}P_{ss'}^a[R_{ss'}^a+\gamma \sum_{a'}Q^{\pi}(s',a')]$

上式称为Bellman最优性方程，通过解这个方程，可以得到最优策略。而强化学习经典算法笔记(一)：价值迭代算法Value Iteration和强化学习经典算法笔记(二)：策略迭代算法Policy Iteration中的关键一步，正是上面这个式子的实现（只缺了max）。

for next_sr in env.P[state][action]: 
	# 在当前state和action的情况下，把可能转移的状态遍历一遍 
	# next_sr = (0.3333333333333333, 8, 0.0 , False) 
	# next_sr = (状态转移概率, 下一个状态,得到reward的概率,游戏是否结束) 
	trans_prob, next_state, reward_prob, _ = next_sr 
	
	# 下一状态t的动作状态价值 = 转移到t状态的概率 × （ env反馈的reward + γ × t状态的当前价值 ）
	next_states_rewards.append((trans_prob * (reward_prob + gamma * updated_value_table[next_state])))

贝尔曼方程的推导

先前定义的转移概率 $P_{ss'}^a$ 可以展开写成一个条件概率
$P_{ss'}^a=P(s_{t+1}=s'\ |\ s_t=s,a_t=a)\quad ①$

再看 $R_{ss'}^a$ ， $R_{ss'}^a$ 是从 $s_t$ 状态转移到 $s_{t+1}$ 状态的回报概率。（应该是一个介于0和1之间的值）
$R_{ss'}^a = E(R_{t+1}\ |\ s_t=s,s_{t+1}=s',a_t=a) \quad ②$
即
$R_{ss'}^a = \gamma E_{\pi}[\sum_{k=0}^{\infin}\gamma^kr_{t+k+2}\ |\ s_{t+1}=s'] \quad ③$
但是从②式推导③式的过程我不是很理解。因为 $R_t=r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\cdots$ ，所以
$R_{t+1} = r_{t+2}+\gamma r_{t+3}+\gamma^2r_{t+4}+\cdots= \sum_{k=0}^{\infin}\gamma^kr_{t+k+2}$ ，将这个式子带入②式，和③式之间还是差着 $\gamma$ 倍。

我们再来看状态函数的定义：
$V^{\pi}(s)=E_{\pi}[R_t|s_t=s]$
$V^{\pi}(s)=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\cdots|s_t=s]$

把第一项提出来，之后的项写成求和的形式，就可以看成是前后两项求期望。一项是从 $s_t$ 跳转到 $s_{t+1}$ ，得到当前回报 $r_{t+1}$ ；第二项是按照策略 $\pi(s)$ 继续走下去得到的累计回报 $\sum_{k=0}^{\infin}\gamma^kr_{t+k+2}$ 。
$V^{\pi}(s) = E_{\pi}[r_{t+1}+\gamma\sum_{k=0}^{\infin}\gamma^kr_{t+k+2}|s_t=s]\quad ④$

把第二项拿出来，因为我们知道从 $s_t$ 跳转到 $s_{t+1}$ ，有多个可能的动作以及对应的转移概率和回报概率，将其展开，就是下式，式中的 $s^{'}$ 表示下一状态， $\sum_{s'}$ 表示遍历状态 $s$ 的所有可能的下一状态。
$E_{\pi}[r_{t+1}|s_t=s]=\sum_a\pi(s,a)\sum_{s'}P_{ss'}^aR_{ss'}^a \quad ⑤$
把②式带入⑤式右边，得
$\sum_a\pi(s,a)\sum_{s'}p_{ss'}^a\gamma E_{\pi}[\sum_{k=0}^{\infin}\gamma^kr_{t+k+2}\ |\ s_{t+1}=s']\quad ⑥$

再看第二项 $E_{\pi}[\gamma \sum_{k=0}^{\infin}\gamma^kr_{t+k+2}|s_t=s]$ ，表示状态 $s_t$ 的后2个状态（ $s_{t+2}$ ）开始的累计回报，所以应该遍历各个可能的 $s_{t+1}$ 状态。

$E_{\pi}[\gamma \sum_{k=0}^{\infin}\gamma^k r_{t+k+2}|s_t=s]=\sum_a\pi(s,a)\sum_{s'}P_{ss'}^a\gamma E_{\pi}[\sum_{k=0}^{\infin}\gamma^kr_{t+k+2}|s_{t+1}=s'] \quad ⑦$
把上面⑥⑦两式加起来，
$V^{\pi}(s)=\sum_a\pi(s,a)\sum_{s'}P_{ss'}^a[R_{ss'}^a+\gamma E_{\pi}[ \sum_{k=0}^{\infin}\gamma^kr_{t+k+2}|s_{t+1}=s']]\quad ⑧$

把 $E_{\pi}[ \sum_{k=0}^{\infin}\gamma^kr_{t+k+2}|s_{t+1}=s']$ 写成 $V^{\pi}(s')$ ，即下一状态的价值函数，则上式化简为Value函数的贝尔曼方程
$V^{\pi}(s)=\sum_a\pi(s,a)\sum_{s'}P_{ss'}^a[R_{ss'}^a+\gamma V^{\pi}(s')] \quad ⑨$
类似的，可以推出Q函数的贝尔曼方程
$Q^{\pi}(s,a)=\sum_{s'}P_{ss'}^a[R_{ss'}^a+\gamma \sum_{a'}Q^{\pi}(s',a')] \quad ⑩$

原文链接：https://blog.csdn.net/hhy_csdn/article/details/89105908

强化学习经典算法笔记(零)：贝尔曼方程的推导

强化学习经典算法笔记——推导贝尔曼方程

相关概念

策略函数 Policy Function

状态价值函数 State Value Function

状态动作价值函数 State-action Value Function

Bellman Equation

贝尔曼方程的推导