文章目录

前言
一、定义
二、MDP动态特性
三、MDP价值函数
三、贝尔曼方程
- 1、贝尔曼期望方程
- 2、贝尔曼最优方程

前言

最近在看强化学习相关课程，自己也在一边学习中一边理解，想想写篇文章以后万一忘了可以回来在看着复习一下，在学习过程中推荐大家看的相关视频与文章如下：
【强化学习】马尔科夫决策过程【白板推导系列】
强化学习入门第一讲 MDP

$= = = = = = = = = = = = = = = 分隔符 = = = = = = = = = = = = = = =$

在学习马尔科夫决策过程之前需要复习一下马尔科夫相关基础
1、马尔科夫性描述的是每个状态的性质。即定义系统的下一状态 $S_{t+1}$ 与当前状态 $S_t$ 有关，而与以前的状态无关
$P[S_{t+1}|S_t] = P[S_{t+1}|S_1,S_2,...,S_t]$
2、马尔科夫过程是一个二元组 $(S, P)$ ，且满足： $S$ 是有限状态集合， $P$ 是状态转移概率。状态转移概率矩阵为：
$P=\begin{bmatrix} P_{11}&...&P_{1N}\\ .&.&.&\\.&.&.&\\ P_{N1}&...&P_{NN}\end{bmatrix}$
假若 $S_t∈[S^{(1)},S^{(2)},S^{(3)},S^{(4)},S^{(5)}]$ ，且 $S^{(i)}$ 均有概率 $P_{ij}$ 进行状态转移，通过表格列出转移矩阵：

	$S^{(1)}$	$S^{(2)}$	$S^{(3)}$	$S^{(4)}$	$S^{(5)}$
$S^{(1)}$	$P_{11}$	$P_{12}$	$P_{13}$	$P_{14}$	$P_{15}$
$S^{(2)}$	$P_{21}$	$P_{22}$	$P_{23}$	$P_{24}$	$P_{25}$
$S^{(3)}$	$P_{31}$	$P_{32}$	$P_{33}$	$P_{34}$	$P_{35}$
$S^{(4)}$	$P_{41}$	$P_{42}$	$P_{43}$	$P_{44}$	$P_{45}$
$S^{(5)}$	$P_{51}$	$P_{52}$	$P_{53}$	$P_{54}$	$P_{55}$

其中 $P_{ij}$ 是 $S^{(i)}$ 状态向 $S^{(j)}$ 状态转移时的概率

一、定义

马尔科夫决策过程由元组 $(S, A, P, R, γ)$ 描述，其中：
$S$ ：有限状态集
$A$ ：有限动作集
$P$ ：状态转移的概率(动态特性)
$R$ ：回报函数
$γ$ ：折扣因子，用来计算累计回报

二、MDP动态特性

马尔科夫动态特性是在马尔科夫链的基础上增加了 $R$ (reward space)与 $A (s)$ (action space)参量

马尔科夫决策过程是包含动作的，称为动态函数，也可以称为MDP的动态特性，即:
$P:p[s',r|s,a]=P_r[S_{t+1}=s',R_{t+1}=r|S_t=s,A_t=a]$
其中的 $R_{t+1}=r$ 代表了处于状态 $s$ 的决策 $a$ 所提供的奖励值

马尔科夫决策过程简图
由此可得状态转移函数 $p[s'|s,a]=∑_{r∈R}p[s',r|a,s]$

三、MDP价值函数

马尔科夫决策过程最重要的关键是决策或策略(policy)，而策略是由一个个动作(action)构成，每一动作都有对应的状态(state)。

1、策略（policy）

1.1、确定性策略

假设当前状态为 $s$ ，对应三种动作(action)： $a_1,a_2,a_3$ ，但是当我在进行决策时，只要处在当前状态 $s$ ，我只选择动作 $a_1$ ，那么此时制定策略已经与时间无关而与状态相关。

定义： $a = π (s)$
对于确定性策略，可以如此理解，将某一动作 $a_i$ 的概率设置为1时对应的策略

1.2、随机性策略

假设当前状态为 $s$ ，对应三种动作(action)： $a_1,a_2,a_3$ ，每当处在当前状态 $s$ 时，三种动作都会有一定的概率实现，则此时制定策略与时间有关，且具有随机性，例如
策略1：

	$s$
$a_1$	0.8
$a_2$	0.1
$a_3$	0.1

策略2：

	$s$
$a_1$	0.5
$a_2$	0.3
$a_3$	0.2

这就是随机性策略，用 $π (a ∣ s)$ 来表示

定义： $π(a|s) = P_r[A_i=a|S_i=s]$

2、回报（reward）

为避免上下翻页造成阅读困难，继续以上图为例进行讲解马尔科夫决策过程简图
当我们要衡量一种策略是否为好时，我们需要引入一种回报(reward)机制。处于 $S_t$ 时，对于每一个动作(action)，我们可以直观判断回报越大一定是越好的。但是我们选择了一种action时，它的reward是具有后效性/延迟性的，假如使用 $A_{t}$ 时对应的回报为 $R_{t+1}$ ，而后的下一次回报 $R_{t+2}$ 不仅仅与其对应状态 $S_{t+1}$ 所在的动作空间 $A_{t+1}$ 有关，也与当前 $S_{t}$ 状态下的 $A_{t}$ 相关。
所以我们要寻求一种关系式可以将 $S_{t}$ 状态时选择动作 $A_{t}$ 对应后续的回报之和进行计算求解。
在此引出累计回报公式：
$G_t = R_{t+1} + γ R_{t+2} +\gamma ^2R_{t+3}+···= ∑_{k=0}^{∞}\gamma^k R_{t+k+1}$
$\gamma∈[0,1]$ 可以这样理解，随着时间的流失，回报值reward会随着时间而大打折扣，故称其为折扣因子（discount）。此时 $G_t$ 理论上可作为判别策略优劣的依据。

3、价值函数（value function）

但是我们回过头来应该想想这么一个问题：
将上述流程图中某一部分进行拆解后得到假设的一张图，也称回溯图
将上部分图中某一部分进行拆解出来进行详细讲解，此图称为回溯图。
假设当前状态为 $S_t=s$ ，此时状态 $S_t$ 有动作集合：
$A(s)=[a_1,a_2,a_3]$
且每个状态对应三种不同的状态，当转移到下一状态 $S_{t+1}=s'$ 时又有对应的状态集
$S_{t+1}=[s_1,s_2,s_3,···,s_8,s_9]$
我们需要将每个
$G_t=[G_t^{1},G_t^{2},···,G_t^{9}]$
进行计算，并进行概率（加权）平均，所以我们不能单纯的通过 $G_t^{i}$ 对每一条策略进行评估。

在此引入 价值函数（value function） 的定义：
$v_π(s)=E_\pi[G_t|S_t=s]$
可以这样理解这个函数：在 $\pi$ 策略下， $s$ 状态时回报的期望计算

3.1、状态动作函数

定义： $q_\pi(s,a)=E_\pi[G_t|S_t=s,A_t=a]$
此函数相较于 $v_\pi(s)$ 多给定了动作参量，再以上面那张回溯图举例

给定 $s, a$ ，可以写出三种状态动作函数：
$q_\pi(s,a_1),q_\pi(s,a1),q_\pi(s,a_3)$
此处 $\pi$ 对 $s$ 无约束，因为在 $q_\pi(s,a)$ 中， $s, a$ 均为自变量，并无成对关系（映射），而在 $v_\pi(s)$ 中存在映射关系，对所有状态都有关系。即： $v_\pi(s)$ 在进行下一步动作 $a$ 的选择时，需要受到随机性策略 $\pi(s|a)$ 的约束，例如：

	$s$
$a_1$	0.8
$a_2$	0.1
$a_3$	0.1

只能选择一定概率的动作，而状态动作函数可不受约束进行期望计算。

3.2、推导过程

对于 $\bigvee s∈S_t,v_\pi(s)$ 可以通过向量
$v_\pi(s)=[v_\pi(s_1),v_\pi(s_2),v_\pi(s_3),···,v_\pi(s_n)]$
表示，其大小为 $∣ s ∣ * 1$ 。
理论上说有多少个状态就有多少个 $v_\pi(s)$
在回溯图中，若已经定义了三种状态动作函数：
$q_\pi(s,a_1),q_\pi(s,a1),q_\pi(s,a_3)$
对应其随机性策略也有三种：
$\pi(a_1|s),\pi(a_2|s),\pi(a_3|s)$
此时将状态动作函数与对应的随机性策略进行乘积并求和，可得价值函数公式：
$v_\pi(s)=\pi(a_1|s)*q_\pi(s,a_1)+\pi(a_2|s)*q_\pi(s,a_2)+$
$\pi(a_3|s)*q_\pi(s,a_3)$
$=∑_{k=0}^{3}\pi(a_k|s)*q_\pi(s,a_k)$
推广到无穷时可以表示为：
$v_\pi(s)=∑_{a∈A(s)}\pi(a|s)*q_\pi(s,a)$
其实质为 $v_π(s)$ 是 $q_π(s,a)$ 的加权平均值
由此可得最终价值函数可以表示为：
$\left\{ \begin{aligned} v_π(s)&=E_\pi[G_t|S_t=s] \\ q_\pi(s,a)&=E_\pi[G_t|S_t=s,A_t=a] \\ \end{aligned} \right.$
而 $v_π(s)≤max(q_\pi(s,a))$ ,当且只当平均值=最大值时等号成立

三、贝尔曼方程

1、贝尔曼期望方程

由于 $q_\pi(s,a)$ 具有概率性的存在，与 $G_t$ 类似，并不能直接用于策略价值计算，故仍需引用期望的概念实现策略价值评估
引入q与v后的回溯图

回到这张引入 $q, v$ 的回溯图，对于上面所提到的马尔科夫决策过程的动态特性补充一种观点：

$P:p[s',r|s,a]=P_r[S_{t+1}=s',R_{t+1}=r|S_t=s,A_t=a]$
注意：此过程中，不仅仅是 $s$ 具有动态随机性，当我们在反复走从状态 $s$ 到状态 $s_3$ 时的 $R = r$ 的值是会改变的，它也有动态随机性，是从 $(s, a)$ 到 $(s^{'}, r)$ 的过程，读者可将从 $a_3→s_3$ 过程中的回报值想象成为无数条线。这样就把回报的随机性 $r$ 表示出来了

那么如何用 $r,\gamma$ 表示这个动态过程呢。现在先将公式引出，再慢慢解释：
$q_\pi(s,a)=∑_{r,s'}p(s',r|s,a)*(r+\gamma v_\pi(s'))$
式中： $p (s^{'}, r ∣ s, a)$ 为动态特性概率，即走每条回报值的概率是多大
$r$ 为当选定走这条回报值的路径时，所给到的回报值
$\gamma v_\pi(s')$ 为在状态 $s^{'}$ 时所得到折扣后的价值

由此可以推出 $v_\pi(s),v_\pi(s')$ 之间的关系为：
$v_\pi(s)=∑_{a∈A(s)}\pi(a|s)*q_\pi(s,a)$
$=∑_{a∈A(s)}\pi(a|s)*∑_{r,s'}p(s',r|s,a)*(r+\gamma v_\pi(s'))$
$q_\pi(s,a),q_\pi(s',a')$ 之间的关系为：
$q_\pi(s,a)=∑_{r,s'}p(s',r|s,a)*(r+\gamma v_\pi(s'))$
$=∑_{r,s'}p(s',r|s,a)*[r+\gamma ∑_{a∈A(s)}\pi(a'|s')*q_\pi(s',a')]$
补充： $a^{'}$ 为 $S_{t+1}$ 时的对应动作集的某一动作

贝尔曼期望方程：
$\left\{ \begin{aligned} v_π(s)&=∑_{a∈A(s)}\pi(a|s)*∑_{r,s'}p(s',r|s,a)*(r+\gamma v_\pi(s')) \\ q_\pi(s,a)&=∑_{r,s'}p(s',r|s,a)*[r+\gamma ∑_{a∈A(s)}\pi(a'|s')*q_\pi(s',a')]\\ \end{aligned} \right.$

2、贝尔曼最优方程

引出贝尔曼最优方程，需要引出最优价值函数：

$\left\{ \begin{aligned} v_*(s)=max_\pi(v_\pi(s)) \\ q_*(s,a)=max_\pi(q_\pi(s,a))\\ \end{aligned} \right.$
由最优价值函数 $v_*(s)=max_\pi(v_\pi(s))$ 可知当找到最优策略 $\pi$ 时，价值函数也会得到最优值。同理状态动作函数也会找到最优值。
在一般情况下，最优策略可能不止一个，此处我们仅假设只有一个最优策略。即:

$\pi_* =argmax_\pi(v_\pi(s))=argmax_\pi(q_\pi(s,a))$
$v_*(s)=max_\pi(v_\pi(s))=v_{\pi_*}(s)$
$q_*(s,a)=max_\pi(q_\pi(s,a))=q_{\pi_*}(s,a)$

此时不要忘了上一章末尾曾经写过的一个公式：
$v_π(s)≤max_a(q_\pi(s,a))$
当策略为最优策略时有：
$v_*(s)=max(q_*(s,a))$
$q_*(s,a)=∑_{r,s'}p(s',r|s,a)*[r+\gamma v_*(s')]$
此处取最优策略时，代表了此时平均值 $v_π(s)$ 与最大值 $max_a(q_\pi(s,a))$ 相等
证明过程可看b站视频，此处不再赘述。
当已知最优价值函数时，根据贝尔曼期望方程可以推出贝尔曼最优方程为：
$\left\{ \begin{aligned} v_*(s)=max_a(∑_{r,s'}p(s',r|s,a)*[r+\gamma v_*(s')]) \\ q_*(s,a)=(∑_{r,s'}p(s',r|s,a)*[r+\gamma max_{a'}(q_*(s',a'))]\\ \end{aligned} \right.$

错误之处请海涵、指导谢谢！

原文链接：https://blog.csdn.net/qq_44704784/article/details/124342656