强化学习—— Twin delay deep deterministic policy gradient(TD3算法
1 算法原文流程

2 算法核心技巧
2.1 累计误差
Q θ ( s t , a t ) = r t + γ ⋅ E [ Q θ ( s t + 1 , a t + 1 ) ] − δ ( s t , a t ) Q_\theta(s_t,a_t)=r_t + \gamma \cdot E[Q_\theta(s_ {t+1},a_{t+1})]-\delta(s_t,a_t)Qθ(st,at)=rt+γ⋅E[Qθ(st+1,at+1)]−δ(st,at)
展开后得到:
Q θ ( s t , a t ) = E s i ∼ p π , a i ∼ π [ ∑ i = 1 T γ i ⋅ ( r i − δ i ) ] Q_\theta(s_t,a_t)=E_{s_i \sim p_\pi ,a_i \sim \pi}[\sum_{i=1}^T \gamma_i \cdot(r_i - \delta_i)]Qθ(st,at)=Esi∼pπ,ai∼π[i=1∑Tγi⋅(ri−δi)]
所以动作价值的估计函数学习的目标是累计回报与TD error之差的期望。
2.2 clipped Double Q-learning
y 1 = r + γ ⋅ m i n i = 1 , 2 Q θ i ′ ( s ′ , π ϕ 1 ( s ′ ) ) y_1 = r+\gamma\cdot min_{i=1,2}Q_{\theta _ i^{'}}(s^{'},\pi_{\phi _1}(s^{'}))y1=r+γ⋅mini=1,2Qθi′(s′,πϕ1(s′))
- 避免高估,可能引入低估,但低估比高估要好。
2.3 Target Network
使用了两个动作价值网络和一个策略网络,对应于三个Target 网络。
Q θ 1 ← Q θ 1 ′ Q_{\theta_1}\gets Q_{\theta_1^{'}}Qθ1←Qθ1′
Q θ 2 ← Q θ 2 ′ Q_{\theta_2}\gets Q_{\theta_2^{'}}Qθ2←Qθ2′
π ϕ ← π ϕ ′ \pi_{\phi}\gets \pi_{\phi^{'}}πϕ←πϕ′
- 使用两个动作价值网络,是为了进一步降低高估
- 使用一个策略网络是为了简化计算
2.4 Delayed Policy Updates
- 策略网络在高误差状态下进行更新容易得到发散的动作
- 策略网络应该以低于价值网络更新的频率进行更新
- 直到价值网络的误差尽可能低时再更新策略网络
- TD-error较小时在对target网络的参数进行更新
2.5 Target Policy Smoothing Regularization
- 为了避免确定策略网络过度拟合窄峰值,即避免近似误差造成的不精确问题(避免增大方差)
- 相似的动作应该有相似的动作价值
y = r + γ ⋅ Q θ ′ ( s ′ , π ϕ ′ ( s ′ ) + ϵ ) y = r + \gamma \cdot Q_{\theta^{'}}(s^{'},\pi_{\phi^{'}}(s^{'})+\epsilon)y=r+γ⋅Qθ′(s′,πϕ′(s′)+ϵ)
ϵ ∼ c l i p ( N ( 0 , δ ) , − c , c ) \epsilon \sim clip(N(0,\delta),-c,c)ϵ∼clip(N(0,δ),−c,c)
3 算法计算步骤
初始化价值网络Q θ 1 Q_{\theta_1}Qθ1、Q θ 2 Q_{\theta_2}Qθ2,初始化策略网络π ϕ \pi_{\phi}πϕ,并随机初始化其中的参数
初始化Target网络中的参数θ 1 ′ ← θ 1 \theta_1^{'}\gets \theta_1θ1′←θ1、θ 2 ′ ← θ 2 \theta_2^{'}\gets \theta_2θ2′←θ2、ϕ ′ ← ϕ \phi^{'}\gets \phiϕ′←ϕ
初始化replay buffer
for t=1 to T do:
--------选择动作并加入探索性:a ∼ π ϕ ( s ) + ϵ a\sim \pi_{\phi}(s)+\epsilona∼πϕ(s)+ϵ 其中ϵ ∼ N ( 0 , δ ) \epsilon \sim N(0,\delta)ϵ∼N(0,δ)
--------得到奖励r rr,并得到下一时刻的状态s ′ s^{'}s′
--------将transition ( s , a , r , s ′ ) (s,a,r,s^{'})(s,a,r,s′)存入replay buffer
-------- 从replay buffer中随机采样一个batch
-------- a ^ ∼ π ϕ ′ ( s ′ ) + ϵ \hat{a}\sim \pi_{\phi^{'}}(s^{'})+\epsilona^∼πϕ′(s′)+ϵ 其中ϵ ∼ c l i p ( N ( 0 , δ ) , − c , c ) \epsilon \sim clip(N(0,\delta),-c,c)ϵ∼clip(N(0,δ),−c,c)
--------y = r + γ ⋅ m i n i = 1 , 2 Q θ i ′ ( s ′ , a ^ ) y = r+\gamma\cdot min_{i=1,2}Q_{\theta _ i^{'}}(s^{'},\hat{a})y=r+γ⋅mini=1,2Qθi′(s′,a^)
--------更新价值网络θ i ∼ a r g m i n θ i N − 1 ∑ ( y − Q θ i ( s , a ) ) 2 \theta_i \sim argmin_{\theta_i}N^{-1}\sum{(y-Q_{\theta_i}(s,a))^2}θi∼argminθiN−1∑(y−Qθi(s,a))2
-------- if t % d then :
----------------依据确定策略梯度更新策略网络:
----------------▽ J ϕ ( ϕ ) = N − 1 ∑ ▽ a Q θ 1 ( s , a ) ⋅ ▽ ϕ π ϕ ( s ) \bigtriangledown J_\phi(\phi)=N^{-1}\sum\bigtriangledown_a Q_{\theta_1}(s,a)\cdot\bigtriangledown _\phi \pi_\phi(s)▽Jϕ(ϕ)=N−1∑▽aQθ1(s,a)⋅▽ϕπϕ(s)
---------------- 更新Target network
---------------- θ 1 ′ ← τ ⋅ θ 1 + ( 1 − τ ) ⋅ θ 1 ′ \theta_1^{'}\gets \tau \cdot \theta_1 + (1-\tau)\cdot \theta_1^{'}θ1′←τ⋅θ1+(1−τ)⋅θ1′
----------------θ 2 ′ ← τ ⋅ θ 2 + ( 1 − τ ) ⋅ θ 2 ′ \theta_2^{'}\gets \tau \cdot \theta_2 + (1-\tau)\cdot \theta_2^{'}θ2′←τ⋅θ2+(1−τ)⋅θ2′
----------------ϕ ′ ← τ ⋅ ϕ + ( 1 − τ ) ⋅ ϕ ′ \phi^{'}\gets \tau \cdot \phi + (1-\tau)\cdot \phi^{'}ϕ′←τ⋅ϕ+(1−τ)⋅ϕ′By CyrusMay 2022.08.23