RL学习笔记

RL

model-freemodel-based
Q-learningQ-learning
SarsaSarsa
Policy GradientsPolicy Gradients

**model-based 多建了一个学习到的虚拟环境,通过想象判断不同动作的结果。**eg.AlphaGo


policy-basedvalue-based
输出下一步采取各种行动的概率(每种动作都有可能被选中)根据最高价值选择动作
用概率分布在连续的动作中选择特定的动作×
policy gradientsQ-learning、Sarsa

Actor-Critic是两者的结合。actor基于概率做出动作,critic对动作给出动作价值。


Monte-Cralo updateTemporal-Difference update
用于阶段性任务连续学习
Monte-Carlo Learning、基础版Policy radientsQ-Learning、Sarsa、升级版Policy gradients

On-PolicyOff-Policy
SarsaQ-Learning
Sarsa(λ)DQN

Actor-Critic

actor–>policy gradient在连续动作中选择合适的动作

critic–>Q-learning单步更新

critic学习奖惩机制,环境和奖惩之间的关系可以使actor单步更新

problem:连续学习连续更新,前后存在相关性

solve:actor-critic + DQN–>DDPG(Deep Deterministic Policy Gradient)

DDPG可以在连续动作上更有效的学习

DDPG

DDPG= Deep + Deterministic + Policy Gradient

Deep:memory replay + target network(更新速度不同)

Deterministic:改变输出动作的过程,由随机选择变为确定输出一个动作

Policy Gradient:动作估计网络(输出实时动作actor施行)|动作现实网络(更新价值网络)

value-based:状态现实网络(输入是动作现实网络的动作)|状态估计网络(输入是动作估计网络的输入)

value-based:状态现实网络(输入是动作现实网络的动作)|状态估计网络(输入是动作估计网络的输入)

DDPG


版权声明:本文为nothingtosa原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。