RL
| model-free | model-based |
|---|---|
| Q-learning | Q-learning |
| Sarsa | Sarsa |
| Policy Gradients | Policy Gradients |
**model-based 多建了一个学习到的虚拟环境,通过想象判断不同动作的结果。**eg.AlphaGo
| policy-based | value-based |
|---|---|
| 输出下一步采取各种行动的概率(每种动作都有可能被选中) | 根据最高价值选择动作 |
| 用概率分布在连续的动作中选择特定的动作 | × |
| policy gradients | Q-learning、Sarsa |
Actor-Critic是两者的结合。actor基于概率做出动作,critic对动作给出动作价值。
| Monte-Cralo update | Temporal-Difference update |
|---|---|
| 用于阶段性任务 | 连续学习 |
| Monte-Carlo Learning、基础版Policy radients | Q-Learning、Sarsa、升级版Policy gradients |
| On-Policy | Off-Policy |
|---|---|
| Sarsa | Q-Learning |
| Sarsa(λ) | DQN |
Actor-Critic
actor–>policy gradient在连续动作中选择合适的动作
critic–>Q-learning单步更新
critic学习奖惩机制,环境和奖惩之间的关系可以使actor单步更新
problem:连续学习连续更新,前后存在相关性
solve:actor-critic + DQN–>DDPG(Deep Deterministic Policy Gradient)
DDPG可以在连续动作上更有效的学习
DDPG
DDPG= Deep + Deterministic + Policy Gradient
Deep:memory replay + target network(更新速度不同)
Deterministic:改变输出动作的过程,由随机选择变为确定输出一个动作
Policy Gradient:动作估计网络(输出实时动作actor施行)|动作现实网络(更新价值网络)
value-based:状态现实网络(输入是动作现实网络的动作)|状态估计网络(输入是动作估计网络的输入)
value-based:状态现实网络(输入是动作现实网络的动作)|状态估计网络(输入是动作估计网络的输入)
版权声明:本文为nothingtosa原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。