RL

**model-based 多建了一个学习到的虚拟环境，通过想象判断不同动作的结果。**eg.AlphaGo

policy-based	value-based
输出下一步采取各种行动的概率（每种动作都有可能被选中）	根据最高价值选择动作
用概率分布在连续的动作中选择特定的动作	×
policy gradients	Q-learning、Sarsa

Actor-Critic是两者的结合。actor基于概率做出动作，critic对动作给出动作价值。

Monte-Cralo update	Temporal-Difference update
用于阶段性任务	连续学习
Monte-Carlo Learning、基础版Policy radients	Q-Learning、Sarsa、升级版Policy gradients

On-Policy	Off-Policy
Sarsa	Q-Learning
Sarsa(λ)	DQN

actor–>policy gradient在连续动作中选择合适的动作

critic–>Q-learning单步更新

critic学习奖惩机制，环境和奖惩之间的关系可以使actor单步更新

problem：连续学习连续更新，前后存在相关性

solve：actor-critic + DQN–>DDPG(Deep Deterministic Policy Gradient)

DDPG可以在连续动作上更有效的学习

DDPG= Deep + Deterministic + Policy Gradient

Deep：memory replay + target network(更新速度不同)

Deterministic：改变输出动作的过程，由随机选择变为确定输出一个动作

Policy Gradient：动作估计网络(输出实时动作actor施行)|动作现实网络(更新价值网络)

value-based：状态现实网络(输入是动作现实网络的动作)|状态估计网络(输入是动作估计网络的输入)

DDPG