人工智能教程 - 专业选修课程4.3.5 - 强化学习 12.无模型预测,蒙特卡罗强化学习

无模型预测

Model-Free Prediction

蒙特卡罗强化学习

Monte-Carlo Reinforcement Learning

  • 从经历完整的经验序列来估计状态值 MC methods learn directly from episodes of experience
  • 无模型,不清楚MDP的状态转移和奖励
    MC is model-free: no knowledge of MDP transitions / rewards
  • 完整的经验序列 MC learns from complete episodes: no bootstrapping
  • 价值=收获的平均值 MC uses the simplest possible idea: value = mean return
  • Caveat: can only apply MC to episodic MDPs
    • 必须终止,才能得到平均值 All episodes must terminate

蒙特卡罗学习策略评估

在这里插入图片描述

在这里插入图片描述

二十一点的例子

在这里插入图片描述


版权声明:本文为fsdaewrq原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。