Q learning原理及实现(Cart-Pole平衡游戏)详解

  • 内容
  • 评论
  • 相关

前面提到过,有一个由状态 s 描述的环境(s∈S,S 是所有可能状态的集合),一个能够执行动作 a 的 agent(a∈A,A 是所有可能动作的集合),智能体的动作致使智能体从一个状态转移到另外一个状态。智能体的行为会得到奖励,而智能体的目标就是最大化奖励。

在 Q learning 中,智能体计算能够最大化奖励 R 的状态-动作组合,以此学习要采取的动作(策略 π),在选择动作时,智能体不仅要考虑当前的奖励,还要尽量考虑未来的奖励:



 

本文标题:Q learning原理及实现(Cart-Pole平衡游戏)详解

本文地址:https://www.hosteonscn.com/4286.html

评论

0条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注