强化学习笔记(一) Qlearning & Sarsa

强化学习笔记(一) Qlearning & Sarsa

 

我的理解:

Q learning

Sarsa

在一个回合内:

初始化s

1. choose(s, Q) => action  (强化学习笔记(一) Qlearning & Sarsa策略)

2. move(action, s, Q) => s_ , R 

3. Q_fresh(action, s, Q, s_, R) => new_Q (最大值策略)

4. 更新 s = s_

5. 重复步骤1-5

在一个回合内:

初始化s , 并选择一个动作action   choose(s, Q) => action       (强化学习笔记(一) Qlearning & Sarsa策略)

1. move(action, s, Q) => s_, R 

2. choose(s_, Q) => action_    (强化学习笔记(一) Qlearning & Sarsa策略)

3. Q_fresh(action, s, Q, action_, s_, R) => new_Q

4. 更新 s=s_,  action=action_

5. 重复步骤1-5

 

帮助理解:

强化学习笔记(一) Qlearning & Sarsa

相关文章:

  • 2021-06-04
  • 2021-05-31
  • 2021-11-09
  • 2021-10-06
  • 2022-12-23
  • 2021-08-01
  • 2021-12-26
  • 2021-06-15
猜你喜欢
  • 2021-09-28
  • 2021-09-23
  • 2022-12-23
  • 2021-04-05
  • 2021-11-02
  • 2021-12-21
相关资源
相似解决方案