1.on-policy与off-policy

Sarsa(on-policy)优化的是实际上执行的策略,拿下一步一定执行的action来优化Q表格,Sarsa知道自己 下一步会跑到悬崖去,所以在这一步它会尽可能的离悬崖远一点,保证下一步即使是随机动作,也会在安全区域内。

off-policy在学习的过程中,保留2种策略:1)希望学到的最佳的目标策略 (target policy),2)探索环境的策略(behavior policy),大胆探索环境为了给目标学习,off-policy由于将目标与行为策略分离开,Q-learing可以大胆的去探索经验轨迹来优化

强化学习 ——On-Policy与Off-Policy

 

2.Sarsa与Q-learing

Sarsa在公式强化学习 ——On-Policy与Off-Policy中的A'为下一个state的实际action

Q-learing中更新Q表格时用到的Q值对应的action不一定是下一个state的实际action

强化学习 ——On-Policy与Off-Policy

两者的更新公式都相同,只是Target不同。

Q-learing默认下一个action是Q值最大的动作,不受探索的影响。

强化学习 ——On-Policy与Off-Policy

3.Q-learing与环境的交互

和Sarsa对比,Q-learing不需要知道next_action

强化学习 ——On-Policy与Off-Policy

3.1根据Q表格选动作

强化学习 ——On-Policy与Off-Policy

3.2更新Q表格

强化学习 ——On-Policy与Off-Policy

强化学习 ——On-Policy与Off-Policy

相关文章:

  • 2021-09-08
  • 2021-06-24
  • 2021-05-08
  • 2022-01-07
  • 2021-04-17
  • 2021-12-18
  • 2021-10-27
猜你喜欢
  • 2021-04-25
  • 2021-11-04
  • 2021-12-04
  • 2021-07-04
  • 2021-09-24
  • 2021-10-23
  • 2021-04-22
相关资源
相似解决方案