Q-Learning 与 Sarsa

  • q-learning 与sarsa都是model free情况下通过 TD求解的Bellman equation的方法。他们的区别是q-learning是off-policy的,sarsa是on-policy的。
  • 公式对比
    Sarsa:
    强化学习从入门到放弃(二)Q-learning 与 Sarsa
    Q-learning:
    强化学习从入门到放弃(二)Q-learning 与 Sarsa
    二者的区别:
    强化学习从入门到放弃(二)Q-learning 与 Sarsa
    网上都在说sarsa是一个保守的算法,而q-learning是一个更价激进的算法,这是为什么呢?
    Sarsa是一个说到做到的算法,Q(s,a)Q(s,a)的估计值与下一个状态S‘的最大值Q(s,a)Q(s',a')相关,因此为了达到这个值就需要下一步使用动作a’。
    而q-learning比较不讲道理,Q(s,a)Q(s,a)的估计值虽然与下一个状态S‘的最大值Q(s,a)Q(s',a')相关,但是我只要你的最大值而不选你的动作(相当于白嫖了一个下一个时刻的最大价值maxQ(s,a)maxQ(s',a))。因为下一个动作不受argmax(s,a)argmax(s',a)的束缚,因此可以走出更大胆的路径。
  • 这样做的后果就是q-learning走过的路径reward不一定很好,但是可以走出更多种的可能性,所以更可能求出最优解。而sarsa与之相反因此走法更保守所以走过(或者迭代过程中)reward比较好,但是很有可能求出的不是最优解。
    强化学习从入门到放弃(二)Q-learning 与 Sarsa

相关文章:

  • 2021-07-04
  • 2021-10-29
  • 2021-07-14
  • 2021-12-02
  • 2021-11-21
  • 2022-01-09
猜你喜欢
  • 2021-04-23
  • 2021-12-26
  • 2021-10-19
  • 2021-07-20
  • 2021-11-23
  • 2021-11-27
  • 2021-07-19
相关资源
相似解决方案