强化学习Q-Learning算法
前言
学习这个算法有一段时间了,但是因为自己犯懒一直没有整理。现整理一下,一方面有刚入门的同学可以参考,另一方面哪里写错或者理解不深的还请大家及时指正。
基本概念
基本概念
首先列出一些强化学习中的基本概念,主要是为了帮助自己回忆起学习这个算法的过程。
-
状态值函数:智能体在状态 处的累计回报的期望值被称为智能在在采用策略 时在状态 处的状态值函数。用公式表示如下:
不同的策略 在相同的状态 下对应的状态值函数是不同的,因为策略 本身会影响智能体处在某一状态是的行为,进而改变累计回报 。 - 状态-行为值函数:智能体在状态 处执行动作 所获得的累计回报的期望值被定义为智能体在策略 时处在状态 处执行动作 的状态-行为值函数。用公式表示如下:
递推关系
智能体的状态值函数和状态行为值函数之间存在一种递推关系。下图给出四种递推关系:
- ** **
Q-learning基本原理
Q-Learning算法是一种基于表格的值函数迭代的强化学习算法。这个方法最大的特点就是建立一张Q值表(Q-Table),算法迭代时Q值表不停地被更新,直至最后表中数据收敛。等到Q值表收敛后,智能体可以根据每个状态的行为值函数的大小来确定最优策略。Q值表示意如下: