1、基本原理
如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。
Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。
2、强化学习VS监督学习
目标:动态地调整参数,以达到强化信号最大
若已知r/A梯度信息,则可直接使用监督学习算法。
强化信号r与Agent产生的动作A没有明确的函数形式描述,所以梯度信息r/A无法得到。
在强化学习系统中,需要某种随机单元,使用这种随机单元,Agent在可能动作空间中进行搜索并发现正确的动作。
3、模型设计
(1)行动网络:根据当前的状态决定下一个时刻施加到环境上去的最好动作
--前向信号计算
(2)评估网络:根据当前的状态和模拟环境(辅助网络建模)用于预测标量值的外部强化信号
--遗传强化计算
4、设计考虑
(1)如何表示状态空间和动作空间
(2)如何选择建立信号
(3)如何通过学习来修正不同状态-动作对的值
(4)如何根据这些值来选择适合的动作
5、特点
(1)没有监督者,只有一个reward信号
(2)反馈是延迟的,不是立即生成的
(3)时间在RL中具有重要的意义
(4)agent的行为会影响之后一系列的data