1、基本原理

强化学习初系列1--简述强化学习(入门)强化学习初系列1--简述强化学习(入门)

如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。

Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

2、强化学习VS监督学习

强化学习初系列1--简述强化学习(入门)

目标:动态地调整参数,以达到强化信号最大

若已知r/A梯度信息,则可直接使用监督学习算法。

强化信号r与Agent产生的动作A没有明确的函数形式描述,所以梯度信息r/A无法得到。

在强化学习系统中,需要某种随机单元,使用这种随机单元,Agent在可能动作空间中进行搜索并发现正确的动作。

3、模型设计

强化学习初系列1--简述强化学习(入门)

(1)行动网络:根据当前的状态决定下一个时刻施加到环境上去的最好动作

--前向信号计算

(2)评估网络:根据当前的状态和模拟环境(辅助网络建模)用于预测标量值的外部强化信号

--遗传强化计算

4、设计考虑

(1)如何表示状态空间和动作空间

(2)如何选择建立信号

(3)如何通过学习来修正不同状态-动作对的值

(4)如何根据这些值来选择适合的动作

5、特点

(1)没有监督者,只有一个reward信号

(2)反馈是延迟的,不是立即生成的

(3)时间在RL中具有重要的意义

(4)agent的行为会影响之后一系列的data

 

 

相关文章:

猜你喜欢
相关资源
相似解决方案