强化学习初系列1--简述强化学习（入门）

1、基本原理

如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。

Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

强化学习初系列1--简述强化学习（入门）

目标：动态地调整参数，以达到强化信号最大

若已知r/A梯度信息，则可直接使用监督学习算法。

强化信号r与Agent产生的动作A没有明确的函数形式描述，所以梯度信息r/A无法得到。

在强化学习系统中，需要某种随机单元，使用这种随机单元，Agent在可能动作空间中进行搜索并发现正确的动作。

强化学习初系列1--简述强化学习（入门）

(1)行动网络：根据当前的状态决定下一个时刻施加到环境上去的最好动作

--前向信号计算

(2)评估网络：根据当前的状态和模拟环境（辅助网络建模）用于预测标量值的外部强化信号

--遗传强化计算

(1)如何表示状态空间和动作空间

(2)如何选择建立信号

(3)如何通过学习来修正不同状态－动作对的值

(4)如何根据这些值来选择适合的动作

(1)没有监督者，只有一个reward信号

(2)反馈是延迟的，不是立即生成的

(3)时间在RL中具有重要的意义

(4)agent的行为会影响之后一系列的data