上次提到了在深度强化中的几个概念,现在来看一看他们的关系:
环境——>状态1——>行为1——>环境——>状态2——>行为2等等

以一个游戏的强化学习过程为例:
深度强化学习(policy gradient) task03-1

深度强化学习(policy gradient) task03-1
所有状态和行为组成的序列被称为trajectory(轨迹)
某种轨迹出现的概率为
深度强化学习(policy gradient) task03-1
奖励R:
深度强化学习(policy gradient) task03-1
下面要求R的梯度
深度强化学习(policy gradient) task03-1
深度强化学习(policy gradient) task03-1
深度强化学习(policy gradient) task03-1

policy gradient:
迭代公式为

深度强化学习(policy gradient) task03-1
具体的步骤是
深度强化学习(policy gradient) task03-1
计算时,需要最小化
深度强化学习(policy gradient) task03-1
因此,在tf或torch中,求上式的梯度并乘以权重(R),并加到这个式子里不断迭代(牛顿法)
tip1: 为了不让R全都为正(避免有的情况没能采样到而使其权重变很低),会在R的基础上减掉一个值
深度强化学习(policy gradient) task03-1
以便让权重有正有负。这里一般取多个序列得出的R的平均值(近似于其期望)作为b
深度强化学习(policy gradient) task03-1
**tip2:**assign suitable credit:一个序列的得分R高的时候并不意味着里面所有的action都是好的,而上面的计算则是序列的所有action都乘相同的weight,在sample次数不够多的情况下容易对action产生无解,为了区分一个序列中不同action的好坏,让他们分别与不同的权重相乘。
深度强化学习(policy gradient) task03-1
上面替换原来R的意思是认为某一个action之后所有得分都应该与这个action有关的,所以对那些分数加权求和,离这个action越近的分数权重越大

相关文章:

  • 2021-09-12
  • 2022-01-22
  • 2021-12-25
  • 2021-06-04
  • 2022-01-14
  • 2021-09-13
  • 2021-06-04
  • 2021-11-06
猜你喜欢
  • 2021-08-02
  • 2022-12-23
  • 2021-12-11
  • 2021-10-17
  • 2021-12-14
  • 2021-09-27
  • 2021-12-13
相关资源
相似解决方案