【发布时间】:2017-09-27 14:26:17
【问题描述】:
我正在实施持续强化学习(Continuous Control with Deep Reinforcement Learning https://arxiv.org/abs/1509.02971),但在优化策略神经网络时遇到了问题。
按照论文中的建议,我通过计算和遵循梯度(梯度上升)来最大化策略的 Q 值:max Q(state,action=policy(state))。但是,由于 Q 神经网络(最初)不是 Q(state,action) 的完美近似,并且当策略的动作变大/无限时变得非常大/无限,所以我遇到了问题。 Q->infinite 当 action->infinite 时,这意味着策略的权重被优化为极大或无限的值。此外,当策略开始输出接近无穷大的值时,这意味着 Q 值变得太大,而强化值变得无关紧要,因为“r + gamma*Q”由极大的 Q 值支配。
您对此有什么推荐的解决方案?我打算通过使用 sigmoid 输出层而不是线性输出层来将策略的输出限制为 [0,1],但这似乎严重阻碍了优化过程,并且算法无法再学习好的策略了..
【问题讨论】: