【发布时间】:2020-04-01 19:04:09
【问题描述】:
我正在尝试实现 python 的深度强化学习程序,其中代理必须在时间限制到期之前解决问题(接近目标)。 管理时间的最佳方法是什么?将剩余时间作为神经网络的输入传递是个好主意吗? 我试图这样做(剩余时间作为描述环境状态的条目之一)但算法没有收敛......
任何想法或提示? 非常感谢!!
【问题讨论】:
标签: time deep-learning reinforcement-learning q-learning
我正在尝试实现 python 的深度强化学习程序,其中代理必须在时间限制到期之前解决问题(接近目标)。 管理时间的最佳方法是什么?将剩余时间作为神经网络的输入传递是个好主意吗? 我试图这样做(剩余时间作为描述环境状态的条目之一)但算法没有收敛......
任何想法或提示? 非常感谢!!
【问题讨论】:
标签: time deep-learning reinforcement-learning q-learning
假设你正在尝试实现深度 q 学习,我认为最好从奖励中减去剩余时间,例如:
Q_target = (reward-time_remaining)+gamma*max(Q(s',a))
【讨论】: