【发布时间】:2020-06-20 23:26:44
【问题描述】:
我尝试使用以下论文来改进我的代理https://arxiv.org/pdf/1511.05952.pdf的学习
虽然它似乎在确定性环境中运行良好,但我觉得它实际上会在随机环境中变得更糟。
假设对于状态 S_w 的动作 A_w,我们有 50% 的机会获得 +1000000 的奖励和 50% 的机会获得 -1000000 的奖励(在其他状态下可以忽略不计的确定性奖励)。因此,该动作的真实 Q 值为 0。
在对任一可能样本进行训练时(假设两种情况都在回放内存中),这些样本的优先级将设置为 1000000,因此为即将到来的更新选择这些样本的概率将趋于 1 (如果我们不将新样本添加到重放内存中,它们每个都在 0 和 1 之间振荡。
因此永远不会对其他样本进行训练。
我的问题是:我们该如何处理?对于这样的环境,我应该直接放弃使用这种技术吗?
【问题讨论】:
标签: reinforcement-learning dqn