为什么需要目标网络？答案

【问题标题】：Why is a target network required?为什么需要目标网络？
【发布时间】：2019-06-11 17:39:36
【问题描述】：

我不知道为什么在 DQN 中需要目标网络？我正在阅读有关“通过深度强化学习实现人类水平控制”的论文

我了解 Q-learning。 Q-learning 是基于价值的强化学习算法，它学习状态-动作之间的“最佳”概率分布，这将在一系列时间步长上最大化其长期折扣奖励。

Q-learning 使用贝尔曼方程更新，单步 q-learning 更新由下式给出

Q(S, A) = Q(S, A) + $\alpha$[R_(t+1) + $\gamma$ (Q(s’,a;’) - Q(s,a)]

其中 alpha 和 gamma 是学习和折扣因子。我可以理解强化学习算法会变得不稳定和发散。

使用经验回放缓冲区，以便我们不会忘记过去的经验，并对提供的数据集进行去相关性以了解概率分布。
这是我失败的地方。
让我把论文中的段落分开讨论
- $Q$ 的小幅更新可能会显着改变策略并因此改变数据分布这一事实 - 了解这部分。定期对 Q-network 进行更改可能会导致不稳定和分布变化。例如，如果我们总是左转或类似的事情。
- 以及动作值 (Q) 和目标值之间的相关性 r + $gamma$ (argmax(Q(s’,a’)) — 这表示奖励 + gamma * 我对回报的预测，因为我采取了我认为在当前状态下最好的动作并从那时起遵守我的政策。
- 我们使用了迭代更新，将动作值 (Q) 调整为仅定期更新的目标值，从而减少与目标的相关性。

那么，总而言之，需要一个目标网络，因为网络在每个时间步都在不断变化，并且“目标值”在每个时间步都在更新？

但我不明白它是如何解决的？

【问题讨论】：

一件事是更新在我看来像 SARSA。您似乎正在使用您采取的实际下一步行动a'，而不是下一步行动的最大值。至少我没有看到方程式中的最大值。

标签： deep-learning artificial-intelligence

【解决方案1】：

所以，总而言之，需要一个目标网络，因为网络在每个时间步都在不断变化，并且“目标值”在每个时间步都在更新？

Q-learning 和 DQN 的区别在于你用函数逼近器替换了 exact 值函数。使用 Q-learning，您在每个时间步都准确地更新一个状态/动作值，而使用 DQN，您正在更新许多，这是您理解的。这导致的问题是您可以影响下一个状态的动作值，而不是像在 Q-learning 中那样保证它们是稳定的。

当使用标准深度网络（相同大小的一组完全连接的层）时，DQN 基本上总是会发生这种情况。您通常看到的效果被称为“灾难性遗忘”，它可能非常壮观。如果您正在使用这种网络（简单的网络，而不是像素网络）做类似月球着陆器的事情，并跟踪过去 100 场左右比赛的滚动平均得分，您可能会看到一个不错的得分曲线，那么所有突然之间，即使你的 alpha 变小，它也会再次开始做出糟糕的决定。无论您让它运行多长时间，这个循环都会无休止地继续下去。

使用稳定的目标网络作为您的错误度量是对抗这种影响的一种方法。从概念上讲，这就像说，“我知道如何打好这个，我会尝试一下，直到找到更好的东西”，而不是说“我要重新训练自己如何玩这个每一步之后的整个游戏”。通过让您的网络有更多时间考虑最近发生的许多操作，而不是一直更新，它有望在您开始使用它来执行操作之前找到一个更强大的模型。

另一方面，DQN 在这一点上基本上已经过时了，但那篇论文的主题是导致过去几年 RL 爆炸式增长的导火索。

【讨论】：

这是一个很棒的解释。感谢那。我开始研究 DQN、PPO 和 a3C。你还有什么建议吗？
这是我强烈推荐的播放列表，youtube.com/playlist?list=PLAdk-EyP1ND8MqJEJnSvaoUShrAWYe51U，第 3 讲专门介绍了 DQN，由您引用的论文的作者提供。
@Thirdwater 一般来说，对于需要使用深度网络作为函数逼近器的问题，学习策略要快得多，现在有一些方法可以同时学习策略和值（例如，演员评论方法) 对大多数问题的学习速度更快。
@Thirdwater，我强烈推荐上面链接的 youtube 课程。
@NickLarsen：我找到了一种方法，它实际上展示了如何改变 lambda (arxiv.org/pdf/1703.01327.pdf) 我今天的任务是理解它