【发布时间】:2019-11-01 12:32:42
【问题描述】:
我想澄清一下 Nature 2015 上的文章“通过深度强化学习进行人类水平控制”。当我阅读它时,我了解到他们使用具有相同算法、网络架构和超参数的 DQN。伟大的!但他们没有具体说明他们是否从头开始训练每场比赛,因此我们每场比赛获得一个神经网络(意味着 49 场比赛的 49 个神经网络),或者他们是否使用独特的神经网络训练所有比赛(意味着只有一个神经网络可以玩 49 场比赛)。
有人知道正确答案是什么吗?因为根本不是一回事!:)
谢谢,
【问题讨论】:
-
如果我的帖子回答了你的问题,请设置为正确答案!