【发布时间】:2019-01-16 11:56:46
【问题描述】:
所以我使用卷积层作为深度强化学习的神经网络的第一层,以从我构建的模拟中获取空间特征。模拟给出了不同长度和高度的不同地图来处理。如果我了解卷积网络,这应该无关紧要,因为通道大小保持不变。在卷积网络和全连接层之间有一个空间金字塔池化层,因此不同的图像大小无关紧要。空间数据也非常稀疏。通常在第一个卷积层吐出所有 Nans 之前,它能够经历几个状态,有时是几个情节。即使我修复了地图大小,也会发生这种情况。不知道问题出在哪里,问题出在哪里?
【问题讨论】:
-
标题有点误导,但是由于学习率大,参数正则化不良(您使用的是批量标准化吗?),您的值很可能只是不同的你的实施?也许一些代码?您目前使用的超参数是什么?什么优化器?如果您希望获得有关此类主题的帮助,则必须提供更多详细信息。
-
我正在使用批量归一化,但这发生在第一层,然后才能应用泄漏的 ReLU 或批量归一化。我正在使用已使用 SGD+Momentum 优化器进行范围测试的循环学习。
-
它发生在哪里并不重要,问题是您的反向传播步骤可能会增加/减少层的权重,以至于网络将在下一次前向传递中计算 NaN。如果您期望得到合理的答案,请分享您的代码,否则真的很难分辨出什么是错的。并命名您的参数,例如学习率、学习率衰减等。
标签: python neural-network artificial-intelligence conv-neural-network pytorch