【发布时间】:2018-02-09 01:54:15
【问题描述】:
我已经做了一些范围和计算,如果我理解正确,随机梯度下降 - “亚当优化器”基本上是普通梯度下降,其中一个具体是它选择与训练数据集比例较小的随机数据,以避免 NN陷入差距,这可能不一定反映下降函数的最小值?谢谢
【问题讨论】:
-
维基百科没有涵盖您的问题吗?
to avoid NN being caught in gap是这种用法中最不重要的原因。不同的收敛属性和内存使用更为重要(并且您的 陷入差距 在理论上还没有被很好地理解,尽管对于具有非凸损失的一般收敛也是如此)。亚当也不是香草-SGD。它是在某些假设下(或多或少是某种过滤器)试图提高收敛性(如经典动量等)的一种变体。 -
谢谢萨沙。我一直没有考虑内存使用情况。正确。
标签: neural-network