【发布时间】:2018-06-29 22:01:04
【问题描述】:
我最近看了Andrew Ng's video on SGDM。我知道动量项通过加权最后一个梯度并使用 V_dw 的一小部分来更新梯度。我不明白为什么动量也被称为指数加权平均。此外,在 Ng 在 6:37 的视频中,他说使用 Beta = 0.9 实际上意味着使用最后 10 个梯度的平均值。 有人可以解释它是如何工作的吗?对我来说,这只是向量 dW 中所有梯度的 1-0.9 的标量权重。
【问题讨论】:
-
这可能更适合stats.stackexchange.com
-
谢谢!我将在 40 分钟内重新发布,哈哈
标签: neural-network deep-learning mathematical-optimization momentum