亚当优化器和梯度下降

【问题标题】：Adam's Optimizer and Gradient Descent亚当优化器和梯度下降
【发布时间】：2019-01-31 12:25:01
【问题描述】：

我试图了解这些 Adam Optimizer 和 Gradient Descent Optimizer 之间有什么区别，以及在哪种情况下最好使用哪个。我正在查看 TF 网站，但如果您知道在哪里以更好且易于理解的方式解释了这些内容，请告诉我？

【问题讨论】：

【解决方案1】：

AdamOptimizer 正在使用 Adam Optimizer 更新学习率。与梯度下降相比，它是一种自适应方法，梯度下降对所有权重更新都保持单一的学习率，并且学习率不会改变。

与 GradientDescent 相比，Adam 的优势在于使用梯度（均值）的移动平均值（动量）以及梯度平方的移动平均值。

没有哪个更好用，这完全取决于您的问题、网络和数据。但总的来说，Adam 已证明自己处于领先地位，并且是深度学习任务中最常用的任务之一，因为它取得了更好的结果和准确度指标。

【讨论】：