【问题标题】:Keras, Stochastic Gradient Descent - what do parameters meanKeras,随机梯度下降 - 参数是什么意思
【发布时间】:2018-08-27 07:16:52
【问题描述】:

我不知道随机梯度下降算法的详细工作原理,目前我不需要知道这一点。我所知道的是,它通过计算梯度并进入局部最小值的方向来最小化损失函数。但是我在使用 Keras 的项目中使用随机梯度下降作为优化器,我不知道这个优化器的参数是什么意思。显然,这些参数在文档中有简短的描述,但不够具体,我仍然不明白它们的含义。

那么你能解释一下这 4 个参数吗:

lr: float >= 0. Learning rate.
momentum: float >= 0. Parameter that accelerates SGD in the relevant direction and dampens oscillations.
decay: float >= 0. Learning rate decay over each update.
nesterov: boolean. Whether to apply Nesterov momentum.

我怎么知道我应该如何设置它们?

【问题讨论】:

  • 你错了我现在不需要知道这个。至少阅读BOTTOU, Léon. Stochastic gradient descent tricks. In: Neural networks: Tricks of the trade. Springer, Berlin, Heidelberg, 2012. S. 421-436.link
  • 如果你想以实用的方式学习这个主题,我可以建议你由 Ian Goodfellow 和 Yoshua Bengio 撰写的“深度学习”

标签: python parameters deep-learning keras gradient-descent


【解决方案1】:

学习率是您迈向最小值的步长。如果您使用较大的学习率,您将面临超出最小值的风险。如果选择较小,则需要很长时间才能达到最小值。学习率的一个好的起点是 0.01,然后像 0.03、0.1、0.3 等一样增加。相反,衰减是学习率应该随着时间降低多少。其背后的原因是,在训练开始时,您可能需要较大的学习率来快速达到最小值。之后,您需要更小的学习率来精确地达到最小值。

很抱歉,但对其他两个不太了解,尽管我的文字太长,无法作为评论插入。

【讨论】:

    猜你喜欢
    • 2016-06-13
    • 2021-12-18
    • 1970-01-01
    • 2016-09-25
    • 2018-12-10
    • 2020-09-17
    • 1970-01-01
    • 2021-02-20
    • 1970-01-01
    相关资源
    最近更新 更多