【发布时间】:2019-02-22 06:22:40
【问题描述】:
当梯度下降定量地建议减少偏差和权重时,学习率在做什么?我是初学者,请高人指教。
【问题讨论】:
-
在stats.stackexchange.com问这个问题。
-
欢迎来到 SO;请花点时间阅读What topics can I ask about here?
标签: machine-learning gradient-descent
当梯度下降定量地建议减少偏差和权重时,学习率在做什么?我是初学者,请高人指教。
【问题讨论】:
标签: machine-learning gradient-descent
学习率是一个超参数,它控制我们根据损失梯度调整网络权重的程度。该值越低,我们沿着向下的斜坡行驶的速度就越慢。虽然这可能是一个好主意(使用低学习率),以确保我们不会错过任何局部最小值,但这也可能意味着我们将需要很长时间才能收敛 — 尤其是如果我们陷入困境高原地区。
new_weight = existing_weight — learning_rate * 梯度
如果学习率太小,梯度下降可能会很慢
如果学习率快,梯度下降会超过最小值。它可能无法收敛,甚至可能发散
【讨论】: