学习率如何影响梯度下降？

【问题标题】：How learning rate influences gradient descent?学习率如何影响梯度下降？
【发布时间】：2019-02-22 06:22:40
【问题描述】：

当梯度下降定量地建议减少偏差和权重时，学习率在做什么？我是初学者，请高人指教。

【问题讨论】：

【解决方案1】：

学习率是一个超参数，它控制我们根据损失梯度调整网络权重的程度。该值越低，我们沿着向下的斜坡行驶的速度就越慢。虽然这可能是一个好主意（使用低学习率），以确保我们不会错过任何局部最小值，但这也可能意味着我们将需要很长时间才能收敛 — 尤其是如果我们陷入困境高原地区。

new_weight = existing_weight — learning_rate * 梯度

如果学习率太小，梯度下降可能会很慢

如果学习率快，梯度下降会超过最小值。它可能无法收敛，甚至可能发散

【讨论】：