【发布时间】:2020-09-17 16:31:16
【问题描述】:
在批量梯度下降中,参数根据所有点的总损失/平均损失进行更新 在随机梯度下降或 SGD 我们在每一点而不是一个时期之后更新参数。 所以让我们说如果最后一点是一个异常值,会导致整个拟合线剧烈波动。 怎么靠谱。 或收敛于这样的轮廓SGD contour
【问题讨论】:
-
这个论坛更多的是编程问题。您刚刚提出的问题实际上是我们使用批量梯度下降的原因之一。此外,您还有一些参数(例如学习率)会限制您对每一步的影响,因此即使有一个强异常值,梯度步长也会受到学习率的限制。
标签: machine-learning deep-learning pytorch gradient-descent