【发布时间】:2019-08-29 23:17:33
【问题描述】:
我正在为一项作业实施梯度下降,但对权重何时停止更新感到困惑。当权重变化不大时,我是否会停止更新权重,即当权重i - weightprevious i
另外,按照我目前在上面实现的方式,Weight1 可以在 Weight2 之前完成。这是正确的还是应该同时完成所有的重量?
【问题讨论】:
标签: machine-learning logistic-regression gradient-descent
我正在为一项作业实施梯度下降,但对权重何时停止更新感到困惑。当权重变化不大时,我是否会停止更新权重,即当权重i - weightprevious i
另外,按照我目前在上面实现的方式,Weight1 可以在 Weight2 之前完成。这是正确的还是应该同时完成所有的重量?
【问题讨论】:
标签: machine-learning logistic-regression gradient-descent
如果你可以访问梯度,你可以在你的梯度的 l2-norm 低于某个阈值时停止,如果没有,你可以使用你的方法在你的权重之间的差异的 l2-norm 上,通常在这个在这种情况下,阈值不是绝对的,而是相对于 ||weight_i||+small_delta。您可能还会发现此链接很有用:https://math.stackexchange.com/questions/1618330/stopping-criteria-for-gradient-method 请注意,您需要对要最小化的函数的性质进行一些假设,以保证最小化(存在最小值,吸引力盆地中的起点对于强凸函数来说不是问题,但通常不正确)。
【讨论】:
简单来说,您在成本/损失最小化时停止。
您应该使用偏导数分布梯度。
【讨论】: