【问题标题】:Fluctuations of gradient descent [closed]梯度下降的波动[关闭]
【发布时间】:2021-11-13 23:11:04
【问题描述】:

我正在研究神经网络,我对梯度下降理论有一些疑问。

  1. 为什么Batch梯度下降的波动(斜率)小于SGD的波动(斜率)。
  2. 为什么 SGD 可以更好地避免局部最小值 批量梯度下降。
  3. 批量梯度调查所有数据,然后更新。它的含义是什么?

【问题讨论】:

  • 我投票结束这个问题,因为它与编程无关。

标签: machine-learning deep-learning gradient-descent


【解决方案1】:

一切都关系到开发和探索之间的妥协。

  1. 梯度下降使用所有数据来更新权重,这意味着更好的更新。在神经网络中使用 Batch Gradient Descend 是因为原来的不适用于实践。相反,Stochastic Gradient Descend 仅使用一个示例,这会增加噪音。 使用 BGD 和 GD,您可以利用更多数据。

  2. 使用 SGD,您可以避免最小位置,因为通过使用单个示例,您可以使探索受益,并且您可以提出 BGD 无法提供的其他解决方案,这意味着噪声。 SGD 你探索更多。

  3. BGD,获取一个数据集并将其分成 N 个块,其中每个块有 B 个样本(B 是 batch_size)。这会迫使您遍历数据集中的所有数据。

【讨论】:

    猜你喜欢
    • 2020-09-17
    • 2020-05-24
    • 1970-01-01
    • 2016-06-13
    • 2016-09-25
    • 2020-11-30
    • 2021-12-18
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多