梯度下降的波动[关闭]

【问题标题】：Fluctuations of gradient descent [closed]梯度下降的波动[关闭]
【发布时间】：2021-11-13 23:11:04
【问题描述】：

我正在研究神经网络，我对梯度下降理论有一些疑问。

为什么Batch梯度下降的波动（斜率）小于SGD的波动（斜率）。
为什么 SGD 可以更好地避免局部最小值批量梯度下降。
批量梯度调查所有数据，然后更新。它的含义是什么？

【问题讨论】：

我投票结束这个问题，因为它与编程无关。

标签： machine-learning deep-learning gradient-descent

【解决方案1】：

一切都关系到开发和探索之间的妥协。

梯度下降使用所有数据来更新权重，这意味着更好的更新。在神经网络中使用 Batch Gradient Descend 是因为原来的不适用于实践。相反，Stochastic Gradient Descend 仅使用一个示例，这会增加噪音。 使用 BGD 和 GD，您可以利用更多数据。
使用 SGD，您可以避免最小位置，因为通过使用单个示例，您可以使探索受益，并且您可以提出 BGD 无法提供的其他解决方案，这意味着噪声。 SGD 你探索更多。
BGD，获取一个数据集并将其分成 N 个块，其中每个块有 B 个样本（B 是 batch_size）。这会迫使您遍历数据集中的所有数据。

【讨论】：

猜你喜欢

2020-09-17
2020-05-24
1970-01-01
2016-06-13
2016-09-25
2020-11-30
2021-12-18
1970-01-01
1970-01-01

相关资源

下载 2023-01-02
下载 2023-02-20
下载 2022-12-03

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode