小批量梯度只是在线梯度的总和吗？答案

【问题标题】：Is the mini-batch gradient just the sum of online gradients?小批量梯度只是在线梯度的总和吗？
【发布时间】：2014-06-28 09:20:29
【问题描述】：

我正在修改用于训练神经网络的代码，该神经网络进行在线训练以适用于小批量。权重 (de/dw) 的小批量梯度是否只是小批量中样本梯度的总和？或者，由于 sigmoid 输出函数，它是一些非线性函数吗？或者，它是总和，但除以某个数字使其更小？

澄清：最好把这个问题具体提出来，问问full-batch gradient和online gradient之间的关系。因此，请参阅下一段：

我正在使用具有 sigmoid 激活函数的神经元对二维空间中的点进行分类。架构是 2 x 10 x 10 x 1。有 2 个输出类：一些点是 1，另一些是 0。误差是（目标 - 输出）平方的一半。我的问题是，整个批次梯度是否等于每个样本的梯度之和（在批次中保持权重不变）？

【问题讨论】：

【解决方案1】：

这有点取决于您的确切成本函数，但是当您使用在线模式时，这意味着您的函数在训练样本的意义上是可加的，所以最可能的方法（不知道确切的细节）是计算平均梯度。当然，如果只是把它们加起来，结果是完全一样的，但需要的学习率会更小。

【讨论】：

+1 谢谢。我正在使用具有 sigmoid 激活函数的神经元对二维空间中的点进行分类。架构为 2 x 10 x 10 x 1。有 2 个输出类：一些点是 1，另一些是 0。误差是（目标 - 输出）平方的一半。我的问题是，整个批次梯度是否等于每个样本的梯度之和（在批次中保持权重不变）？
是的，这只是一个总结。尽管对于分类，您应该使用交叉熵成本函数，因为平方误差对于回归已经很好地定义了。