MNIST 数据集上的损失 CaffeNet 与 LeNet答案

【问题标题】：Loss CaffeNet vs LeNet on MNIST datasetMNIST 数据集上的损失 CaffeNet 与 LeNet
【发布时间】：2016-03-21 08:16:06
【问题描述】：

我想在 Caffe 的 MNIST 数据集上训练 CaffeNet。然而，我注意到在100 迭代之后，损失略有下降（从2.66364 到2.29882）。

但是，当我在 MNIST 上使用 LeNet 时，在 100 迭代之后，损失从 2.41197 变为 0.22359。

这是因为 CaffeNet 的层数更多，因此需要更多的训练时间来收敛吗？还是因为其他原因？我确保网络的solver.prototxt是相同的。

虽然我知道 100 次迭代非常短（因为 CaffeNet 通常训练大约 300-400k 次迭代），但我觉得奇怪的是 LeNet 能够这么快就得到这么小的损失。

【问题讨论】：

【解决方案1】：

我不熟悉这些网络的架构，但总的来说有几个可能的原因：

1) 其中一个网络确实要复杂得多

2) 其中一个网络以更大的学习率进行训练

3) 或者它使用了有动力的训练，而其他网络没有使用它？

4) 也可能它们在训练期间都使用动量，但其中一个具有更大的动量系数指定

真的，对此有很多可能的解释。

【讨论】：