为什么这些模型的某个时期的准确性突然提高答案

【问题标题】：Why does a sudden increase in accuracy at an epoch in these model为什么这些模型的某个时期的准确性突然提高
【发布时间】：2024-01-21 22:25:01
【问题描述】：

我现在正在学习卷积神经网络，并在 Pytorch 上进行练习。最近在看SGD，Adam，Radam等优化器相关的论文。

在查看论文的视觉结果时，我发现他们的图像在第 80 个 epoch 时显示出准确率突然提高（论文“ON THE Variance OF THE ADAPTIVE LEARNING”中的图6 率和超越”）

或第150个epoch（论文“ADAPTIVE GRADIENT METHODS WITH DYNAMICBOUND OF LEARNING RATE”中的图3）

无论哪种算法。

谁能告诉我为什么会这样？谢谢。

【问题讨论】：

【解决方案1】：

如果你的实现是正确的，这可能意味着你的模型此时学到了一些非常有用的东西（所以你的梯度下降找到了一个新的证据）。例如，模型必须自己学习输入的正确归一化。看到 loss 有这种“阶梯式”损失图并不罕见，我以前见过（但不记得具体在哪里）。

这也可能意味着您使用的权重初始化效率低下，因此您的优化算法必须手动找到最佳的正确算法。

【讨论】：

【解决方案2】：

它们大大降低了学习率。可能他们从太大的学习率开始以快速获得一些“平均”模型，然后降低学习率以调整该模型以提高准确性。有许多降低学习率的训练方法。他们选择了这样的。

在论文“具有动态学习率的自适应梯度方法”中，他们说他们降低了学习率：

我们采用 200 个 epoch 的固定预算并减少学习在 150 个 epochs 后速率增加 10

可能在另一篇论文中他们也这样做了，但他们没有写过。

【讨论】：