【问题标题】:Why training error jumps without changing learning rate?为什么在不改变学习率的情况下训练错误会跳跃?
【发布时间】:2017-12-24 19:15:27
【问题描述】:

我正在训练一个包含大约 10 个卷积层和几个池化层的卷积网络。训练集大约有 250,000 个样本(16,000 个长度向量)。通过第一个 epoch 大约 50%,训练和测试错误从大约 68% 跃升至 92%。学习率是相同的(批量梯度下降)。批量大小为 32。是什么导致了这种跳跃,如何解释这种跳跃?

【问题讨论】:

    标签: tensorflow machine-learning deep-learning gradient-descent


    【解决方案1】:

    在斯坦福的深度学习课程https://youtu.be/wEoyxE0GP2M?t=1h18m2s找到这张幻灯片

    给出的解释是,这是参数初始化错误的症状。有一段时间几乎没有学习,然后突然参数调整到正确的方向,你会得到一个显着的准确性和/或损失峰值。

    【讨论】:

    • 我认为检查较小的学习率可能会很好 - DNN 可以捕获局部最小值,而不是全局最小值。
    猜你喜欢
    • 2021-05-05
    • 2016-07-08
    • 2019-09-06
    • 2020-07-20
    • 2017-10-02
    • 2018-06-08
    • 1970-01-01
    • 2016-08-27
    • 1970-01-01
    相关资源
    最近更新 更多