【发布时间】:2024-05-30 01:15:01
【问题描述】:
我目前正在测试 LSTM 网络。我在反向传播之前和反向传播之后在训练示例上打印其预测的损失。后损失应该总是小于前损失是有道理的,因为网络只是在那个例子上训练的。
但是,我注意到在第 100 个训练示例左右,网络开始在反向传播之后给出比在训练示例上反向传播之前更不准确的预测。
是否期望网络总是使之前的损失高于之后的损失?如果是这样,有什么原因会发生这种情况吗?
需要明确的是,对于前一百个示例,网络似乎训练正确并且表现良好。
【问题讨论】:
-
你试过降低学习率吗?
标签: python machine-learning neural-network lstm recurrent-neural-network