【发布时间】:2018-07-12 18:08:34
【问题描述】:
我正在训练基于编码器-解码器注意力的模型,批量大小为 8。我不怀疑数据集中有太多噪声,但是示例来自几个不同的分布。
我可以在火车损失曲线中看到很多噪音。平均后(0.99),趋势很好。模型的准确性也不错。
我想了解这种损失曲线形状的原因可能是什么
【问题讨论】:
-
学习率太高?
-
batch size真的很小,试试32个样本。 batch size中的样本越少,越重视单个样本,异常值的影响越强。
-
这是基于编码器-解码器注意力的模型,因此每个示例实际上都是非常复杂的示例,输入的序列很长,输出的种类和长度也不同。更大的批量不适合顶级 GPU,但谢谢
标签: machine-learning neural-network deep-learning tensorboard loss