【发布时间】:2018-08-09 05:44:09
【问题描述】:
我正在训练一个 CNN。我使用谷歌预训练的inceptionV3 替换最后一层进行分类。在训练期间,我的交叉熵损失变成 nan 时遇到了很多问题。在尝试了不同的事情(降低学习率、检查数据等)之后,结果发现 训练批量大小 太高了。
将训练批次大小从 100 减少到 60 解决了这个问题。你能解释一下为什么太大的批量会导致交叉熵损失函数出现这个问题吗?还有没有办法克服这个问题以处理更高的批量大小(有一篇论文建议批量大小为 200 多张图像以获得更好的准确性)?
【问题讨论】:
标签: tensorflow neural-network nan