为什么在不改变学习率的情况下训练错误会跳跃？

【问题标题】：Why training error jumps without changing learning rate?为什么在不改变学习率的情况下训练错误会跳跃？
【发布时间】：2017-12-24 19:15:27
【问题描述】：

我正在训练一个包含大约 10 个卷积层和几个池化层的卷积网络。训练集大约有 250,000 个样本（16,000 个长度向量）。通过第一个 epoch 大约 50%，训练和测试错误从大约 68% 跃升至 92%。学习率是相同的（批量梯度下降）。批量大小为 32。是什么导致了这种跳跃，如何解释这种跳跃？

【问题讨论】：

标签： tensorflow machine-learning deep-learning gradient-descent

【解决方案1】：

在斯坦福的深度学习课程https://youtu.be/wEoyxE0GP2M?t=1h18m2s找到这张幻灯片

给出的解释是，这是参数初始化错误的症状。有一段时间几乎没有学习，然后突然参数调整到正确的方向，你会得到一个显着的准确性和/或损失峰值。

【讨论】：

我认为检查较小的学习率可能会很好 - DNN 可以捕获局部最小值，而不是全局最小值。

猜你喜欢

2021-05-05
2016-07-08
2019-09-06
2020-07-20
2017-10-02
2018-06-08
1970-01-01
2016-08-27
1970-01-01

相关资源

下载 2023-03-29
下载 2022-12-23
下载 2023-04-08

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode