1. 初始化  非常重要

优先Xavier, hekaiming

深度学习调参技巧

调了几天的batch, normalization没啥用, 一步初始化提高了50个点....

2.学习率

大学习率, 跑的快, 那么在同样的时间就可以调更多的参数, 一般用warm up, 只要不爆炸, 可以尽可能的大

3.batch

先学习率, 再batch, 因为batch增大, 建议lr相应增大倍数

4.normalization

batch norm在大batch推荐

小batch推荐group norm  但是也不一样, 可以实验进行验证

参考:https://zhuanlan.zhihu.com/p/24720954

 

相关文章:

  • 2022-12-23
  • 2021-10-01
  • 2021-04-30
  • 2021-10-30
  • 2022-12-23
  • 2021-11-24
  • 2022-12-23
  • 2021-04-26
猜你喜欢
  • 2022-02-08
  • 2022-01-24
相关资源
相似解决方案