在论文当中 Reducing BERT Pre-training Time from 3 Days to 76 Minutes中提到:如图所示:
batch size 越大,学习率也要越大

结论:batchsize变大,学习率也要相应变大;本质是为了梯度的方差保持不变; 

1、为什么要保证梯度的方差不变呢?
   

    个人猜想,是为了解决陷入局部最优和一个sharp 最小值(类似于一个很尖的V底)的问题,增强泛化能力;增加了学习率,就增大了步长;

相关文章:

  • 2021-11-18
  • 2021-12-15
  • 2021-09-19
  • 2021-11-08
  • 2021-06-08
  • 2022-01-27
  • 2022-12-23
猜你喜欢
  • 2021-12-14
  • 2021-09-17
  • 2021-07-15
  • 2022-12-23
  • 2021-09-02
  • 2021-05-16
相关资源
相似解决方案