使用large-batch训练得到的网络具有较差的泛化能力。使用large-batch的情况下容易收敛成“sharp minimizers”,使其的泛化能力差。batch_size太大,相邻mini-batch间的差异相对过大,那么相邻两次迭代的梯度震荡情况会比较严重,不利于收敛。就如下图示的后半部分一样。

large batchsize对收敛过程的影响

相关文章:

  • 2021-10-02
  • 2021-11-11
  • 2022-01-05
  • 2022-12-23
  • 2021-09-07
  • 2022-12-23
  • 2021-04-02
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-04-10
  • 2021-12-14
  • 2021-11-13
  • 2021-11-21
  • 2021-07-25
  • 2021-04-11
相关资源
相似解决方案