Adam 方法

Adam 方法将惯性保持和环境感知这两个优点集于一身。一方面, Adam 记录梯度的一阶矩(first moment),即过往梯度与当前梯度的平均,这体现了惯性保持;另一方面,Adam 还记录梯度的二阶矩(second moment),即过往梯度平方与当前梯度平方的平均,这类似AdaGrad 方法,体现了环境感知能力,为不同参数产生自适应的学习速率。一阶矩和二阶矩采用类似于滑动窗口内求平均的思想进行融合,即当前梯度和近一段时间内梯度的平均值,时间久远的梯度对当前平均值的贡献呈指数衰减。具体来说,一阶矩和二阶矩采用指数衰退平均(exponential decayaverage)技术,计算公式为

 

Adam

 

其中β1,β2 为衰减系数,mt 是一阶矩,vt 是二阶矩。

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2021-08-25
  • 2021-08-27
  • 2021-06-20
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2021-05-24
  • 2021-04-10
  • 2021-09-25
  • 2021-05-25
  • 2022-02-05
  • 2021-11-17
  • 2022-12-23
相关资源
相似解决方案