MABN

MABN的出发点是BN依赖于大的BatchSize。作者发现,BN对于BatchSize的依赖不仅体现在均值和方差两个统计量上,还体现在导数上。经过与Online Norm对比发现,这两个对BatchSize依赖的导数项就是导数在1\overrightarrow{1}y\overrightarrow{y}上的投影。
online norm 与 MABN
online norm 与 MABN

online norm 与 MABN
从这个图中可以看出,当BatchSize小时,这两项导数的投影与大BatchSize的投影差别很大。也就是说,Batchsize也影响了对投影量的估计。

为了降低BatchSize的影响,作者一方面减少了与BatchSize有关的量的数量。
online norm 与 MABN
从上面的公式看出,通过去掉中心化这个步骤,使得FP和BP过程中只有两个与BatchSize相关的统计量。
为了保证XX的均值为0,作者将中心化这个步骤转移到前面的卷积层
online norm 与 MABN
但是此时,二阶矩这个统计量仍然与BatchSize相关,所以,作者通过running 的方式,降低了对BatchSize的依赖。作者借用了Batch Renormalization的做法,公式如下:
online norm 与 MABN

Online norm

online norm 与 MABN
Online norm的目标同样是降低batchsize。它将输入认为是一个时间序列,不存在batch。每次计算统计量时要将所有输入的量进行统计。这也是他的running 方程和其他方程不一样的原因。
可以推导一下这两个公式:
online norm 与 MABN
online norm 与 MABN
再结合exponentially decaying averaging的公式:
online norm 与 MABN
可以得到原文中那两个统计量的由来。

相关文章:

  • 2021-05-30
  • 2022-12-23
  • 2022-02-07
  • 2021-11-20
  • 2021-09-23
  • 2022-12-23
  • 2022-12-23
  • 2021-12-16
猜你喜欢
  • 2021-05-17
  • 2021-11-13
  • 2021-04-02
  • 2021-10-31
  • 2021-05-31
  • 2021-08-29
  • 2021-10-05
相关资源
相似解决方案