MABN
MABN的出发点是BN依赖于大的BatchSize。作者发现,BN对于BatchSize的依赖不仅体现在均值和方差两个统计量上,还体现在导数上。经过与Online Norm对比发现,这两个对BatchSize依赖的导数项就是导数在和上的投影。
从这个图中可以看出,当BatchSize小时,这两项导数的投影与大BatchSize的投影差别很大。也就是说,Batchsize也影响了对投影量的估计。
为了降低BatchSize的影响,作者一方面减少了与BatchSize有关的量的数量。
从上面的公式看出,通过去掉中心化这个步骤,使得FP和BP过程中只有两个与BatchSize相关的统计量。
为了保证的均值为0,作者将中心化这个步骤转移到前面的卷积层
但是此时,二阶矩这个统计量仍然与BatchSize相关,所以,作者通过running 的方式,降低了对BatchSize的依赖。作者借用了Batch Renormalization的做法,公式如下:
Online norm
Online norm的目标同样是降低batchsize。它将输入认为是一个时间序列,不存在batch。每次计算统计量时要将所有输入的量进行统计。这也是他的running 方程和其他方程不一样的原因。
可以推导一下这两个公式:
再结合exponentially decaying averaging的公式:
可以得到原文中那两个统计量的由来。