online norm 与 MABN

MABN

MABN的出发点是BN依赖于大的BatchSize。作者发现，BN对于BatchSize的依赖不仅体现在均值和方差两个统计量上，还体现在导数上。经过与Online Norm对比发现，这两个对BatchSize依赖的导数项就是导数在 $\overrightarrow{1}$ 和 $\overrightarrow{y}$ 上的投影。
online norm 与 MABN

online norm 与 MABN
从这个图中可以看出，当BatchSize小时，这两项导数的投影与大BatchSize的投影差别很大。也就是说，Batchsize也影响了对投影量的估计。

为了降低BatchSize的影响，作者一方面减少了与BatchSize有关的量的数量。
online norm 与 MABN
从上面的公式看出，通过去掉中心化这个步骤，使得FP和BP过程中只有两个与BatchSize相关的统计量。
为了保证 $X$ 的均值为0，作者将中心化这个步骤转移到前面的卷积层

但是此时，二阶矩这个统计量仍然与BatchSize相关，所以，作者通过running 的方式，降低了对BatchSize的依赖。作者借用了Batch Renormalization的做法，公式如下：
online norm 与 MABN

Online norm

online norm 与 MABN
Online norm的目标同样是降低batchsize。它将输入认为是一个时间序列，不存在batch。每次计算统计量时要将所有输入的量进行统计。这也是他的running 方程和其他方程不一样的原因。
可以推导一下这两个公式：

再结合exponentially decaying averaging的公式：
online norm 与 MABN
可以得到原文中那两个统计量的由来。