为什么归一化不需要参数，但批量归一化需要答案

【问题标题】：why normalization do not need parameters, but batch normalization need为什么归一化不需要参数，但批量归一化需要
【发布时间】：2020-01-23 09:41:32
【问题描述】：

归一化只是对输入层进行归一化。而批量标准化是在每一层上。

我们不学习标准化中的参数但是为什么我们需要学习批量归一化呢？

【问题讨论】：

标签： tensorflow keras deep-learning artificial-intelligence mxnet

【解决方案1】：

这个已经在https://stats.stackexchange.com/a/310761详细回答了

深度学习书，第 8.7.1 节：

对一个单元的均值和标准差进行归一化会降低包含该单元的神经网络的表达能力。到保持网络的表现力，常用替换这批隐藏单元激活 H 用 γH+β 而不是简单的归一化的 H。变量 γ 和 β 是学习参数允许新变量具有任何均值和标准差。在乍一看，这似乎没用——为什么我们将均值设置为 0，然后引入一个允许将其设置回任何任意值β？

答案是新的参数化可以表示与旧参数化相同的输入函数族，但是新的参数化具有不同的学习动态。在旧参数化，H 的平均值由复杂的 H以下层中参数之间的相互作用。在新的参数化，γH+β 的平均值仅由 β 决定。新的使用梯度下降更容易学习参数化。

【讨论】：