【发布时间】:2020-01-23 09:41:32
【问题描述】:
归一化只是对输入层进行归一化。 而批量标准化是在每一层上。
我们不学习标准化中的参数 但是为什么我们需要学习批量归一化呢?
【问题讨论】:
标签: tensorflow keras deep-learning artificial-intelligence mxnet
归一化只是对输入层进行归一化。 而批量标准化是在每一层上。
我们不学习标准化中的参数 但是为什么我们需要学习批量归一化呢?
【问题讨论】:
标签: tensorflow keras deep-learning artificial-intelligence mxnet
这个已经在https://stats.stackexchange.com/a/310761详细回答了
深度学习书,第 8.7.1 节:
对一个单元的均值和标准差进行归一化会降低包含该单元的神经网络的表达能力。到 保持网络的表现力,常用替换 这批隐藏单元激活 H 用 γH+β 而不是简单的 归一化的 H。变量 γ 和 β 是学习参数 允许新变量具有任何均值和标准差。在 乍一看,这似乎没用——为什么我们将均值设置为 0, 然后引入一个允许将其设置回任何 任意值β?
答案是新的参数化可以表示与旧参数化相同的输入函数族,但是 新的参数化具有不同的学习动态。在旧 参数化,H 的平均值由复杂的 H以下层中参数之间的相互作用。在新的 参数化,γH+β 的平均值仅由 β 决定。新的 使用梯度下降更容易学习参数化。
【讨论】: