【发布时间】:2017-10-28 15:58:28
【问题描述】:
我已阅读here 给出的答案。我的确切问题与已接受的答案有关:
- 变量独立性:大量的正则化和努力使您的变量保持独立、不相关且非常稀疏。如果您使用 softmax 层作为隐藏层 - 那么您将保持所有节点(隐藏变量)线性相关,这可能会导致许多问题和泛化性差。
在隐藏层中放弃变量独立性会出现什么复杂情况?请提供至少一个例子。我知道隐藏变量独立性在编码反向传播方面有很大帮助,但是反向传播也可以为 softmax 编码(请验证我在这个声明中是否正确。我似乎已经根据我的说法得到了正确的方程。因此声明) .
- 训练问题:试着想象一下,为了让你的网络更好地工作,你必须让隐藏层的一部分激活值稍微低一点。然后 - 您会自动使其余部分在更高级别上进行平均激活,这实际上可能会增加错误并损害您的训练阶段。
我不明白你是如何实现这种灵活性的,即使在 sigmoid 隐藏神经元中你可以微调特定给定神经元的激活,这正是梯度下降的工作。那么我们为什么还要担心这个问题。如果您可以实现反向传播,其余部分将由梯度下降处理。微调权重以使激活正确不是您想做的事情,即使您可以做,但您不能做。 (如果我的理解有误,请纠正我)
- 数学问题:通过对模型的激活创建约束,您会在没有任何逻辑解释的情况下降低模型的表达能力。在我看来,努力使所有激活都相同是不值得的。
请解释这里所说的内容
- 批量标准化:我明白了,这里没有问题
【问题讨论】:
标签: neural-network softmax activation-function