【发布时间】:2016-10-02 00:00:31
【问题描述】:
我见过的大多数用于分类任务的神经网络示例都使用 softmax 层作为输出激活函数。通常,其他隐藏单元使用 sigmoid、tanh 或 ReLu 函数作为激活函数。在这里使用 softmax 函数 - 据我所知 - 在数学上也可以计算出来。
- 不使用 softmax 函数作为隐藏层激活函数的理论依据是什么?
- 有没有关于这方面的出版物,有什么可以引用的?
【问题讨论】:
-
为什么还要考虑在隐藏层中使用 softmax 激活?你有这样做的动力吗?
-
只是一致性 - 这样我会在整个网络中使用相同的激活。
-
另一个动机是我们可以将每一层解释为多项逻辑回归,以及它包含的所有良好的统计属性(例如,存在权重的解释)。
标签: machine-learning neural-network classification softmax activation-function