一、代价函数
1.均方误差
2.交叉熵
二、**函数
隐藏层常使用的两个**函数Relu和tanh
| 优 | 缺 | |
|---|---|---|
| tanh | zero-centered,w更新不会只有一个方向 | 梯度消失和爆炸的问题没有解决 |
| Relu | 不会发生梯度消失 | 1.非zero-centered,w的更新方向只有一个;2.Dead ReLU Problem,指的是某些神经元可能永远不会被**,导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化,这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大,不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法,以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。 |
tanh函数及其导数的几何图像如下图:
Relu函数及其导数的图像如下图所示:
参考:https://blog.csdn.net/tyhj_sf/article/details/79932893