relu和Softplus - 爱码网

relu缺点：

训练的时候很”脆弱”，很容易就”die”了，训练过程该函数不适应较大梯度输入，因为在参数更新以后，ReLU的神经元不会再有**的功能，导致梯度永远都是零。
例如，一个非常大的梯度流过一个 ReLU 神经元，更新过参数之后，这个神经元再也不会对任何数据有**现象了，那么这个神经元的梯度就永远都会是 0.
如果 learning rate 很大，那么很有可能网络中的 40% 的神经元都”dead”了。

relu和Softplus

在通过多组数据得到W和b之后突然出现一个很大的输入，导致计算出来的损失值很大，梯度就很大，在这个基础上更新b之后会导致偏置项很小，这就导致常规输入的值容易为负数，relu在输入小于0时为0，这就导致神经元容易dead

Softplus

relu和Softplus

这个模型对比Sigmoid系主要变化有三点：①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏**性（重点，可以看到红框里前端状态完全没有**）

同年，Charles Dugas等人在做正数回归预测论文中偶然使用了Softplus函数，Softplus函数是Logistic-Sigmoid函数原函数。

relu和Softplus

按照论文的说法，一开始想要使用一个指数函数（天然正数）作为**函数来回归，但是到后期梯度实在太大，难以训练，于是加了一个log来减缓上升趋势。

加了1是为了保证非负性。同年，Charles Dugas等人在NIPS会议论文中又调侃了一句，Softplus可以看作是强制非负校正函数max(0,x)max(0,x)平滑版本。

偶然的是，同是2001年，ML领域的Softplus/Rectifier**函数与神经科学领域的提出脑神经元**频率函数有神似的地方，这促成了新的**函数的研究。

参考：

http://www.mamicode.com/info-detail-2351879.html

https://www.cnblogs.com/neopenx/p/4453161.html