relu缺点:
训练的时候很”脆弱”,很容易就”die”了,训练过程该函数不适应较大梯度输入,因为在参数更新以后,ReLU的神经元不会再有**的功能,导致梯度永远都是零。
例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有**现象了,那么这个神经元的梯度就永远都会是 0.
如果 learning rate 很大,那么很有可能网络中的 40% 的神经元都”dead”了。
在通过多组数据得到W和b之后突然出现一个很大的输入,导致计算出来的损失值很大,梯度就很大,在这个基础上更新b之后会导致偏置项很小,这就导致常规输入的值容易为负数,relu在输入小于0时为0,这就导致神经元容易dead
Softplus
这个模型对比Sigmoid系主要变化有三点:①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏**性(重点,可以看到红框里前端状态完全没有**)
同年,Charles Dugas等人在做正数回归预测论文中偶然使用了Softplus函数,Softplus函数是Logistic-Sigmoid函数原函数。
按照论文的说法,一开始想要使用一个指数函数(天然正数)作为**函数来回归,但是到后期梯度实在太大,难以训练,于是加了一个log来减缓上升趋势。
加了1是为了保证非负性。同年,Charles Dugas等人在NIPS会议论文中又调侃了一句,Softplus可以看作是强制非负校正函数max(0,x)max(0,x)平滑版本。
偶然的是,同是2001年,ML领域的Softplus/Rectifier**函数与神经科学领域的提出脑神经元**频率函数有神似的地方,这促成了新的**函数的研究。
参考:
http://www.mamicode.com/info-detail-2351879.html
https://www.cnblogs.com/neopenx/p/4453161.html