ReLU起源于神经科学的研究:2001年,Dayan、Abott从生物学角度模拟出了脑神经元接受信号更精确的**模型,如下图:
Attwell等神经科学家通过研究大脑的能量消耗过程,推测神经元的工作方式具有稀疏性和分布性;因此Relu也有了单侧抑制性,让神经网络也具备稀疏性。(具备稀疏性计算都不要那么多了,很舒服很轻松,同时稀疏性也能够突显重要特征。)
相比于其它**函数来说,ReLU有以下优势:对于线性函数而言,ReLU的表达能力更强,尤其体现在深度网络中;而对于非线性函数而言,计算梯度超级简单,而且ReLU由于非负区间的梯度为常数,因此不存在梯度消失问题(Vanishing Gradient Problem),使得模型的收敛速度维持在一个稳定状态。
参考:https://blog.csdn.net/seasermy/article/details/52181482、https://blog.csdn.net/cherrylvlei/article/details/53149381