1. 不能全部初始化为0,这样所有的神经元数据更新都是一样的

2. 那初始化为Small random numbers呢?比如

DL 中的weight initialization

当网络变深后也会有问题,如果初始的时候W都很小,那么随着深度的增大,每层的layer的output会越来越小,

DL 中的weight initialization

而因为前向传播是np.sum(W*X),对权重W的导数X*dW有X这一乘积项,因为X很小,这就导致W的权重更新慢(梯度弥散),

而如果把初始权重都设置的比较大的话,使得会使得大多数的神经元处于饱和状态,

DL 中的weight initialization

dW很小,权重更新也很缓慢(感觉这就是之前mnist不归一化train不下去的原因)


已经有paper研究到底初始化到什么范围内最合适

DL 中的weight initialization


对于ReLU

DL 中的weight initialization


http://www.jianshu.com/p/03009cfdf733

https://study.163.com/course/courseLearn.htm?courseId=1003223001#/learn/video?lessonId=1003846134&courseId=1003223001

相关文章:

  • 2022-01-18
  • 2022-03-04
  • 2021-07-17
  • 2022-01-07
  • 2022-12-23
  • 2021-05-23
  • 2021-10-31
猜你喜欢
  • 2021-11-16
  • 2022-12-23
  • 2022-12-23
  • 2021-07-13
  • 2022-12-23
  • 2021-08-19
  • 2022-12-23
相关资源
相似解决方案