黄博的针对吴恩达老师深度学习课程(deeplearning.ai) 视频做的笔记
今日学习第二门课第二周,大有收获,再接再厉
记录一下要点:

1. batch gradient descent与mini gradient descent相比,在样本量不超过两千的情况下,可不分批,如分批,数据量可在64-512或者128(2的n次方,更快)左右。

2. mini batch = 1 的时候,为随机梯度下降,到最优点附近徘徊,可缩小学习率

3. 指数加权平均数,对一段时间内的数据进行平均(看起来像是平滑),越往前的权重越低,并且展开后呈指数形式,故得名

4. 偏差修正,因为指数加权平均以0开始,所以前几天(项)可能误差较大,故除以(1-beta_power_t),beta是接近小于1的数,前几项的时候分母较小,可以提高前几项的值,而t很大的时候,分母接近1,近似于无,可参考笔记189页底部。

5. 动量梯度下降:

DeepLearning.ai 深度学习课程 笔记 V5.61

6. RMSprop:

DeepLearning.ai 深度学习课程 笔记 V5.61

7. 重头戏,Adam,同时应用momentum和RMSprop:

DeepLearning.ai 深度学习课程 笔记 V5.61
以上三项,懂即可,不用花时间再看

8. 学习率衰减,方式很多:

DeepLearning.ai 深度学习课程 笔记 V5.61DeepLearning.ai 深度学习课程 笔记 V5.61

9.最后这个局部最优问题:很重要,其实网络较大,参数维数较多的时候不必考虑极差的局部最优点,因为要求每一维都是最小点的概率远远小于鞍点的可能性,故局部最优不是问题,而鞍点的平稳段会减缓学习速率才是问题, momentum或者Adam算法等可以加快学习走出平稳段。

相关文章:

  • 2021-10-17
  • 2021-12-29
  • 2022-01-10
  • 2021-05-29
  • 2021-11-17
  • 2022-02-20
  • 2021-07-23
  • 2021-07-07
猜你喜欢
  • 2021-05-04
  • 2022-01-09
  • 2021-09-25
  • 2021-10-04
  • 2021-10-14
  • 2021-10-12
  • 2021-11-27
相关资源
相似解决方案