3-1 Gradient Descent

  1. Gradient Descent(《机器学习笔记1前半段》已学习了大概
    机器学习笔记3-1
    其中ⴄ:learning rate 学习速度 是一个常数(g^t微分以后的常数项放在了ⴄ下面)
    机器学习笔记3-1
    将其可视画(gradient就是等高线的法向方向)
    机器学习笔记3-1
    (gradient一直在变方向,因为每次乘learning rate的时候都要取相反数)
  2. Tip 1 小心设置learning rate (learning rate太慢时间过长,太快步伐会太大直接跳过了山谷)
    通过可视化loss随参数更新的变化趋势判断learning rate合不合适
    ①learning rate太大——loss快速下降然后卡住
    ②learning rate太小——loss下降非常慢
  3. 如何调learning rate:最好因材施教
    机器学习笔记3-1
  • Adagrad:每一个参数的learning rate都除之前微分值的root mean square
    例:机器学习笔记3-1
    Adagrad表达式
    机器学习笔记3-1
    有一个以上的元素的时候应该考虑一阶微分和二阶微分
    机器学习笔记3-1
  1. Tip 2 Stochastic Gradient descent
    机器学习笔记3-1
    每次拿一个x^n计算loss 看一个example就update一个
    会比gradient descent快
  2. Tip 3 Feature scaling
    机器学习笔记3-1
    两个input feature,如果它们分布很不一致就做scaling这样它们的分布一样
    使得两个因素对loss的影响一样
  • 常见做法:每个值减去平均值除以方差,最后使得平均值0方差1(标准正态分布)
    机器学习笔记3-1
  1. Gradient Descent的理论基础
    机器学习笔记3-1

相关文章:

  • 2022-01-22
  • 2021-12-21
  • 2021-05-22
  • 2021-08-16
  • 2021-09-02
  • 2021-12-15
  • 2021-07-26
猜你喜欢
  • 2021-12-31
  • 2022-12-23
  • 2021-08-13
  • 2021-05-14
  • 2021-04-06
相关资源
相似解决方案