本文参考李宏毅机器学习视频

预备知识

1、首先回顾一下 Taylor 展开式的形式:

梯度下降法(Gradient Descent, GD)数学推导

2、当两向量反向相反时,相乘取得最小值;

梯度下降法数学推导

利用下图演示模型的优化过程(即最小化 Loss function 的过程):

梯度下降法(Gradient Descent, GD)数学推导

为了找到 loss function 的最小值(图中最低点),先随机找一点(a,b),然后以(a,b)为圆心,画一个足够小的圆;

在这个圆内,可以使用 Taylor 公式将 loss function 展开,又因为这个圆足够小,圆内的点趋近于(a,b),所以在 Taylor 展开时越高次项越趋近于0,可以忽略不计,只保留到一次项得到的 loss function 展开式如下:

梯度下降法(Gradient Descent, GD)数学推导

下面就要在这个圆圈中求使得 loss 最小的(theta1,theta2)点;

L(a,b)是固定值,不影响 loss 变化;

后两项就可以看作是以下两向量点乘:

梯度下降法(Gradient Descent, GD)数学推导

根据预备知识2,将圆圈提取出来,若要取得最小值,两向量如下图:

梯度下降法(Gradient Descent, GD)数学推导

进一步可以写做:

梯度下降法(Gradient Descent, GD)数学推导

整理上式即可得到梯度下降法表达式如下:

梯度下降法(Gradient Descent, GD)数学推导

相关文章:

  • 2021-07-14
  • 2021-05-24
  • 2021-08-01
  • 2021-11-14
  • 2021-11-09
猜你喜欢
  • 2021-11-27
  • 2021-12-02
  • 2021-06-30
  • 2022-01-09
  • 2021-09-23
  • 2021-11-07
相关资源
相似解决方案