1.梯度下降法的收敛性

针对迭代式算法,我们就要Convergency Analysis(收敛性分析)

梯度下降法推导,凸函数,收敛性推导

(1)什么是平滑函数,非平滑函数?

平滑函数--在每个点上求出梯度

非平滑函数---在那个点上求不出梯度的,

L-Lipschitz条件:是针对平滑函数的条件

Logistic Regression ,Linear Regression都是满足L-Lipschitz条件的

线性回归和逻辑回归都是凸函数

f(x*)是最终的收敛后的解,代表的最终想达到的最小值

我们的目标是通过学习的方式,使得f(xk)慢慢的接近f(x*),即

                                    梯度下降法推导,凸函数,收敛性推导

这一项如果随着迭代次数的增加(梯度下降法),慢慢的变小,就等同于f(xk)慢慢的接近f(x*)。

如果这一项的变小的趋势非常快,代表梯度下降法比较优质,而且很快可以收敛。

一个好的算法,在有限的最好的次数之内,可以看到A算法,在20次迭代,f(xk)接近f(x*)的速度比较快。

          梯度下降法推导,凸函数,收敛性推导

ε表示k次迭代,真实的值与预测值之间只存在ε的差距

梯度下降法推导,凸函数,收敛性推导

推导过程:

 梯度下降法推导,凸函数,收敛性推导

2.凸函数的性质

梯度下降法推导,凸函数,收敛性推导

 梯度下降法推导,凸函数,收敛性推导

 梯度下降法推导,凸函数,收敛性推导

 梯度下降法推导,凸函数,收敛性推导

 梯度下降法推导,凸函数,收敛性推导

 梯度下降法推导,凸函数,收敛性推导

 3.L-Lipschitz条件及定理

两个定理:

梯度下降法推导,凸函数,收敛性推导

梯度下降法推导,凸函数,收敛性推导

4.收敛性推导

梯度下降法推导,凸函数,收敛性推导

 梯度下降法推导,凸函数,收敛性推导

 梯度下降法推导,凸函数,收敛性推导

 上面的f(xi+1)<=f(xi)表示的是:

梯度下降法每次的更新一定要比之前的好,这是标准意义上的梯度下降法,随机梯度下降法不能保证每次的更新优于之前的。

 

相关文章:

  • 2021-06-03
  • 2021-05-24
  • 2021-05-10
  • 2022-01-09
  • 2021-10-17
  • 2022-12-23
  • 2021-12-02
猜你喜欢
  • 2021-08-05
  • 2021-09-11
  • 2022-12-23
  • 2021-08-22
  • 2021-11-04
  • 2021-10-03
  • 2021-08-19
相关资源
相似解决方案