李宏毅机器学习笔记---Gradient Descent

Gradient Descent

In step3,we have to solve the following optimization:

找到使得Loss Function最小的parameter

李宏毅机器学习笔记---Gradient Descent

李宏毅机器学习笔记---Gradient Descent

Tuning your learning rates

学习率太大太小均不可以

李宏毅机器学习笔记---Gradient Descent

Adaptive learning Rates

李宏毅机器学习笔记---Gradient Descent

Adagrad

给每一个参数一个不同的learning rate

李宏毅机器学习笔记---Gradient Descent

过去所有计算过的微分值的均方根（即所有微分值的平方再平均再开根号）

李宏毅机器学习笔记---Gradient Descent

李宏毅机器学习笔记---Gradient Descent

Adagrad 考虑的是反差

直观解释：

李宏毅机器学习笔记---Gradient Descent

正式解释：
两个参数时

李宏毅机器学习笔记---Gradient Descent

多个参数时

李宏毅机器学习笔记---Gradient Descent

多个参数时，需要考虑其它参数对当前参数的影响，虽然这个参数的gradient可能很大，但是实际情况应该是选择小的step，大的step可能导致跳过最佳位置。

Adagrad使用以及计算出来的一次微分值的均方根来代替二次微分的计算（节省了计算开销）

李宏毅机器学习笔记---Gradient Descent

Stochastic Gradient Descent（随机梯度下降）

原理的GD是计算完所有的update一次参数

SGD是看到一个examlpe就update一次参数，如果有20个example就update20此参数

李宏毅机器学习笔记---Gradient Descent

李宏毅机器学习笔记---Gradient Descent

Feature Scaling(特征缩放,特征归一化）

李宏毅机器学习笔记---Gradient Descent

李宏毅机器学习笔记---Gradient Descent

怎么做？

李宏毅机器学习笔记---Gradient Descent

Gradient Descent Theory

~~Each time we update the parameters, we obtain that makes L( ) smaller~~

上述陈述是错的。。。（不一定）

Formal Derivation

李宏毅机器学习笔记---Gradient Descent

Taylor Series

李宏毅机器学习笔记---Gradient Descent

李宏毅机器学习笔记---Gradient Descent

Back to Fromal Derivation

李宏毅机器学习笔记---Gradient Descent

李宏毅机器学习笔记---Gradient Descent

李宏毅机器学习笔记---Gradient Descent

李宏毅机器学习笔记---Gradient Descent

More Limitation of Gradient Descent

可能会卡在一个局部最优解；也可能卡在一个微分等于0的点；也可能算出的微分值很小你就停下了，但实际离最优点还有一段距离

李宏毅机器学习笔记---Gradient Descent

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode