【问题标题】:Explanation for Coordinate Descent and Subgradient坐标下降和次梯度的解释
【发布时间】:2016-04-21 16:39:36
【问题描述】:

如何在套索的上下文中简单解释坐标下降和次梯度解。

直观的解释和证明会很有帮助。

【问题讨论】:

    标签: machine-learning mathematical-optimization gradient-descent


    【解决方案1】:

    假设您有一个多元函数F(W)K 变量/参数数量w (w_1, w_2, w_3, ..., w_k)。参数是knobs,目标是改变这些knobs,使F最小化函数F。坐标下降是一种贪心方法,即在每次迭代中您更改参数值w_i 以最小化F。它很容易实现,就像gradient descent 一样,它保证在每次迭代中最小化F 并达到局​​部最小值。

    图片通过Bing图片搜索从网上借来的

    如上图所示,函数F有两个参数xy。在每次迭代中,两个参数都由一个固定值c 更改,并且函数的值在新点处进行评估。如果该值较高并且目标是最小化函数,则所选参数的更改会相反。然后对第二个参数执行相同的过程。这是算法的一次迭代。

    使用坐标下降的一个优势在于计算函数梯度的代价很高。

    来源

    【讨论】:

    • 谢谢。我听说计算梯度很昂贵,计算次梯度以获得解决方案,例如绝对值函数。想知道我是否可以直观地解释计算次梯度?
    • @shan 据我所知,计算次梯度实际上是计算函数在给定点的导数。查看 [此链接 ] (en.wikipedia.org/wiki/Subderivative) 了解有关次梯度的更多信息。虽然说的有道理,但我个人不知道坐标下降和次梯度方法之间的确切关系是什么。我可以告诉你的是,如果一个函数是凸函数,那么次梯度就是梯度本身。
    • “如果一个函数是凸函数,次梯度就是梯度本身”——这是不正确的。例如,函数 f(x)=|x|是凸的,但在 x=0 处 [-1,1] 范围内的每个点都是次梯度。应该是:如果函数在 x0 ==> 处可微分,则唯一的次梯度是梯度。
    • 谢谢大家。 @Tomer您能否详细说明次梯度的概念。如果可能的话,详细的解释链接。
    • 参见以下 Boyd 和 Vandenberghe 讲义中的图 3 和图 1:see.stanford.edu/materials/lsocoee364b/…...
    猜你喜欢
    • 2017-03-26
    • 2020-10-17
    • 2012-08-17
    • 1970-01-01
    • 2016-06-13
    • 2016-09-25
    • 2021-12-18
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多