坐标下降和次梯度的解释答案

【问题标题】：Explanation for Coordinate Descent and Subgradient坐标下降和次梯度的解释
【发布时间】：2016-04-21 16:39:36
【问题描述】：

如何在套索的上下文中简单解释坐标下降和次梯度解。

直观的解释和证明会很有帮助。

【问题讨论】：

标签： machine-learning mathematical-optimization gradient-descent

【解决方案1】：

假设您有一个多元函数F(W) 和K 变量/参数数量w (w_1, w_2, w_3, ..., w_k)。参数是knobs，目标是改变这些knobs，使F最小化函数F。坐标下降是一种贪心方法，即在每次迭代中您更改参数值w_i 以最小化F。它很容易实现，就像gradient descent 一样，它保证在每次迭代中最小化F 并达到局部最小值。

图片通过Bing图片搜索从网上借来的

如上图所示，函数F有两个参数x和y。在每次迭代中，两个参数都由一个固定值c 更改，并且函数的值在新点处进行评估。如果该值较高并且目标是最小化函数，则所选参数的更改会相反。然后对第二个参数执行相同的过程。这是算法的一次迭代。

使用坐标下降的一个优势在于计算函数梯度的代价很高。

来源

【讨论】：

谢谢。我听说计算梯度很昂贵，计算次梯度以获得解决方案，例如绝对值函数。想知道我是否可以直观地解释计算次梯度？
@shan 据我所知，计算次梯度实际上是计算函数在给定点的导数。查看 [此链接 ] (en.wikipedia.org/wiki/Subderivative) 了解有关次梯度的更多信息。虽然说的有道理，但我个人不知道坐标下降和次梯度方法之间的确切关系是什么。我可以告诉你的是，如果一个函数是凸函数，那么次梯度就是梯度本身。
“如果一个函数是凸函数，次梯度就是梯度本身”——这是不正确的。例如，函数 f(x)=|x|是凸的，但在 x=0 处 [-1,1] 范围内的每个点都是次梯度。应该是：如果函数在 x0 ==> 处可微分，则唯一的次梯度是梯度。
谢谢大家。 @Tomer您能否详细说明次梯度的概念。如果可能的话，详细的解释链接。
参见以下 Boyd 和 Vandenberghe 讲义中的图 3 和图 1：see.stanford.edu/materials/lsocoee364b/…...