1.2.4 【Deep Learning翻译系列】Gradient Descent 梯度下降

之前我们已经了解了Logistic Regression。Lost Function可以衡量您在单个训练示例中的表现，Cost Function可以衡量参数 $w$ 和 $b$ 在整个训练集上的表现。

接下来我们会提到如何使用梯度下降算法来训练参数 $w$ 和 $b$ 。

成本函数 $J = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{(i)}, y^{i})$
$= - \frac{1}{m} \sum_{i = 1}^{m} (y^{i} \log {\hat{y}}^{i} + (1 - y^{i}) \log (1 - {\hat{y}}^{i}))$ ，
我们希望得到 $w$ 和 $b$ 使得成本函数 $J$ 尽量小。

所以这里是梯度下降的例证。
1.2.4 【Deep Learning翻译系列】Gradient Descent 梯度下降
该成本函数 $J$ 是凸函数。所以它看起来像一个碗。这是我们使用这个特定成本函数 $J$ 进行逻辑回归的一个重要原因。

我们现在要将 $w$ 和 $b$ 初始化为某个初始值。对于对数几率回归，几乎所有初始化方法都有效，通常将值初始化为零。随机初始也有效，但人们通常不会这样进行对数几率回归。但是因为这个函数是凸的，无论你在哪里初始化，你都能够达到相同的点或大致相同的点。

所以梯度下降就是这样，我们将重复进行以下更新 $w := w - α \frac{\partial J}{\partial w} .$
其中 $α$ 是学习率。