吴恩达机器学习笔记--第一周-3.参数学习

week1-3.Parameter Learning

梯度下降（gradient descent）

算法过程：

梯度下降算法特点：从不同起始点开始计算可能会达到不同的局部最优点（different local optimum）

alpha-学习率（learning rate），代表梯度下降时的步长。

theta0和theta1必须同时更新（simultaneous update），知道函数收敛（repeat until convergence）。

步长（alpha）长短对效率/结果的影响：步长太短，效率第；步长太长，容易越过最优点。

越接近最优点，偏导越小，步长越小，故不容易越过最优点（故实际上可以不逐渐减小步长）。

吴恩达机器学习笔记--第一周-3.参数学习

当到达局部最低点时，偏导值为0，所以J会停留在局部最低点。

将梯度下降运用到线性回归中：

将linear regression model中的J函数带入gradient descent algorithm中的参数更新公式；

再将假设的拟合函数h（x）的表达式带入：

即：

带入过程中theta1偏导的具体求法：