（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）

1.线性回归算法(Linear regression)

在监督学习中我们有一个数据集，这个数据集被称为训练集（Training set）
（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）
m:训练样本的数目（有几组训练样本）
x’s:输入变量，特征量，用x表示输入的特征
y’s:输出变量或目标变量（预测结果）
(x,y):表示一个训练样本
(xi,yi):表第i个训练样本
h:表hypothesis(假设),表示一个函数

2.代价函数(Cost function)

（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）
θi :表模型参数
J(θ0, θ1)=1/2m∑(hθ(xi)-yi)2，∑范围从i=1到i=m
J(θ0, θ1)称平方误差函数(squad error function)，有时也称为平方误差代价函数
求θ0、θ1对J(θ0, θ1)的最小值

3.Cost Function 在干嘛

（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）

4.代价函数的作用(Cost function intuition)

Contour plot:轮廓图（contour figure）
（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）

5.梯度下降算法

梯度下降算法可以将代价函数J最小化
从猜想的θ0, θ1 开始，通常的选择是将θ0, θ1都设成0
不停的改变θ0、θ1 试图通过这种改变使J（θ0，θ1 ）变小，直到我们找到J的最小值，或许是局部最小值。
（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）
我们会反复做这些直到收敛我们要更新参数θj
:= 表示赋值运算符 (Assignment)
α 是一个数字，被称为学习速率，控制每一步移动的大小
在这个表达式中，如果你要更新这个等式，需要同时更新θ0 及θ1。当人们谈到梯度下降时，他们的意思就是同步更新，如果用非同步更新去实现算法（在算完θ0 后会将新的θ0 带入，进而影响θ1 的生成），代码可能也会正确工作但不是那个梯度下降算法了，而是具有不同性质的其他算法。

6.梯度下降算法的功用(Gradient descent intuition):

（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）
α是一个数字，控制我们以多大的幅度更新这个参数θj

这个部分将介绍导数项（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）
的部分，导数就是直线的斜率（高/长）

大于0（正斜率）时，表减掉α*正数，使θ1 变小

α太大会导致无法收敛或发散
（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）

若我们将θ1预先放在局部最低点后梯度下降法的运作
（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）
假设θ1的初始值已经在一个局部的最优处或局部最低点，结果是局部最优点的导数将等于0（斜率），因此导数项等于0，θ1 不再改变
即使学习速率α保持不变时，梯度下降也可以收敛至最低点
（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）
在梯度下降法中，当我们接近局部最低点时，梯度下降法会自动采取更小的幅度，这是因为当我们接近局部最低点时，因为局部最低时导数等于0，所以当我们接近局部最低时，导数会自动变得越来越小，所以梯度下降将会自动采取较小的幅度，所以实际上没有必要再另外减少α

7.线性回归中的梯度下降算法（Gradient descent for linear regression）

（二）吴恩达-机器学习第二课学习心得-线性回归算法（Linear regression）

这是一个凸函数（Convex）
非正式的凸函数就是碗形函数，所以这个函数不会有任何局部最优解，除了一个全局最优解
在梯度下降这种函数时，只要使用线性回归，那他就会转换到全局最优解，因为没有除了全局最优解以外的局部最优解

Batch Gradient Descent（批处理梯度下降）:
在梯度下降的每一步中我们在寻找所有训练实例，在梯度下降方法中将m个训练实例的误差加总得出我们m个训练实例的Cost function，称为批处理梯度下降，即所有训练实例