错误很简单。你的delta 声明应该在第一个for 循环内。每次累积训练样本和输出之间的加权差异时,都应该从头开始累积。
如果不这样做,您正在做的是累积错误来自上一次迭代,这会考虑到以前学习的theta 版本的错误,这是不正确的。您必须将其放在第一个 for 循环的开头。
此外,您似乎有一个无关的computeCost 电话。我假设这会在给定当前参数的情况下计算每次迭代的成本函数,因此我将创建一个名为 cost 的新输出数组,它会在每次迭代时向您显示这一点。我还要调用这个函数并将它分配给这个数组中的相应元素:
function [theta, costs] = gradientDescent(X, y, theta, alpha, iterations)
m = length(y);
costs = zeros(m,1); %// New
% delta=zeros(2,1); %// Remove
for iter =1:1:iterations
delta=zeros(2,1); %// Place here
for i=1:1:m
delta(1,1)= delta(1,1)+( X(i,:)*theta - y(i,1)) ;
delta(2,1)=delta(2,1)+ (( X(i,:)*theta - y(i,1))*X(i,2)) ;
end
theta= theta-( delta*(alpha/m) );
costs(iter) = computeCost(X,y,theta); %// New
end
end
关于正确矢量化的说明
FWIW,我不认为此实现完全矢量化。您可以使用矢量化操作消除第二个for 循环。在我们这样做之前,让我介绍一些理论,以便我们在同一页上。您在这里使用线性回归的梯度下降。我们想要寻找最佳参数theta,它们是我们的线性回归系数,旨在最小化这个成本函数:
m 对应于我们可用的训练样本数,x^{i} 对应于第 ith 个训练样本。 y^{i} 对应于我们与第 ith 个训练样本相关联的真实值。 h 是我们的假设,给出如下:
请注意,在二维线性回归的上下文中,我们要计算的 theta 中只有两个值 - 截距项和斜率。
我们可以最小化成本函数J 以确定最佳回归系数,该系数可以为我们提供最佳预测,从而最小化训练集的误差。具体来说,从一些初始 theta 参数开始......通常是一个零向量,我们从 1 到我们认为合适的次数进行迭代,并且在每次迭代中,我们通过以下关系更新我们的 theta 参数:
对于我们要更新的每个参数,您需要确定成本函数相对于每个变量的梯度,并评估 theta 的当前状态。如果你使用微积分来解决这个问题,我们会得到:
如果您不清楚这种推导是如何发生的,那么我建议您参考这篇很好的数学堆栈交换帖子,其中讨论了它:
https://math.stackexchange.com/questions/70728/partial-derivative-in-gradient-descent-for-two-variables
现在...我们如何将其应用于当前问题?具体来说,您可以很容易地计算出delta 的条目,一口气分析所有样本。我的意思是你可以这样做:
function [theta, costs] = gradientDescent(X, y, theta, alpha, iterations)
m = length(y);
costs = zeros(m,1);
for iter = 1 : iterations
delta1 = theta(1) - (alpha/m)*(sum((theta(1)*X(:,1) + theta(2)*X(:,2) - y).*X(:,1)));
delta2 = theta(2) - (alpha/m)*(sum((theta(1)*X(:,1) + theta(2)*X(:,2) - y).*X(:,2)));
theta = [delta1; delta2];
costs(iter) = computeCost(X,y,theta);
end
end
delta(1) 和 delta(2) 上的操作可以在一个语句中完全向量化。你在做什么theta^{T}*X^{i} 来自1, 2, ..., m 的每个样本i。您可以方便地将其放入单个 sum 语句中。
我们可以更进一步,用纯矩阵运算代替它。首先,您可以使用矩阵乘法非常快速地为每个输入样本 X^{i} 计算 theta^{T}*X^{i}。假设:
这里,X 是我们的数据矩阵,它由对应于m 训练样本的m 行和对应于n 特征的n 列组成。同样,theta 是我们从梯度下降中学习到的权重向量,其中 n+1 特征占截距项。
如果我们计算X*theta,我们得到:
正如您在此处看到的,我们已经计算了每个样本的假设并将每个样本放入一个向量中。该向量的每个元素都是第 ith 个训练样本的假设。现在,回忆一下梯度下降中每个参数的梯度项是什么:
我们希望为您学习的向量中的所有参数一次性实现这一切,因此将其放入向量中可以得到:
最后:
因此,我们知道y 已经是长度为m 的向量,因此我们可以非常紧凑地计算每次迭代的梯度下降:
theta = theta - (alpha/m)*X'*(X*theta - y);
....所以你的代码现在只是:
function [theta, costs] = gradientDescent(X, y, theta, alpha, iterations)
m = length(y);
costs = zeros(m, 1);
for iter = 1 : iterations
theta = theta - (alpha/m)*X'*(X*theta - y);
costs(iter) = computeCost(X,y,theta);
end
end