【发布时间】:2017-06-05 20:33:19
【问题描述】:
我一直在做 Andrew Ng 机器学习课程的作业 1。但是当向量化多变量梯度下降时,我对他所说的内容的理解停留在我的理解上。
他的方程式如下: theta := theta - alpha*f
f 应该由 1/m*sum(h(xi)-yi)*Xi 创建,其中 i 是索引
现在这里是我感到困惑的地方,我知道 h(xi)-y(i) 可以重写为 theta*xi 其中 xi 代表一行特征元素 (1xn) 和 theta 代表一列 (nx1) 产生一个标量,然后从 y 的单个值中减去,然后乘以 Xi,其中 Xi 表示一列 1 个特征值?
这样会给我 mx1 向量吗?然后必须从 nx1 向量中减去哪个?
是不是Xi代表一行特征值?如果是这样,我该如何在不对所有这些行进行索引的情况下做到这一点?
【问题讨论】:
标签: machine-learning gradient-descent