【问题标题】:What is wrong with this gradient descent algorithm?这个梯度下降算法有什么问题?
【发布时间】:2018-08-06 11:35:44
【问题描述】:

X_train 已经使用StandardScaler() 进行了规范化,并且分类列也已转换为一种热编码。

X_train.shape=(32000, 37)

我正在使用以下代码使用梯度下降计算w 的值

w = np.zeros(len(X_train.columns))
learning_rate = 0.001    
for t in range(1000):
    Yhat = X.dot(w)
    delta = Yhat - Y_train
    w = w - learning_rate*X_train.T.dot(delta)

我的w 向量爆炸(即增长非常快)并且w 的每个条目都变为NaN。我尝试将 epoch 的数量减少到 10、15、20 等,我发现w 的每个元素都在发散而不是收敛。

我尝试使用正规方程,w 在这种情况下确实很好(添加换行符以提高可读性):

w_found_using_normal_eqns = [ 3.53175449e-14  1.27924991e-14 -5.42441539e-14
9.91098366e-16 -2.31752259e-14 -6.21205773e-13  1.66139358e-13
2.72739782e-13 -1.65076881e-13 -1.25280166e-14 -1.98905983e-14  3.78837632e-13
-1.39424696e-12 -6.48511452e-15  1.58136412e-14  1.39778439e-12
-1.06142667e-14  3.00624557e-14 -1.70159700e-15 -6.91500349e-15 -4.04842208e-15
2.37516654e-16  3.25211677e+01 -2.86074823e+01 -2.86074823e+01
-2.86074823e+01 -2.86074823e+01 -2.86074823e+01 -2.86074823e+01 -2.86074823e+01 
3.55024823e+01  3.55024823e+01 3.55024823e+01  3.55024823e+01  
3.55024823e+01  3.55024823e+01 3.55024823e+01]

如果我使用正规方程求解w,则r^2 错误为1

【问题讨论】:

  • 你能提供一个最小的工作代码吗?

标签: python machine-learning linear-regression gradient-descent


【解决方案1】:

梯度下降权重更新公式通过训练集大小进行归一化。

在最后一行中,您需要将学习率除以训练集大小。

修复代码:

w = w - (learning_rate/X_train.shape) * X_train.T.dot(delta)

【讨论】:

  • 因为权重更新发生在每次迭代之后(batch=1),不需要平均
猜你喜欢
  • 1970-01-01
  • 2014-12-27
  • 1970-01-01
  • 2016-06-13
  • 2012-08-17
  • 2020-07-16
  • 1970-01-01
  • 2014-04-30
  • 2019-02-27
相关资源
最近更新 更多