【发布时间】:2015-09-20 19:06:48
【问题描述】:
我已经与现有教程进行了广泛的比较,但我无法弄清楚为什么我的权重没有更新。这是返回更新列表的函数:
def get_updates(cost, params, learning_rate):
updates = []
for param in params:
updates.append((param, param - learning_rate * T.grad(cost, param)))
return updates
它在顶层定义,在任何类之外。这是每个参数的标准梯度下降。这里的“params”参数以 mlp.params 的形式输入,它只是每一层的参数列表的串联列表。我删除了除了逻辑回归之外的每一层,以找出我的成本没有下降的原因。以下是MLP的构造函数中mlp.params的定义。它遵循每一层的定义及其各自的参数列表。
self.params = []
for layer in self.layers:
self.params += layer.params
以下是 train 函数,我在每个 epoch 期间为每个 minibatch 调用它:
train = theano.function([minibatch_index], cost,
updates=get_updates(cost, mlp.params, learning_rate),
givens= {
x: train_set_x[minibatch_index * batch_size : (minibatch_index + 1) * batch_size],
y: train_set_y[minibatch_index * batch_size : (minibatch_index + 1) * batch_size]
})
如果您需要更多详细信息,请在此处获取完整文件:http://pastebin.com/EeNmXfGD
我不知道有多少人在使用 Theano(看起来并不多);如果你已经读到这里,谢谢。
已修复:我已确定不能使用均方误差作为成本函数。将其替换为负对数似然后,它照常工作。
【问题讨论】:
-
我查看了代码,但没有发现明显的问题。你怎么知道你的权重没有更新?它们是完全没有变化,还是只是很小的变化?成本有没有变化(即使很小)?
-
你能在你的代码中添加一个测试来证明你的声明是正确的吗? IE。
from numpy.testing import assert_array_equal然后使用它将每个参数与其先前的值进行比较,例如与[param.get_value() for param in mlp.params]。因为正如@DanielRenshaw 所说,太小的学习率可能会使任何变化变得不可见。 -
我将这一行放入小批量循环中:
print(np.mean(mlp.layers[0].get_params()))只是作为一种查看权重是否发生变化的贫民窟方式。不幸的是,即使学习率为 10,它也总是打印相同的数字。 get_params() 为层定义为self.get_params = theano.function([], self.W) -
所以在您的代码中
train肯定会被调用多次,如果更新设置正确,则应该执行它们。请首先在调用theano.function之外创建一个更新列表,并检查它是否包含相关更新。如果更新正确,但功能没有更新,这很奇怪。仅用一个更新替换更新,例如[(param, param -1.)]看看是否可行。否则,在 MLP 框架之外手动创建一个更新失败的最小示例。
标签: python machine-learning logistic-regression theano