【问题标题】:Cannot gather gradients for GradientDescentOptimizer in TensorFlow无法在 TensorFlow 中为 GradientDescentOptimizer 收集梯度
【发布时间】:2016-01-20 21:49:08
【问题描述】:

我一直在尝试为 TensorFlow 中的 GradientDescentOptimizer 的每个步骤收集梯度步骤,但是当我尝试将 apply_gradients() 的结果传递给 sess.run() 时,我一直遇到 TypeError。我要运行的代码是:

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

x = tf.placeholder(tf.float32,[None,784])
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))
y = tf.nn.softmax(tf.matmul(x,W)+b)
y_ = tf.placeholder(tf.float32,[None,10])
cross_entropy = -tf.reduce_sum(y_*log(y))

# note that up to this point, this example is identical to the tutorial on tensorflow.org

gradstep = tf.train.GradientDescentOptimizer(0.01).compute_gradients(cross_entropy)

sess = tf.Session()
sess.run(tf.initialize_all_variables())
batch_x,batch_y = mnist.train.next_batch(100)
print sess.run(gradstep, feed_dict={x:batch_x,y_:batch_y})

请注意,如果我将最后一行替换为print sess.run(train_step,feed_dict={x:batch_x,y_:batch_y}),其中train_step = tf.GradientDescentOptimizer(0.01).minimize(cross_entropy),则不会引发错误。我的困惑源于minimize 调用compute_gradients 的参数与其第一步完全相同。有人可以解释为什么会发生这种行为吗?

【问题讨论】:

    标签: python tensorflow


    【解决方案1】:

    Optimizer.compute_gradients() 方法返回 (Tensor, Variable) 对的列表,其中每个张量是相对于相应变量的梯度。

    Session.run() 需要一个 Tensor 对象列表(或可转换为 Tensor 的对象)作为其第一个参数。它不了解如何处理对列表,因此您会得到一个 TypeError,您尝试运行 sess.run(gradstep, ...)

    正确的解决方案取决于您要执行的操作。如果要获取所有渐变值,可以执行以下操作:

    grad_vals = sess.run([grad for grad, _ in gradstep], feed_dict={x: batch_x, y: batch_y})
    
    # Then, e.g., nuild a variable name-to-gradient dictionary.
    var_to_grad = {}
    for grad_val, (_, var) in zip(grad_vals, gradstep):
        var_to_grad[var.name] = grad_val
    

    如果还想获取变量,可以单独执行如下语句:

    sess.run([var for _, var in gradstep])
    

    ...尽管请注意——无需进一步修改你的程序——这将只返回每个变量的初始值。 您必须运行优化器的训练步骤(或以其他方式调用 Optimizer.apply_gradients())来更新变量。

    【讨论】:

      【解决方案2】:

      最小化调用compute_gradients,后跟apply_gradients:你可能错过了第二步。

      compute_gradients 只返回 grads / 变量,但不会对它们应用更新规则。

      这里是一个例子:https://github.com/tensorflow/tensorflow/blob/f2bd0fc399606d14b55f3f7d732d013f32b33dd5/tensorflow/python/training/optimizer.py#L69

      【讨论】:

      • 您好,感谢您的回复。我不是想最小化优化器,我只是想在每一步打印出渐变。我提出最小化计数器示例的原因是它涉及调用 compute_gradients,因此人们会认为使用相同参数调用该函数也会产生错误。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-03-20
      • 2016-06-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多