pytorch 如何计算简单线性回归模型的梯度？答案

【问题标题】：How does pytorch compute the gradients for a simple linear regression model?pytorch 如何计算简单线性回归模型的梯度？
【发布时间】：2018-02-26 22:07:20
【问题描述】：

我正在使用 pytorch 并试图了解一个简单的线性回归模型是如何工作的。

我正在使用一个简单的 LinearRegressionModel 类：

class LinearRegressionModel(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(LinearRegressionModel, self).__init__()
        self.linear = nn.Linear(input_dim, output_dim)  

    def forward(self, x):
        out = self.linear(x)
        return out

model = LinearRegressionModel(1, 1)

接下来我实例化一个损失标准和一个优化器

criterion = nn.MSELoss()

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

最后我使用以下代码来训练模型：

for epoch in range(epochs):
    if torch.cuda.is_available():
        inputs = Variable(torch.from_numpy(x_train).cuda())

    if torch.cuda.is_available():
        labels = Variable(torch.from_numpy(y_train).cuda())

    # Clear gradients w.r.t. parameters
    optimizer.zero_grad() 

    # Forward to get output
    outputs = model(inputs)

    # Calculate Loss
    loss = criterion(outputs, labels)

    # Getting gradients w.r.t. parameters
    loss.backward()

    # Updating parameters
    optimizer.step()

我的问题是优化器如何获得由loss.backward() 计算的损失梯度，以使用step() 方法更新参数？模型、损失标准和优化器是如何联系在一起的？

【问题讨论】：

标签： python neural-network regression gradient pytorch

【解决方案1】：

loss.backward()

计算梯度并将它们存储在参数中。然后在这里传入需要调整的参数：

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

【讨论】：

很好的答案，它清楚地解释了何时计算梯度。

【解决方案2】：

PyTorch 有张量和变量的概念。当您使用 nn.Linear 时，该函数会创建 2 个变量，即 W 和 b。在 pytorch 中，变量是封装张量、其梯度和有关其创建函数的信息的包装器。您可以通过

直接访问渐变

w.grad

当您在调用 loss.backward() 之前尝试它时，您会得到 None。一旦你调用 loss.backward() 它现在将包含渐变。现在您可以通过以下简单步骤手动更新这些渐变。

w.data -= learning_rate * w.grad.data

当您有一个复杂的网络时，上述简单的步骤可能会变得复杂。所以像 SGD 这样的优化器，Adam 会处理这个问题。当您为这些优化器创建对象时，我们会传入模型的参数。 nn.Module 包含这个 parameters() 函数，它将所有可学习的参数返回给优化器。可以使用以下步骤完成。

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

【讨论】：

优秀的第一段。顺便说一句，它清楚地解释了当时的分离。张量和变量。