Pytorch 中的 LSTM答案

【问题标题】：LSTM in PytorchPytorch 中的 LSTM
【发布时间】：2018-07-27 15:31:31
【问题描述】：

我是 PyTorch 的新手。我遇到了一些GitHub repository (link to full code example)，其中包含各种不同的示例。

还有一个关于 LSTM 的例子，这是 Network 类：

# RNN Model (Many-to-One)
class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, num_classes):
        super(RNN, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, num_classes)

    def forward(self, x):
        # Set initial states 
        h0 = Variable(torch.zeros(self.num_layers, x.size(0), self.hidden_size)) 
        c0 = Variable(torch.zeros(self.num_layers, x.size(0), self.hidden_size))

        # Forward propagate RNN
        out, _ = self.lstm(x, (h0, c0))  

        # Decode hidden state of last time step
        out = self.fc(out[:, -1, :])  
        return out

所以我的问题是关于以下几行：

h0 = Variable(torch.zeros(self.num_layers, x.size(0), self.hidden_size)) 
c0 = Variable(torch.zeros(self.num_layers, x.size(0), self.hidden_size))

据我了解，每个训练示例都会调用forward()。但这意味着，隐藏状态和单元状态将被重置，即在每个训练示例上用零矩阵替换。

名称 h0 和 c0 表明这只是 t=0 时的隐藏/单元格状态，但为什么这些零矩阵会随每个训练示例一起交给 lstm？

即使它们在第一次调用后被忽略，这也不是一个很好的解决方案。

在测试代码时，它声明在 MNIST 集上的准确率为 97%，所以它似乎以这种方式工作，但对我来说没有意义。

希望有人能帮我解决这个问题。

提前致谢！

【问题讨论】：

标签： python neural-network deep-learning lstm pytorch

【解决方案1】：

显然我走错了路。我混淆了隐藏单元和隐藏/单元状态。在训练步骤中只训练 LSTM 中的隐藏单元。单元状态和隐藏状态在每个序列的开头被重置。因此，以这种方式进行编程是有道理的。

对此感到抱歉..

【讨论】：