如何将 3dcnn 的 5D 张量馈送到 LSTM？答案

【问题标题】：How to fed 5D tensor of 3dcnn to LSTM?如何将 3dcnn 的 5D 张量馈送到 LSTM？
【发布时间】：2021-11-13 03:46:49
【问题描述】：

我在动作识别领域工作，我必须使用 3dcnn 和 Lstm。我的 3DCNN 输入大小是 [1,3,16,112,112]。我需要将 3dcnn 层的输出馈送到 lstm。我在实现模型时遇到问题。

下面是我的 3dcnn 网络架构。我需要在pool5之后添加Lstm层。

请，我将非常感谢任何指导和帮助。谢谢。^^

def __init__(self):
    super(C3D, self).__init__()

    self.conv1 = nn.Conv3d(3, 64, kernel_size=(3, 3, 3), padding=(1, 1, 1))
    self.pool1 = nn.MaxPool3d(kernel_size=(1, 2, 2), stride=(1, 2, 2))

    self.conv2 = nn.Conv3d(64, 128, kernel_size=(3, 3, 3), padding=(1, 1, 1))
    self.pool2 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2))

    self.conv3a = nn.Conv3d(128, 256, kernel_size=(3, 3, 3), padding=(1, 1, 1))
    self.conv3b = nn.Conv3d(256, 256, kernel_size=(3, 3, 3), padding=(1, 1, 1))
    self.pool3 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2))

    self.conv4a = nn.Conv3d(256, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))
    self.conv4b = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))
    self.pool4 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2))

    self.conv5a = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))
    self.conv5b = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))
    self.pool5 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2), padding=(0, 1, 1))

    self.relu = nn.ReLU()

【问题讨论】：

标签： tensorflow pytorch computer-vision lstm

【解决方案1】：

关键是确保使用flattened图像特征维度作为LSTM输入特征维度。

def __init__(self):
    ...
    self.lstm = nn.LSTM(H*W*512, hidden_size, batch_first=True)
    ...
def forward(self):
    ...
    # 3dcnn_out.shape = (batch_size, timesteps, H, W, 512)
    3dcnn_out.reshape(batch_size, timesteps, H*W*512)
    out, (h, c) = self.lstm(3dcnn_out)
    ...

（how to feed 5D tensor into LSTM? 可能重复）

【讨论】：