【发布时间】:2017-07-26 19:06:32
【问题描述】:
我想在给定N 前一帧的情况下预测(灰度)视频的下一帧 - 在 Keras 中使用 CNN 或 RNN。大多数关于时间序列预测和 Keras 的教程和其他信息在他们的网络中使用一维输入,但我的是 3D (N frames x rows x cols)
我目前真的不确定解决这个问题的好方法是什么。我的想法包括:
使用一个或多个 LSTM 层。这里的问题是我不确定它们是否适合将一系列图像而不是一系列标量作为输入。内存消耗不会爆炸吗?如果可以使用它们:如何在 Keras 中将它们用于更高维度?
在输入(先前视频帧的堆栈)上使用 3D 卷积。这引发了其他问题:当我不进行分类而是进行预测时,为什么这会有所帮助?如何堆叠层,使网络的输入具有维度
(N x cols x rows),输出具有维度(1 x cols x rows)?
我对 CNN/RNN 和 Keras 还很陌生,如果能提供任何正确方向的提示,我将不胜感激。
【问题讨论】:
标签: machine-learning neural-network time-series keras lstm