ICCV 2015 Recurrent Network Models for Human Dynamics 论文解读

论文: Recurrent Network Models for Human Dynamics

论文地址:

通过对mocap数据集以及视频的学习，基于作者提出的Encoder-Recurrent-Decoder（ERD）model，实现对人物运动的分类以及预测。这里重点讨论针对mocap数据集的训练以及结果。

Background （论文背景）

作者提出的模型Encoder-Recurrent-Decoder（ERD）model其实相当于LSTM model的基础上做了扩展，添加了encoder和decoder。因为通过实验发现非线性encoder和decoder十分重要，LSTM model在很短时间后就无法生成正确的运动预测值。

作者提到另外一种方式预测运动可以通过概率模型，例如Hidden Markov Models等，但是这些方法无法应用于数据集很大的情况下。而作者的模型是通过有监督，可调参的训练方法，适用于数据集很大的情况下。

ICCV 2015 Recurrent Network Models for Human Dynamics 论文解读

如图所示，整体结构由encoder-LSTM-decoder组成，输入为带有noise的真实值mocap数据，输出为下一帧的预测值。

整体模型比较简单，但其中包含一些细节的处理。

在encoder与decoder之间，作者选用了LSTMs代替普通的RNNs。尽管LSTMs有多4倍的参数，但是它大大加快了相关数据的长期存贮。

如果只将真实值作为输入，累计的小的预测错误将会很快导致之后预测的值远远偏离真实值。所以作者提出denoising，将ERD模型的输入mocap data加入Gaussian noise。这样进过训练，模型将会自己更正小的偏移，让自己的预测值更接近于真实值。

作者提出两种方式来计算loss，第一种是常规的Euclidean loss，通过缩小预测值与真实值各结点坐标的距离来训练。第二种是基于概率预测，通过Gaussian Mixture Model（GMM）在mocap vectors上的预测，减小negative log-likelihood来训练。

ICCV 2015 Recurrent Network Models for Human Dynamics 论文解读

作者提出的模型ERD结构比较简单，但也是很多其他模型的原型，例如Convolutional Sequence to Sequence Model等针对人物运动预测的模型。
实验的结果也是反映了使用RNN结构的特性：难以对非周期性的运动预测，这在之后的论文中都使用了各种方案去解决。
训练的时候加入了denoise来解决RNN结构不能只输入真实值的问题，而之后的论文中也通过其他方式，例如Sampling-based loss去解决。