论文: Recurrent Network Models for Human Dynamics
论文地址:
通过对mocap数据集以及视频的学习,基于作者提出的Encoder-Recurrent-Decoder(ERD)model,实现对人物运动的分类以及预测。这里重点讨论针对mocap数据集的训练以及结果。
Background (论文背景)
Multilayer LSTM Model
作者提出的模型Encoder-Recurrent-Decoder(ERD)model其实相当于LSTM model的基础上做了扩展,添加了encoder和decoder。因为通过实验发现非线性encoder和decoder十分重要,LSTM model在很短时间后就无法生成正确的运动预测值。
Gaussian Processes
作者提到另外一种方式预测运动可以通过概率模型,例如Hidden Markov Models等,但是这些方法无法应用于数据集很大的情况下。而作者的模型是通过有监督,可调参的训练方法,适用于数据集很大的情况下。
Methodology(实现方法)
如图所示,整体结构由encoder-LSTM-decoder组成,输入为带有noise的真实值mocap数据,输出为下一帧的预测值。
Network Structure(模型结构)
整体模型比较简单,但其中包含一些细节的处理。
LSTMs
在encoder与decoder之间,作者选用了LSTMs代替普通的RNNs。尽管LSTMs有多4倍的参数,但是它大大加快了相关数据的长期存贮。
Denoising
如果只将真实值作为输入,累计的小的预测错误将会很快导致之后预测的值远远偏离真实值。所以作者提出denoising,将ERD模型的输入mocap data加入Gaussian noise。这样进过训练,模型将会自己更正小的偏移,让自己的预测值更接近于真实值。
Experiments(实验)
Experiments detail(实验细节)
- 作者提出两种方式来计算loss,第一种是常规的Euclidean loss,通过缩小预测值与真实值各结点坐标的距离来训练。第二种是基于概率预测,通过Gaussian Mixture Model(GMM)在mocap vectors上的预测,减小negative log-likelihood来训练。
Experiments results(实验结论)
- 就预测结果而言,ERD相比较非周期性运动,在周期性的运动中表现良好
- LSTM-3LR在短期预测中表现最佳,但是有个主要问题,就是在短期预测之后会马上变为mean pose
- CRBM能提供较为平滑的短期预测,但是会很快变为偏差很大的预测值
- ERD虽然会在一开始提供轻微不平滑的短期预测,但是在长期预测中表现最佳
Summary(总结)
- 作者提出的模型ERD结构比较简单,但也是很多其他模型的原型,例如Convolutional Sequence to Sequence Model等针对人物运动预测的模型。
- 实验的结果也是反映了使用RNN结构的特性:难以对非周期性的运动预测,这在之后的论文中都使用了各种方案去解决。
- 训练的时候加入了denoise来解决RNN结构不能只输入真实值的问题,而之后的论文中也通过其他方式,例如Sampling-based loss去解决。