论文: Recurrent Network Models for Human Dynamics

论文地址: 

https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Fragkiadaki_Recurrent_Network_Models_ICCV_2015_paper.pdf

通过对mocap数据集以及视频的学习,基于作者提出的Encoder-Recurrent-Decoder(ERD)model,实现对人物运动的分类以及预测。这里重点讨论针对mocap数据集的训练以及结果。


Background (论文背景)

Multilayer LSTM Model

作者提出的模型Encoder-Recurrent-Decoder(ERD)model其实相当于LSTM model的基础上做了扩展,添加了encoder和decoder。因为通过实验发现非线性encoder和decoder十分重要,LSTM model在很短时间后就无法生成正确的运动预测值。

Gaussian Processes

作者提到另外一种方式预测运动可以通过概率模型,例如Hidden Markov Models等,但是这些方法无法应用于数据集很大的情况下。而作者的模型是通过有监督,可调参的训练方法,适用于数据集很大的情况下。


Methodology(实现方法)

ICCV 2015 Recurrent Network Models for Human Dynamics 论文解读

如图所示,整体结构由encoder-LSTM-decoder组成,输入为带有noise的真实值mocap数据,输出为下一帧的预测值。

Network Structure(模型结构)

整体模型比较简单,但其中包含一些细节的处理。

LSTMs

在encoder与decoder之间,作者选用了LSTMs代替普通的RNNs。尽管LSTMs有多4倍的参数,但是它大大加快了相关数据的长期存贮。

Denoising

如果只将真实值作为输入,累计的小的预测错误将会很快导致之后预测的值远远偏离真实值。所以作者提出denoising,将ERD模型的输入mocap data加入Gaussian noise。这样进过训练,模型将会自己更正小的偏移,让自己的预测值更接近于真实值。


Experiments(实验)

Experiments detail(实验细节)

  • 作者提出两种方式来计算loss,第一种是常规的Euclidean loss,通过缩小预测值与真实值各结点坐标的距离来训练。第二种是基于概率预测,通过Gaussian Mixture Model(GMM)在mocap vectors上的预测,减小negative log-likelihood来训练。

Experiments results(实验结论)

ICCV 2015 Recurrent Network Models for Human Dynamics 论文解读

  • 就预测结果而言,ERD相比较非周期性运动,在周期性的运动中表现良好
  • LSTM-3LR在短期预测中表现最佳,但是有个主要问题,就是在短期预测之后会马上变为mean pose
  • CRBM能提供较为平滑的短期预测,但是会很快变为偏差很大的预测值
  • ERD虽然会在一开始提供轻微不平滑的短期预测,但是在长期预测中表现最佳

Summary(总结)

  1. 作者提出的模型ERD结构比较简单,但也是很多其他模型的原型,例如Convolutional Sequence to Sequence Model等针对人物运动预测的模型。
  2. 实验的结果也是反映了使用RNN结构的特性:难以对非周期性的运动预测,这在之后的论文中都使用了各种方案去解决。
  3. 训练的时候加入了denoise来解决RNN结构不能只输入真实值的问题,而之后的论文中也通过其他方式,例如Sampling-based loss去解决。

相关文章:

  • 2021-08-24
  • 2021-06-26
  • 2021-12-30
  • 2021-11-21
  • 2022-01-08
  • 2021-12-25
  • 2022-01-07
  • 2021-06-29
猜你喜欢
  • 2021-06-04
  • 2021-12-10
  • 2021-10-01
  • 2021-08-04
  • 2021-08-14
  • 2021-05-06
  • 2021-11-17
相关资源
相似解决方案