通过构造了对称的3×3×3卷积核来利用3D卷积学习时空特征,计算效率高。
论文地址:http://vlg.cs.dartmouth.edu/c3d/c3d_video.pdf

1. 摘要

本文提出了一种简单而有效的时空特征学习方法,使用在大规模有监督视频数据集上训练的3D 卷积网络。本文的发现有三个方面:
1)与2D ConvNets相比,3D ConvNets更适合于时空特征学习
2)一个在所有层都有3 × 3 × 3卷积核的同质结构是3D ConvNets的最佳性能结构
3)学习到的特征,即C3D(卷积3D),使用简单的线性分类器在4个不同的基准上优于最新的方法,并且可以与其他2个基准上的当前最佳方法进行比较。
此外,它的特点是基于3D ConvNets的快速推理,计算效率非常高。而且在概念上非常简单,易于训练和使用。

2. 相关工作

2.1 传统行为识别

Laptev和Lindeberg通过将Harris角点检测器扩展到3D,提出了时空兴趣点(STIPs),SIFT和HOG也扩展到SIFT-3D和HOG3D用于动作识别。Dollar等人提出了用于行为识别的长方体特征。萨达南德和科尔索建立了行动识别行动库。最近,王等人提出了改进的密集轨道(iDT)这是目前最先进的手工制作功能。iDT描述符显示了时间信号可以不同于空间信号的处理方式。它不是将Harris角点检测器扩展到3D,而是从视频帧中密集采样的特征点开始,利用光流对其进行跟踪。对于每个跟踪器,沿轨迹提取不同的手工特征。尽管该方法具有良好的性能,但计算量大,在大规模数据集上难以实现。

2.2 卷积神经网络用于行为识别

Le等人使用叠加ISA来学习视频的时空特征。虽然该方法在动作识别方面取得了很好的效果,但在训练上仍存在计算量大、在大数据集上难以扩展的问题。3D ConvNets被提出用于人类行为识别和医学图像分割。三维卷积还与受限的Boltzmann机器一起用于学习时空特征。最近,Karpathy等人在大型视频数据集上训练深度网络,用于视频分类。Simonyan和Zisserman使用了两个流网络来实现动作识别的获得了最佳结果。

在这些方法中,[3d convolutional neural networks for human action recognition.]中的3D ConvNets方法与本文的关系最为密切。该方法利用人体检测器和头部跟踪技术对视频中的人体进行分割。将分割后的视频卷作为3D ConvNet的输入对动作进行分类。相比之下,本文的方法以完整的视频帧作为输入,不依赖任何预处理,因此很容易扩展到大型数据集。但本文也与Karpathy等人有一些相似之处。 西蒙尼和齐瑟曼使用全部的帧训练ConvNet。然而,这些方法建立在仅使用2D卷积和2D池化操作的基础上(除了[Large-scale video classification with convolutional neural networks]中的慢融合模型),而本文的模型执行3D卷积和3D池化,在网络中的所有层传播时间信息。另外,本文还表明,逐步汇集空间和时间信息并构建更深入的网络可以获得最佳结果。

3. 本文方法

3.1 2D和3D卷积对比

论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)
a) 对图像应用二维卷积可生成图像。b) 在视频序列上应用二维卷积(多帧作为多个通道)也会产生图像。c) 在一个视频序列上应用3D卷积会产生另一个序列,从而保留输入信号的时间信息。

三维卷积网络非常适合时空特征学习。与2D-ConvNet相比,3D-ConvNet具有更好的时间信息建模能力,这得益于3D卷积和3D池化操作。在3D ConvNets中,卷积和池化操作是在时空上执行的,而在2D ConvNets中,卷积和池化操作只是在空间上执行的(如上图)。而2D ConvNets在每次卷积运算后都会丢失输入信号的时间信息。只有3D卷积才能保留产生输出体积的输入信号的时间信息。同样的3D 池化操作也是如此。

根据2D ConvNets的研究结果,3 × 3卷积核的小感受野和较深的结构产生了最好的结果。因此本文将空间感受野固定为3 × 3,并且仅改变3D卷积核的时间深度。

3.2 网络结构

论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)

8 convolution layers,5 pooling layers,two fully connected layers,a softmax output layer.

所有卷积核均为3×3×3。第一个pooling层1×2×2,Stride=1×2×2,之后都是2×2×2,stride=2×2×2

两个全连接层都是4096。

注:为简单起见,假设视频序列大小为c × l × h × w,其中c是频道数,l是帧的长度,h和w分别是帧的高度和宽度。三维卷积和池化的核大小为d × k × k,其中d是核的时间深度,k是核的空间大小。

公共网络设置:该网络以视频片段为输入,对101个不同动作的类标签进行预测。所有视频帧的大小都调整为128 × 171。这大约是UCF101中视频帧的一半分辨率。视频被分成不重叠的16帧序列,然后作为网络的输入。输入尺寸为3 × 16 × 128 × 171。在训练中,还使用了大小为3 × 16 × 112 × 112的输入剪辑的随机裁剪来进行抖动。该网络有5个卷积层和5个池化层(每个卷积层后面紧跟着一个池化层)、2个全连接层和一个预测动作标签的softmax loss层。从1到5的5个卷积层的滤波器数目分别为64、128、256、256、256。所有卷积核都有d的大小,其中d是内核时间深度(后面将改变这些层的d值以搜索良好的3D架构)。

所有这些卷积层都采用适当的填充(空间和时间)和步长1,因此从这些卷积层的输入到输出的大小没有变化。所有池化层都是最大池化,内核大小为2 × 2 × 2(第一层除外),padding为1,这意味着输出信号的大小比输入信号减小了8倍。第一池层的核大小为1 × 2 × 2,目的是不过早地合并时间信号,并且满足16帧的剪辑长度。

3.3 探索时间核长度(d)

**本文主要关注如何通过深度网络聚合时间信息。**为了寻找一个好的3D ConvNet架构,作者只改变卷积层的内核时间深度di,同时保持所有其他公共设置不变。

作者实验了两种类型的体系结构:

1)同质时间深度:所有卷积层具有相同的核时间深度;

2)可变时间深度:核时间深度跨层变化。

作者注意到,所有这些网络在最后一个池化层具有相同大小的输出信号,因此它们对于全连接层具有相同数量的参数。
由于核的时间深度不同,卷积层的参数个数也不同。与全连接层中的数百万个参数相比,这些差异非常微小。

论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)

在UCF101上测试不同核时间深度设置下split-1的动作识别剪辑精度。2D-ConvNet性能最差,3D-ConvNet的3×3×3核性能最好。

3.4 时间空间特征的学习

使用的数据集是UCF101,采用简单的分类模型—简单线性SVM。同时试验了3个不同的网络。和基准:IDT,ImageNet进行比较。
论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)

结果如表所示。中间部分是只使用RGB的,下面则是所有当前最好的识别数据。结果表明,C3D不仅有最高的精度,而且能很好地提取外部特征与时间特征(没有明显提升,当同特征数据库结合的时候)。另一方面,C3D同IDT的结合是十分互补的。IDT是主要基于光流追踪与低梯度的直方图特征,而C3D则捕捉了高度抽象综合的信息。

论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)

使用t-SNE在UCF101数据集上嵌入Imagenet和C3D的可视化特征。与Imagenet相比,C3D特征在语义上是可分离的,这表明它是一个更好的视频特征。每个剪辑都可视为一个点,属于同一动作的剪辑具有相同的颜色。

4. 实验结果

4.1 动作相似性标注

论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)
论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)

4.2 场景与目标识别

论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)

4.3 运行时分析

论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)

相关文章:

  • 2021-10-25
  • 2021-11-23
  • 2021-05-17
  • 2021-10-15
  • 2021-12-16
  • 2022-01-23
  • 2021-12-07
  • 2022-01-19
猜你喜欢
  • 2021-09-08
  • 2021-09-26
  • 2021-07-10
  • 2021-07-07
  • 2021-12-27
  • 2021-10-13
  • 2021-05-08
相关资源
相似解决方案