TSN论文笔记及实验过程

TSN论文笔记及实验过程
论文链接：https://arxiv.org/abs/1608.00859
代码链接：https://github.com/yjxiong/tsn-pytorch

1.TSN是什么？

TSN，全称为temporal-segment-networks，即时间段网络。该网络是一种新的基于视频的动作识别框架，旨在通过基于分段的采样和聚合模块对长距离的时间结构建模。通过简单的平均池华和多尺度时间窗口的集成，该模型可以很容易地应用于修剪和未修剪视频中的动作识别。

2. TSN面临的问题

根据之前学者的研究得知，视频的动作识别有两个重要方面：外观和时间动态。但是由于尺度变化、视点改变、相机移动等困难，使得关于视频的动作识别十分困难。因此，设计有效的特征表示对于学习分类信息很重要。

和图像分类不同，对于基于视频的动作识别来说，端到端深度卷积网络带来的改进仍然是有限的。论文作者认为有三个主要阻碍：

如何有效捕捉长距离时间结构的视频表示：尽管在传统方法中，长距离时间结构以及被证明对于理解动态信息非常重要，但在深度卷积网络架构方法中，仍然缺乏对于长距离时间结构的关注。现有的Convnet类方法通过关注外观和短期运动(最多16帧)。最近也出现一些解决这个问题的方法，采用的是预定义的采样间隔进行时间采样，这样计算成本高，且内存空间有限。
如何利用学到的ConvNet模型来更真实地处理未修剪的视频：现有动作识别方法多针对修剪过的视频。而实际上我们经常需要处理未修剪的视频如THUMOS, ActivityNet，其中每个动作可能仅占整个视频一小部分。主导背景部分可能干扰动作识别模型的预测。
如何在给定有限训练样本的情况下有效地学习ConvNet模型并将其应用于大规模数据：在实践上也有很大困难：1）训练深度网络通常需要大量样本，公开数据集如UCF101等在规模和多样性方面仍然有限，容易过拟合。2）光流提取以捕获短期运动信息成为将学习模型部署到大规模动作识别数据集的计算瓶颈。

3. TSN提出的解决方案

针对之前提出的三个主要阻碍，TSN对应提供了解决方法：

提出稀疏和全局时间采用策略：由于连续帧是高度冗余的，所以稀疏和全局的时间采样策略将更有利和有效。TSN采用稀疏采用策略在长视频序列上提取段片段snippet，具体来说：首先将视频分为固定数量的segments，并且从每个segment中随机采样一个snippet，最后使用分段聚合函数来聚合这些snippets的信息，正因为使用分段聚合函数，使得TSN可以对长时间结构建模，而且计算成本与视频长度无关。分段聚合函数具体尝试了5种：平均池化、最大池化、加权平均、top-K池化、自适应注意力权重。后两者可以自动突出有辨别力的片段，减少不太相关的片段的影响。
多尺度时间窗口集成将行为模型应用于未裁剪视频：以往的大多数动作识别方法都局限于对手工裁剪的视频片段进行分类，但是网络上的视频是不可修剪的以及手动修剪这些视频十分费力。所以提出一种分层聚合策略，称为多尺度时间窗口集成，获得未剪辑视频的最终预测结果。具体来说：首先将未修剪的视频分成一系列固定连续时间的短窗口序列，然后通过对窗口内的片段级识别分数进行最大池化，独立地对每个窗口执行动作识别，最后根据时间段网络的聚合功能，使用top-k池化或注意力加权等，对窗口预测进行聚合，得到视频级的识别结果。
跨模态初始化策略、部分bn、改变输入类型解决有限训练样本引起的问题：1）跨模态初始化策略：RGB、光流、RGB差。2）在微调时进行批归一化的方法——部分BN，只有第一个BN层的均值和方差会自适应地更新来处理域移位。3）此外，为了充分使用视频的视觉内容，我们学习了四种输入模态：RGB图像、 RGB差、flow以及 warped-flow光流场。