视频分类单标签
视频分类单标签任务是指将输入的视频分为不同类别的监督学习任务。视频分类任务在许多领域都有着广泛的应用,例如视频内容推荐、行为识别、视频监控等。
对于视频类任务,由于增加了时序信息,使得提取视频信息相对困难,主要有以下两种做法:
使用双流结构:由两个模型组成,2D 卷积模型学习图像层面的信息,聚合模型进行帧间特征聚合(如光流模型),最后融合两个模型的结果。优点是模型计算成本低,但无法捕获长期时间关系;
使用 3D 卷积模型,同时抽取图像层面和时间层面的信息,优点是可以获得较好的性能,但计算量大。
常见网络如图:
预置模型 |
模型特点 |
tsn_r50 |
时间分段网络(Temporal Segment Network,简称 tsn)是视频分类领域经典的 基于 2D 卷积神经网络的解决方案,模型使用 resnet50 作为 backbone 处理视 频信息,主要解决长时间视频行为判断问题。Tsn 利用稀疏采样代替稠密采样: 将输入视频均匀分为 k 段,每段中随机采样一个片段,每个片段输出一个类别 得分,将所有片段得分融合得到最终得分,以此捕获全局视频信息,减少冗余, 降低计算量。 模型能有效处理长视频分类问题,且计算复杂度低,适用于综合考虑模型效果和 计算成本的情况。 |
c2d_r50 |
C2d 网络(2D ConvNet,记为 c2d)使用添加了 non-local 操作的 resnet50 作为 backbone 来处理视频信息。Non-local 操作是论文 Non-local Neural Networks 中提出的通过为每个输出响应计算输入特征图中所有位置(如时间位 置、空间位置或时空位置)特征的加权和,从而简单高效捕获长距离依赖关系的 算子。 模型能有效提取视频时序信息,且计算复杂度较低,适用于综合考虑模型效果和 计算成本的情况。 |
i3d_r50 |
双流膨胀 3D 网络(Two-Stream Inflated 3D ConvNet,简称 i3d)将 2D 图像 特征提取网络膨胀为 3D 时空特征提取网络:直接将 2D 卷积神经网络的预训练 权重拓展到第三个维度(时间维度),从而将 backbone 为 resnet50 的双流网 络拓展到 3D,分别提取图像特征和时间特征,聚合后通过全连接层进行分类。 模型简单高效,且计算复杂度低,适用于综合考虑模型效果和计算成本的情况。 |
tsm_r50 |
时间移位模块(Temporal Shift Module,简称 tsm)指将 resnet50 提取的视频 特征图的信道沿时间维进行移位,便于相邻帧之间的信息交换,而无需显式使用 3D 卷积。在不增加任何额外参数量和计算量的情况下极大的提高了模型对视频 时间信息的利用能力。 模型对视频序列的时间变化有着较好的感知能力,且计算复杂度低,适用于综合 考虑模型效果和计算成本的情况。 |
tin-tsm_r50 |
时间交错网络(Temporal Interlacing Network,简称 tin) 在 tsm 的基础上 引入可学习的移位模块,用于计算特征在时序维度的偏移量,同时依据偏移量将 特征重新交错排列,使每组特征在时间维度的移位距离不同, 更有利于快速捕获 时间依赖关系。 模型极大的加快了训练速度的同时实现了性能提升,适用于综合考虑模型效果和 计算成本的情况。 |
r2plus1d_r34 |
3 维卷积网络分解为 2+1 维(ResNet3D To (2+1)Dimension ConvNet,简称 r2plus1d) 指通过因式分解将 3D 卷积网络 resnet34 分解为 2D 空间卷积网络 提取图像信息和 1D 时间卷积网络提取时序信息,并将模型的优化过程分开,使 模型更容易优化,能在参数量几乎不变的情况下提高模型的表达能力。 模型几乎不增加 3D 卷积网络计算量的同时,很大程度提升了分类准确率,适用 于综合考虑模型效果和计算成本的情况。 |
slowfast_r50 |
Slowfast 网络由 slow、fast 两个以 resnet50 为 backbone 的网络组成,其 中,slow 网络输入为低帧率图片,用来捕获静态特征(全局特征);fast 网络 输入为高帧率图片,用来捕获时间运动特征(局部特征),fast 网络使用更小的 channel 数,以削弱其空间建模能力(提升时间建模能力),并使用横向连接将 fast 网络特征融合到 slow 网络中,取得了良好的结果。 模型符合人视网膜节细胞处理视觉信息的方式,充分利用了视频的时空信息,具 有较高的准确率,适用于综合考虑模型效果和计算成本的情况。 |
slowonly_r50 |
Slowfast_r50 模型只使用 slow 网络得到 slowonly_r50。模型计算量低,适用 于低计算成本的情况。 |
tpn-slowonly_r50 |
时间金字塔网络(Temporal Pyramid Network,简称 tpn)由主干网络提取多层 级特征,将各个层级特征分别输入时空特征处理模块,最后将所有层级特征连接 得到输出。模型以即插即用的方式将 tpn 模块集成到 slowonly_r50 网络中,使 网络可以很好的捕获视频视觉速度上的差异。 模型计算量较低,效果较好,适合视觉速度差异较大的数据集。 |
csn_r152 |
通道分离卷积网络(Channel-Separated Convolution Network,简称 csn)旨在 分开处理 3D 卷积得到的全局特征(channel interactions)和局部特征(local interactions),通过将输入特征图分为若干通道组,并对每个通道组进行独立 的卷积操作,减少通道之间的连接信息,从而降低计算量。 模型使用较深的卷积神经网络,并通过 csn 减少计算量,适用于要求模型效果好 ,但计算成本较低的情况。 |
tanet_r50 |
时间自适应网络(Temporal Adaptive Network,简称 tanet)是指在 resnet50 网络中加入时间自适应结构(Temporal Adaptive Module,简称 tam)。Tam 由 全局分支和局部分支组成,局部分支利用短期时序信息生成位置相关的重要性权 重,全局分支利用长期时序信息得到视频时序依赖关系,通过这样的分解,可以 互补的学习视频中运动模式的多样性。 模型主要解决不同视频在时序维度上呈出不同的运动模式的问题,适合视频内容 差异较大的数据集。 |
timesformer_spaceOnly |
利用 transformer 架构处理视频序列:先将视频拆解为不相交的图像块序列,在 通过自注意力机制(SpaceOnly Attention)获取图像块的语义。其中, SpaceOnly attention 指每个图像块只和属于同一帧的图像块进行比较,来获取 语义信息,没有考虑帧间时序信息。 模型使用 transformer 架构,具有较好的可扩展性,可以处理更长的视频,但是 忽略了时序信息,适用于综合考虑模型效果和计算成本的情况。 |
timesformer_jointST |
使用 Joint Space-Time attention(简记为 jointST)处理视频中所有图像块, 可以同时考虑空间信息和时序信息。模型相较于 timesformer_spaceOnly 性能 更好,计算量更大,适用于更重视模型效果的情况。 |
swin-tiny |
Swin transformer 先将视频拆解为不相交的图像块,并采取层次化的设计,一共 4 个 stage,每个 stage 都会缩小特征图的分辨率(扩大感受野),注意力机 制作用于由图像块组成的 windows,通过滑动窗口提取时空语义信息,降低了计 算量。Tiny 结构指模型通道数为 96,4 个 stage 层数分别为(2,2,6,2)。 模型使用 transformer 结构且计算量较低,适用于要求模型效果较好,但计算成 本较低的情况。 |
swin-base |
Base 结构指模型特征通道数为 128,4 个 stage 层数分别为(2,2,18,2)。模 型计算量较高,适用于更注重分类效果的情况。 |
swin-large |
Large 结构指模型特征通道数为 192,4 个 stage 层数分别为(2,2,18,2)。模 型计算量高,适用于注重分类效果的情况。 |
uniformerv2-r224 |
UniformerV2 沿用基于图像分类的 uniformer 结构,增加了高效的局部时间模块 和基于交叉注意力机制的全局时空学习模块,以较小的计算代价实现视频建模, 且取得了高的分类准确率。 模型分类准确率高,适合注重分类效果的情况。 |