视频检测

视频检测任务是指在视频序列中检测和识别出特定目标(如行人、车辆、物体等)的位置和类别的任务。与静态图像检测相比,视频检测需要处理连续的帧序列,并在每一帧中实时地进行目标检测。视频检测通常作为上游任务,为后续的目标追踪、行为分析、视频内容理解、视频分类和识别等任务提供必要的信息。

视频检测常常利用图像的目标检测算法提取视频每一帧图像的特征,再处理相邻帧之间的大量冗余信息,最后整合所有帧的信息。

表 186 视频检测模型介绍

预置模型

模型特点

dff-faster_rcnn_r50

深度特征流模型(Deep Feature Flow,简称 dff)由特征提取网络和光流估计

网络两部分组成,使用 faster_rcnn_resnet50 作为 backbone 处理图像,提

取关键帧(间隔选取)的静态特征,使用光流计算网络 flownet 进行特征传

播,即根据关键帧的特征图估计非关键帧的特征图,利用视频上的时间连贯

性来减少计算量的同时实现特征图之间的连接,捕获视频中长序列的依赖

关系,最后将特征图输入检测网络中得到视频的检测结果。

模型对于视频检测的效果较好,且计算复杂度较低,适用于综合考虑模型效

果和计算成本的情况。

dff-faster_rcnn_r101

使用 faster_rcnn_resnet101 作为 backbone 处理图像信息,模型复杂度更高,

计算量更大,检测效果更好。

dff-faster_rcnn_x101

使用 faster_rcnn_resnext101 作为 backbone 处理图像信息,模型复杂度更高,

计算量更大,检测效果更好。

fgfa-faster_rcnn_r50

流导向特征聚合模型(Flow-guided Feature Aggregation,简称 fgfa) 可以

看作 dff 模型的延续,亮点为利用前后帧的信息加强当前帧的特征。Fgfa 使

用光流网络计算当前帧和相邻帧的运动信息,并结合相邻帧的静态特征(检

测网络提取)得到当前帧运动特征估计,最后与当前帧的静态特征通过权重

网络进行聚合,将聚合特征输入到检测网络中得到当前帧的检测结果。

模型能有效识别快速运动物体,具有较高的检测精度,适用于视频运动信息

丰富且计算量足够的情况。

fgfa-faster_rcnn_r101

使用 faster_rcnn_resnet101 作为 backbone 处理图像信息,模型复杂度更高,

计算量更大,检测效果更好。

dff-faster_rcnn_x101

使用 faster_rcnn_resnext101 作为 backbone 处理图像信息,模型复杂度更高,

计算量更大,检测效果更好。

selsa-faster_rcnn_r50

序列级语义聚合模型(Sequence Level Semantics Aggregation,简称 selsa)

基于注意力机制进行全局 proposal 特征(图像中可能包含目标物体的区域的

特征)融合,根据特征间的语义相似程度进行融合(而非依据时间的接近程

度进行融合)。Selsa 将视频看作无序的帧的集合,随机采样一定数量的帧,

利用 proposal 与其他 proposal 特征的余弦相似度作为权重来引导特征聚合

得到该 proposal 的最终特征。

模型能更好的处理视频出现运动模糊、遮挡、目标姿态变化等退化情况,适

用于视频信息丰富且计算量足够的情况。

fgfa-faster_rcnn_r101

使用 faster_rcnn_resnet101 作为 backbone 处理图像信息,模型复杂度更高,

计算量更大,检测效果更好。

selsa-faster_rcnn_x101

使用 faster_rcnn_resnext101 作为 backbone 处理图像信息,模型复杂度更高,

计算量更大,检测效果更好。