视频检测

视频检测任务是指在视频序列中检测和识别出特定目标（如行人、车辆、物体等）的位置和类别的任务。与静态图像检测相比，视频检测需要处理连续的帧序列，并在每一帧中实时地进行目标检测。视频检测通常作为上游任务，为后续的目标追踪、行为分析、视频内容理解、视频分类和识别等任务提供必要的信息。

视频检测常常利用图像的目标检测算法提取视频每一帧图像的特征，再处理相邻帧之间的大量冗余信息，最后整合所有帧的信息。

表 186 视频检测模型介绍
预置模型	模型特点
dff-faster_rcnn_r50	深度特征流模型（Deep Feature Flow，简称 dff）由特征提取网络和光流估计网络两部分组成，使用 faster_rcnn_resnet50 作为 backbone 处理图像，提取关键帧（间隔选取）的静态特征，使用光流计算网络 flownet 进行特征传播，即根据关键帧的特征图估计非关键帧的特征图，利用视频上的时间连贯性来减少计算量的同时实现特征图之间的连接，捕获视频中长序列的依赖关系，最后将特征图输入检测网络中得到视频的检测结果。模型对于视频检测的效果较好，且计算复杂度较低，适用于综合考虑模型效果和计算成本的情况。
dff-faster_rcnn_r101	使用 faster_rcnn_resnet101 作为 backbone 处理图像信息，模型复杂度更高，计算量更大，检测效果更好。
dff-faster_rcnn_x101	使用 faster_rcnn_resnext101 作为 backbone 处理图像信息，模型复杂度更高，计算量更大，检测效果更好。
fgfa-faster_rcnn_r50	流导向特征聚合模型（Flow-guided Feature Aggregation，简称 fgfa）可以看作 dff 模型的延续，亮点为利用前后帧的信息加强当前帧的特征。Fgfa 使用光流网络计算当前帧和相邻帧的运动信息，并结合相邻帧的静态特征（检测网络提取）得到当前帧运动特征估计，最后与当前帧的静态特征通过权重网络进行聚合，将聚合特征输入到检测网络中得到当前帧的检测结果。模型能有效识别快速运动物体，具有较高的检测精度，适用于视频运动信息丰富且计算量足够的情况。
fgfa-faster_rcnn_r101	使用 faster_rcnn_resnet101 作为 backbone 处理图像信息，模型复杂度更高，计算量更大，检测效果更好。
dff-faster_rcnn_x101	使用 faster_rcnn_resnext101 作为 backbone 处理图像信息，模型复杂度更高，计算量更大，检测效果更好。
selsa-faster_rcnn_r50	序列级语义聚合模型（Sequence Level Semantics Aggregation，简称 selsa）基于注意力机制进行全局 proposal 特征（图像中可能包含目标物体的区域的特征）融合，根据特征间的语义相似程度进行融合（而非依据时间的接近程度进行融合）。Selsa 将视频看作无序的帧的集合，随机采样一定数量的帧，利用 proposal 与其他 proposal 特征的余弦相似度作为权重来引导特征聚合得到该 proposal 的最终特征。模型能更好的处理视频出现运动模糊、遮挡、目标姿态变化等退化情况，适用于视频信息丰富且计算量足够的情况。
fgfa-faster_rcnn_r101	使用 faster_rcnn_resnet101 作为 backbone 处理图像信息，模型复杂度更高，计算量更大，检测效果更好。
selsa-faster_rcnn_x101	使用 faster_rcnn_resnext101 作为 backbone 处理图像信息，模型复杂度更高，计算量更大，检测效果更好。