视频检测
视频检测任务是指在视频序列中检测和识别出特定目标(如行人、车辆、物体等)的位置和类别的任务。与静态图像检测相比,视频检测需要处理连续的帧序列,并在每一帧中实时地进行目标检测。视频检测通常作为上游任务,为后续的目标追踪、行为分析、视频内容理解、视频分类和识别等任务提供必要的信息。
视频检测常常利用图像的目标检测算法提取视频每一帧图像的特征,再处理相邻帧之间的大量冗余信息,最后整合所有帧的信息。
预置模型 |
模型特点 |
dff-faster_rcnn_r50 |
深度特征流模型(Deep Feature Flow,简称 dff)由特征提取网络和光流估计 网络两部分组成,使用 faster_rcnn_resnet50 作为 backbone 处理图像,提 取关键帧(间隔选取)的静态特征,使用光流计算网络 flownet 进行特征传 播,即根据关键帧的特征图估计非关键帧的特征图,利用视频上的时间连贯 性来减少计算量的同时实现特征图之间的连接,捕获视频中长序列的依赖 关系,最后将特征图输入检测网络中得到视频的检测结果。 模型对于视频检测的效果较好,且计算复杂度较低,适用于综合考虑模型效 果和计算成本的情况。 |
dff-faster_rcnn_r101 |
使用 faster_rcnn_resnet101 作为 backbone 处理图像信息,模型复杂度更高, 计算量更大,检测效果更好。 |
dff-faster_rcnn_x101 |
使用 faster_rcnn_resnext101 作为 backbone 处理图像信息,模型复杂度更高, 计算量更大,检测效果更好。 |
fgfa-faster_rcnn_r50 |
流导向特征聚合模型(Flow-guided Feature Aggregation,简称 fgfa) 可以 看作 dff 模型的延续,亮点为利用前后帧的信息加强当前帧的特征。Fgfa 使 用光流网络计算当前帧和相邻帧的运动信息,并结合相邻帧的静态特征(检 测网络提取)得到当前帧运动特征估计,最后与当前帧的静态特征通过权重 网络进行聚合,将聚合特征输入到检测网络中得到当前帧的检测结果。 模型能有效识别快速运动物体,具有较高的检测精度,适用于视频运动信息 丰富且计算量足够的情况。 |
fgfa-faster_rcnn_r101 |
使用 faster_rcnn_resnet101 作为 backbone 处理图像信息,模型复杂度更高, 计算量更大,检测效果更好。 |
dff-faster_rcnn_x101 |
使用 faster_rcnn_resnext101 作为 backbone 处理图像信息,模型复杂度更高, 计算量更大,检测效果更好。 |
selsa-faster_rcnn_r50 |
序列级语义聚合模型(Sequence Level Semantics Aggregation,简称 selsa) 基于注意力机制进行全局 proposal 特征(图像中可能包含目标物体的区域的 特征)融合,根据特征间的语义相似程度进行融合(而非依据时间的接近程 度进行融合)。Selsa 将视频看作无序的帧的集合,随机采样一定数量的帧, 利用 proposal 与其他 proposal 特征的余弦相似度作为权重来引导特征聚合 得到该 proposal 的最终特征。 模型能更好的处理视频出现运动模糊、遮挡、目标姿态变化等退化情况,适 用于视频信息丰富且计算量足够的情况。 |
fgfa-faster_rcnn_r101 |
使用 faster_rcnn_resnet101 作为 backbone 处理图像信息,模型复杂度更高, 计算量更大,检测效果更好。 |
selsa-faster_rcnn_x101 |
使用 faster_rcnn_resnext101 作为 backbone 处理图像信息,模型复杂度更高, 计算量更大,检测效果更好。 |