物体检测矩形框

物体检测矩形框即图像目标检测任务,用来在图像中定位和识别图像中出现的目标。 与图像分类任务不同,目标检测不仅要求模型能够识别图像中的物体类别,还需要确定物体的位置,通常使用边界框来表示目标的位置和大小。

表 180 物体检测矩形框模型介绍

预置模型

模型特点

faster-rcnn_resnet50

Faster R-CNN 是一种经典的目标检测算法,采用两阶段的方法实现目标定

位和识别。它首先由区域提议网络(RPN)生成候选目标框,然后由检测网

络对这些候选框进行目标分类和边界框回归。RPN 利用滑动窗口和锚框生

成候选框,检测网络则将提取的特征图与候选框结合,输出目标类别和边界

框位置。

该模型使用 resnet50 作为 backbone 提取图像特征。

retinanet_resnet50

RetinaNet 是一种单阶段目标检测算法,由 FAIR 提出。其创新之处在于使

用了一种称为 Focal Loss 的损失函数,有助于解决类别不平衡问题,提

高了小目标检测的性能。RetinaNet 结合了特征金字塔网络(FPN)和单阶

段检测器的优点,在处理多尺度物体时表现出色。它通过融合来自 FPN 不

同层级的特征信息,同时进行目标分类和边界框回归,实现了端到端的目标

检测。RetinaNet 简单高效,具有较强的鲁棒性,适用于各种目标检测任务。

该模型使用 resnet50 作为 backbone 提取图像特征。

cascade-rcnn_resnet50

Cascade R-CNN 是一种基于级联的目标检测算法,它是对 Faster R-CNN 算

法的扩展。Cascade R-CNN 通过级联多个检测器来逐步提高目标检测的性能,

特别是在处理难以检测的小目标时表现出色。它包括一系列级联的子检测

器,每个子检测器在前一个阶段的基础上进一步筛选并细化目标候选框。

该模型使用 resnet50 作为 backbone 提取图像特征。

ssd512

SSD(Single Shot MultiBox Detector)是一种经典的单阶段目标检测算

法。SSD 将目标检测任务视为一个回归问题,通过在输入图像的多个特征

层上预测目标的位置和类别。它采用了先验框(prior box)和多尺度特征

图来检测不同尺度和纵横比的目标,从而实现了对各种大小和形状的目标

进行有效检测。SSD 具有端到端的设计,同时进行目标分类和边界框回归,

具有较快的检测速度和较高的准确性。

该模型使用 vgg16 作为 backbone 提取图像特征,输入分辨率为 512x512。

centernet_resnet18

CenterNet 是一种单阶段的目标检测算法,其核心思想是通过检测目标的中

心点来实现目标检测和定位。CenterNet 通过预测目标的中心点、边界框尺

寸和类别来完成目标检测任务,而不需要使用传统的锚框或者先验框。它利

用了中心点的特性,使得模型更加简单高效,同时在小目标检测和密集目标

检测方面表现出色。此外,CenterNet 的后处理过程不需要通过非极大值抑

制(Non-Maximum Suppression, NMS)来剔除重复框,部署相对更加方便。

该模型使用 resnet18 作为 backbone 提取图像特征。

centernet_resnet18-dcn

该模型在上面模型的基础上添加了可变形卷积(Deformable Convolutional

Network, DCN)来增强 backbone 的图像特征提取能力。

detr_resnet50

DETR 是一种基于 Transformer 结构的目标检测算法,它将目标检测任务视

为一种端到端的序列到序列转换问题,使用一组可学习的权值向量

(object query)来预测目标的类别和位置,并通过自注意力机制来捕获目

标之间的语义关联。相比传统的目标检测方法,DETR 不需要使用锚框或先

验框,因而后处理过程更加简单。

该模型使用 resnet50 作为 backbone 提取图像特征。

yolov3_darknet53

YOLOv3 是一种单阶段的实时目标检测算法,直接预测目标的类别和边界

框。它通过将输入图像分成多个网格单元,并预测每个网格单元中存在目

标的概率、目标的类别和边界框的位置。YOLOv3 采用了三种不同尺度的

特征图来提高对不同尺度目标的检测精度。

该模型采用 darknet53 作为 backbone 提取图像特征。

yolov3_mobilenetv2

该模型与上面模型结构相同,只是对通道数进行了裁剪,并将 backbone 替

换成了 mobilenetv2。相比上面的模型,目标检测速度会有明显的提升,但

检测精度也会下降,推荐在移动端部署时候使用。

yolox_s

YOLOX 是一种单阶段的实时目标检测算法,由 YOLO 系列改进而来。

YOLOX 采用了 anchor-free 的范式,相比 YOLOv3 不再需要预先计算锚框坐标。

此外,YOLOX 还解耦了分类与回归分支并使用 SimOTA 的标签分配方式来提升检测精度。