物体检测矩形框

物体检测矩形框即图像目标检测任务，用来在图像中定位和识别图像中出现的目标。与图像分类任务不同，目标检测不仅要求模型能够识别图像中的物体类别，还需要确定物体的位置，通常使用边界框来表示目标的位置和大小。

表 180 物体检测矩形框模型介绍
预置模型	模型特点
faster-rcnn_resnet50	Faster R-CNN 是一种经典的目标检测算法，采用两阶段的方法实现目标定位和识别。它首先由区域提议网络（RPN）生成候选目标框，然后由检测网络对这些候选框进行目标分类和边界框回归。RPN 利用滑动窗口和锚框生成候选框，检测网络则将提取的特征图与候选框结合，输出目标类别和边界框位置。该模型使用 resnet50 作为 backbone 提取图像特征。
retinanet_resnet50	RetinaNet 是一种单阶段目标检测算法，由 FAIR 提出。其创新之处在于使用了一种称为 Focal Loss 的损失函数，有助于解决类别不平衡问题，提高了小目标检测的性能。RetinaNet 结合了特征金字塔网络（FPN）和单阶段检测器的优点，在处理多尺度物体时表现出色。它通过融合来自 FPN 不同层级的特征信息，同时进行目标分类和边界框回归，实现了端到端的目标检测。RetinaNet 简单高效，具有较强的鲁棒性，适用于各种目标检测任务。该模型使用 resnet50 作为 backbone 提取图像特征。
cascade-rcnn_resnet50	Cascade R-CNN 是一种基于级联的目标检测算法，它是对 Faster R-CNN 算法的扩展。Cascade R-CNN 通过级联多个检测器来逐步提高目标检测的性能，特别是在处理难以检测的小目标时表现出色。它包括一系列级联的子检测器，每个子检测器在前一个阶段的基础上进一步筛选并细化目标候选框。该模型使用 resnet50 作为 backbone 提取图像特征。
ssd512	SSD（Single Shot MultiBox Detector）是一种经典的单阶段目标检测算法。SSD 将目标检测任务视为一个回归问题，通过在输入图像的多个特征层上预测目标的位置和类别。它采用了先验框（prior box）和多尺度特征图来检测不同尺度和纵横比的目标，从而实现了对各种大小和形状的目标进行有效检测。SSD 具有端到端的设计，同时进行目标分类和边界框回归，具有较快的检测速度和较高的准确性。该模型使用 vgg16 作为 backbone 提取图像特征，输入分辨率为 512x512。
centernet_resnet18	CenterNet 是一种单阶段的目标检测算法，其核心思想是通过检测目标的中心点来实现目标检测和定位。CenterNet 通过预测目标的中心点、边界框尺寸和类别来完成目标检测任务，而不需要使用传统的锚框或者先验框。它利用了中心点的特性，使得模型更加简单高效，同时在小目标检测和密集目标检测方面表现出色。此外，CenterNet 的后处理过程不需要通过非极大值抑制（Non-Maximum Suppression, NMS）来剔除重复框，部署相对更加方便。该模型使用 resnet18 作为 backbone 提取图像特征。
centernet_resnet18-dcn	该模型在上面模型的基础上添加了可变形卷积（Deformable Convolutional Network, DCN）来增强 backbone 的图像特征提取能力。
detr_resnet50	DETR 是一种基于 Transformer 结构的目标检测算法，它将目标检测任务视为一种端到端的序列到序列转换问题，使用一组可学习的权值向量（object query）来预测目标的类别和位置，并通过自注意力机制来捕获目标之间的语义关联。相比传统的目标检测方法，DETR 不需要使用锚框或先验框，因而后处理过程更加简单。该模型使用 resnet50 作为 backbone 提取图像特征。
yolov3_darknet53	YOLOv3 是一种单阶段的实时目标检测算法，直接预测目标的类别和边界框。它通过将输入图像分成多个网格单元，并预测每个网格单元中存在目标的概率、目标的类别和边界框的位置。YOLOv3 采用了三种不同尺度的特征图来提高对不同尺度目标的检测精度。该模型采用 darknet53 作为 backbone 提取图像特征。
yolov3_mobilenetv2	该模型与上面模型结构相同，只是对通道数进行了裁剪，并将 backbone 替换成了 mobilenetv2。相比上面的模型，目标检测速度会有明显的提升，但检测精度也会下降，推荐在移动端部署时候使用。
yolox_s	YOLOX 是一种单阶段的实时目标检测算法，由 YOLO 系列改进而来。 YOLOX 采用了 anchor-free 的范式，相比 YOLOv3 不再需要预先计算锚框坐标。此外，YOLOX 还解耦了分类与回归分支并使用 SimOTA 的标签分配方式来提升检测精度。