实例分割

实例分割是计算机视觉领域的一项重要任务,旨在将图像中的每个像素分配给其对应的物体实例,并为每个实例生成边界框。 与语义分割任务不同,实例分割要求模型在像素级别上对不同的物体实例进行区分,而不仅仅是对物体类别进行分类。

表 181 实例分割模型介绍

预置模型

模型特点

mask-rcnn_resnet50

Mask R-CNN 是 Faster R-CNN 的扩展,通过在 Faster R-CNN 的

基础上添加一个分支来预测每个检测到的目标实例的二进制掩码。

Mask R-CNN 在目标检测的同时,为每个检测到的目标生成一个精

确的分割掩码,从而实现了实例级别的物体分割。

该模型使用 resnet50 作为 backbone 提取图像特征。

cascade-mask-rcnn_resnet50

Cascade Mask R-CNN 是 Mask R-CNN 的一种改进版本,旨在进一

步提高实例分割的性能。Cascade Mask R-CNN 引入了级联结构,

通过级联的方式逐步提升模型的性能,对小目标和和难以区分目

标的精度有明显提升。

该模型使用 resnet50 作为 backbone 提取图像特征。

yoloact_resnet50

YOLOACT 是一种用与实时实例分割的全卷积网络,相比

Mask R-CNN 它采用单阶段的设计,推理速度更快。

该模型使用 resnet50 作为 backbone 提取图像特征。

boxinst_resnet50

BoxInst 的核心思想是对实例分割的 loss 进行改进。它提出了两

种损失函数:1、最小化真值框投影和预测的实例掩码的差异;

2、最小化颜色相似像素的类别差异。

该模型使用 resnet50 作为 backbone 提取图像特征。

condinst_resnet50

CondInst(Conditional Convolutions for Instance Segmentation)是

一种基于条件卷积的实例分割算法。CondInst 的关键思想是在每

个像素级别上使用条件卷积,通过利用全局上下文信息和局部特征

来指导实例分割。具体而言,CondInst 通过对每个像素点应用不同

的卷积核,根据该像素点所属的实例以及全局上下文信息来动态地

调整卷积核的参数,从而实现了精确的实例分割。此外,CondInst

还引入了两个关键模块:条件卷积模块(CCM)和实例特征对齐模

块(IFAM),用于实现条件卷积和特征对齐。这些模块使得

CondInst 能在不需要显式的实例中心点或边界框的情况下,

实现高效的实例分割。

该模型使用 resnet50 作为 backbone 提取图像特征。

groie_resnet50

GRoIE 模型基于 Mask R-CNN 模型对 RoI(Region of Interest)提取

层进行了改进,通过注意力机制聚合了来自多层 RoI 特征。

该模型使用 resnet50 作为 backbone 提取图像特征。

htc_resnet50

HTC 模型是对 Cascade Mask R-CNN 的改进,它的核心思想是将目

标检测和实例分割任务组合起来,形成一个级联的任务流。具体而

言,HTC 通过级联多个检测和分割阶段,逐渐提高模型对目标的

定位和分割精度。HTC 对小目标和重叠目标更加友好。

该模型使用 resnet50 作为 backbone 提取图像特征。

queryinst_resnet50

QueryInst 模型通过一组可学习的查询向量来表征实例对象,并使

用一组统一的方式表示实例的类别、边界框、实例掩码和实例 ID。

该模型使用 resnet50 作为 backbone 提取图像特征。

solo_resnet50

SOLO(Segmenting Objects by Locations)是一种单阶段的高效实例

分割算法,它将图像划分为网格,并为每个网格单元预测目标的类

别和实例信息。该模型使用 resnet50 作为 backbone 提取图像特征。