语义分割

语义分割是深度学习中一项重要的计算机视觉任务,旨在将图像中的每个像素分配到预定义的语义类别中。

表 182 语义分割模型介绍

预置模型

模型特点

deeplabv3_resnet50

DeepLabv3 是一种用于语义分割任务的先进深度学习模型。它采用空洞

卷积(Dilated Convolution)来扩大感受野,并通过多尺度特征融合和空

间金字塔池化(Spatial Pyramid Pooling)来捕获图像中的不同尺度信息。

模型引入了深度可分离卷积(Depthwise Separable Convolution)以提

高效率,并添加了背景分类器以更好地处理背景类别。

该模型使用 resnet50 作为 backbone 提取图像特征。

deeplabv3plus_resnet50

DeepLabv3 的升级版本,通过添加一个简单有效的解码器模块来扩展来

细化分割结果,对对象边界的分割结果更准确。

该模型使用 resnet50 作为 backbone 提取图像特征。

fcn_resnet50

FCN(Fully Convolutional Network)是一种经典的语义分割模型,它是

深度学习在语义分割领域的重要里程碑之一。与传统的卷积神经网络

(CNN)不同,FCN 将全连接层替换为全卷积层,使得模型能够接受任

意尺寸的输入图像并输出相同尺寸的语义分割结果。FCN 通过将不同层

级的特征图进行上采样和融合,从而实现对图像中每个像素的语义标记。

为了提高语义分割的精度,FCN 还引入了跳跃连接(skip connections)

和反卷积层(deconvolution),以融合不同分辨率的特征并提高分割结果的准确性。

该模型使用 resnet50 作为 backbone 提取图像特征。

isanet_resnet50

ISANet(Instance-wise Semantic Aware Network)是一种用于语义分割任

务的先进深度学习模型。相比传统的语义分割模型,ISANet 能够更好地

理解图像中的实例信息,并对不同实例进行更准确的分割。ISANet 利用

实例感知的注意力机制,同时考虑像素级别的语义信息和实例级别的特

征,以实现更精确的分割结果。该模型还引入了跨尺度的特征融合模块,

以更好地捕获不同尺度下的语义信息。此外,ISANet 还采用了轻量级的

网络结构设计,以提高模型的计算效率和速度。ISANet 在各种语义分割

任务中表现出色,尤其在处理具有复杂实例结构的图像时具有明显优势。

该模型使用 resnet50 作为 backbone 提取图像特征。

knet_resnet50

KNet 是一种可以统一处理语义分割、实例分割和全景分割任务的深度学

习算法,它通过一组可学习的参数生成潜在实例和类别的掩码,可以与

多种语义分割算法搭配使用。

该模型使用 resnet50 作为 backbone 提取图像特征, 使用 Deeplabv3 的分割头来辅助训练。

maskformer_resnet50

MaskFormer 采用一种简单的掩码分类方法来预测一组二进制掩码,每个

二进制掩码对应一个全局标签。

该模型使用 resnet50 作为 backbone 提取图像特征。

mask2former_resnet50

Mask2Former (Masked-attention Mask Transformer) 是一种能够解决任何

图像分割任务(全景、实例或语义)的通用架构。其关键组成是屏蔽注意力 机制,它通过限制预测屏蔽区域内的交叉注意力来提取局部特征。

该模型使用 resnet50 作为 backbone 提取图像特征。

poolformer_s12

该模型使用 poolformer_s12 作为 backbone 提取图像特征,使用 FCN 方法进行语义分割。

pspnet_resnet50

PSPNet(Pyramid Scene Parsing Network)是一种用于语义分割任务的深

度学习模型,旨在实现对图像中场景的准确理解和分割。该模型利用金

字塔空间池化(Pyramid Pooling)的思想,在不同尺度上对输入特征图

进行多尺度的特征提取和融合。通过在不同尺度下对特征图进行局部池

化和全局池化操作,PSPNet 能够捕获图像中不同尺度的语义信息,从而提高分割准确性。

该模型使用 resnet50 作为 backbone 提取图像特征。

upernet_resnet50

UPerNet(Unified Perceptual Parsing for Scene Understanding)是一

种通用感知模型,可以实现包括语义分割在内的多种任务。

该模型使用 resnet50 作为 backbone 提取图像特征。

segmenter_vit-s_mask

Segmenter 是一种用于语义分割任务的 Transformer 模型,与传统基于卷

积的方法相比,可以更好的对全局上下文进行建模。

该模型使用 vit-s 作为 backbone 提取图像特征。