语义分割

语义分割是深度学习中一项重要的计算机视觉任务，旨在将图像中的每个像素分配到预定义的语义类别中。

表 182 语义分割模型介绍
预置模型	模型特点
deeplabv3_resnet50	DeepLabv3 是一种用于语义分割任务的先进深度学习模型。它采用空洞卷积（Dilated Convolution）来扩大感受野，并通过多尺度特征融合和空间金字塔池化（Spatial Pyramid Pooling）来捕获图像中的不同尺度信息。模型引入了深度可分离卷积（Depthwise Separable Convolution）以提高效率，并添加了背景分类器以更好地处理背景类别。该模型使用 resnet50 作为 backbone 提取图像特征。
deeplabv3plus_resnet50	DeepLabv3 的升级版本，通过添加一个简单有效的解码器模块来扩展来细化分割结果，对对象边界的分割结果更准确。该模型使用 resnet50 作为 backbone 提取图像特征。
fcn_resnet50	FCN（Fully Convolutional Network）是一种经典的语义分割模型，它是深度学习在语义分割领域的重要里程碑之一。与传统的卷积神经网络（CNN）不同，FCN 将全连接层替换为全卷积层，使得模型能够接受任意尺寸的输入图像并输出相同尺寸的语义分割结果。FCN 通过将不同层级的特征图进行上采样和融合，从而实现对图像中每个像素的语义标记。为了提高语义分割的精度，FCN 还引入了跳跃连接（skip connections）和反卷积层（deconvolution），以融合不同分辨率的特征并提高分割结果的准确性。该模型使用 resnet50 作为 backbone 提取图像特征。
isanet_resnet50	ISANet（Instance-wise Semantic Aware Network）是一种用于语义分割任务的先进深度学习模型。相比传统的语义分割模型，ISANet 能够更好地理解图像中的实例信息，并对不同实例进行更准确的分割。ISANet 利用实例感知的注意力机制，同时考虑像素级别的语义信息和实例级别的特征，以实现更精确的分割结果。该模型还引入了跨尺度的特征融合模块，以更好地捕获不同尺度下的语义信息。此外，ISANet 还采用了轻量级的网络结构设计，以提高模型的计算效率和速度。ISANet 在各种语义分割任务中表现出色，尤其在处理具有复杂实例结构的图像时具有明显优势。该模型使用 resnet50 作为 backbone 提取图像特征。
knet_resnet50	KNet 是一种可以统一处理语义分割、实例分割和全景分割任务的深度学习算法，它通过一组可学习的参数生成潜在实例和类别的掩码，可以与多种语义分割算法搭配使用。该模型使用 resnet50 作为 backbone 提取图像特征, 使用 Deeplabv3 的分割头来辅助训练。
maskformer_resnet50	MaskFormer 采用一种简单的掩码分类方法来预测一组二进制掩码，每个二进制掩码对应一个全局标签。该模型使用 resnet50 作为 backbone 提取图像特征。
mask2former_resnet50	Mask2Former (Masked-attention Mask Transformer) 是一种能够解决任何图像分割任务（全景、实例或语义）的通用架构。其关键组成是屏蔽注意力机制，它通过限制预测屏蔽区域内的交叉注意力来提取局部特征。该模型使用 resnet50 作为 backbone 提取图像特征。
poolformer_s12	该模型使用 poolformer_s12 作为 backbone 提取图像特征，使用 FCN 方法进行语义分割。
pspnet_resnet50	PSPNet（Pyramid Scene Parsing Network）是一种用于语义分割任务的深度学习模型，旨在实现对图像中场景的准确理解和分割。该模型利用金字塔空间池化（Pyramid Pooling）的思想，在不同尺度上对输入特征图进行多尺度的特征提取和融合。通过在不同尺度下对特征图进行局部池化和全局池化操作，PSPNet 能够捕获图像中不同尺度的语义信息，从而提高分割准确性。该模型使用 resnet50 作为 backbone 提取图像特征。
upernet_resnet50	UPerNet（Unified Perceptual Parsing for Scene Understanding）是一种通用感知模型，可以实现包括语义分割在内的多种任务。该模型使用 resnet50 作为 backbone 提取图像特征。
segmenter_vit-s_mask	Segmenter 是一种用于语义分割任务的 Transformer 模型，与传统基于卷积的方法相比，可以更好的对全局上下文进行建模。该模型使用 vit-s 作为 backbone 提取图像特征。