语义分割
语义分割是深度学习中一项重要的计算机视觉任务,旨在将图像中的每个像素分配到预定义的语义类别中。
预置模型 |
模型特点 |
deeplabv3_resnet50 |
DeepLabv3 是一种用于语义分割任务的先进深度学习模型。它采用空洞 卷积(Dilated Convolution)来扩大感受野,并通过多尺度特征融合和空 间金字塔池化(Spatial Pyramid Pooling)来捕获图像中的不同尺度信息。 模型引入了深度可分离卷积(Depthwise Separable Convolution)以提 高效率,并添加了背景分类器以更好地处理背景类别。 该模型使用 resnet50 作为 backbone 提取图像特征。 |
deeplabv3plus_resnet50 |
DeepLabv3 的升级版本,通过添加一个简单有效的解码器模块来扩展来 细化分割结果,对对象边界的分割结果更准确。 该模型使用 resnet50 作为 backbone 提取图像特征。 |
fcn_resnet50 |
FCN(Fully Convolutional Network)是一种经典的语义分割模型,它是 深度学习在语义分割领域的重要里程碑之一。与传统的卷积神经网络 (CNN)不同,FCN 将全连接层替换为全卷积层,使得模型能够接受任 意尺寸的输入图像并输出相同尺寸的语义分割结果。FCN 通过将不同层 级的特征图进行上采样和融合,从而实现对图像中每个像素的语义标记。 为了提高语义分割的精度,FCN 还引入了跳跃连接(skip connections) 和反卷积层(deconvolution),以融合不同分辨率的特征并提高分割结果的准确性。 该模型使用 resnet50 作为 backbone 提取图像特征。 |
isanet_resnet50 |
ISANet(Instance-wise Semantic Aware Network)是一种用于语义分割任 务的先进深度学习模型。相比传统的语义分割模型,ISANet 能够更好地 理解图像中的实例信息,并对不同实例进行更准确的分割。ISANet 利用 实例感知的注意力机制,同时考虑像素级别的语义信息和实例级别的特 征,以实现更精确的分割结果。该模型还引入了跨尺度的特征融合模块, 以更好地捕获不同尺度下的语义信息。此外,ISANet 还采用了轻量级的 网络结构设计,以提高模型的计算效率和速度。ISANet 在各种语义分割 任务中表现出色,尤其在处理具有复杂实例结构的图像时具有明显优势。 该模型使用 resnet50 作为 backbone 提取图像特征。 |
knet_resnet50 |
KNet 是一种可以统一处理语义分割、实例分割和全景分割任务的深度学 习算法,它通过一组可学习的参数生成潜在实例和类别的掩码,可以与 多种语义分割算法搭配使用。 该模型使用 resnet50 作为 backbone 提取图像特征, 使用 Deeplabv3 的分割头来辅助训练。 |
maskformer_resnet50 |
MaskFormer 采用一种简单的掩码分类方法来预测一组二进制掩码,每个 二进制掩码对应一个全局标签。 该模型使用 resnet50 作为 backbone 提取图像特征。 |
mask2former_resnet50 |
Mask2Former (Masked-attention Mask Transformer) 是一种能够解决任何 图像分割任务(全景、实例或语义)的通用架构。其关键组成是屏蔽注意力 机制,它通过限制预测屏蔽区域内的交叉注意力来提取局部特征。 该模型使用 resnet50 作为 backbone 提取图像特征。 |
poolformer_s12 |
该模型使用 poolformer_s12 作为 backbone 提取图像特征,使用 FCN 方法进行语义分割。 |
pspnet_resnet50 |
PSPNet(Pyramid Scene Parsing Network)是一种用于语义分割任务的深 度学习模型,旨在实现对图像中场景的准确理解和分割。该模型利用金 字塔空间池化(Pyramid Pooling)的思想,在不同尺度上对输入特征图 进行多尺度的特征提取和融合。通过在不同尺度下对特征图进行局部池 化和全局池化操作,PSPNet 能够捕获图像中不同尺度的语义信息,从而提高分割准确性。 该模型使用 resnet50 作为 backbone 提取图像特征。 |
upernet_resnet50 |
UPerNet(Unified Perceptual Parsing for Scene Understanding)是一 种通用感知模型,可以实现包括语义分割在内的多种任务。 该模型使用 resnet50 作为 backbone 提取图像特征。 |
segmenter_vit-s_mask |
Segmenter 是一种用于语义分割任务的 Transformer 模型,与传统基于卷 积的方法相比,可以更好的对全局上下文进行建模。 该模型使用 vit-s 作为 backbone 提取图像特征。 |