图像分类单标签

图像分类单标签任务是计算机视觉中的一个基础任务,旨在将输入的图像归类到预定义的类别中。在图像分类任务中,模型需要学习如何识别图像中的关键特征,并将其与特定的类别标签关联起来。

表 179 图像分类模型介绍

预置模型

模型特点

resnet18

ResNet 是一种深度学习模型,它引入了残差学习的概念,

允许网络达到非常深的层次,同时仍然保持良好的性能,

resnet18 为 ResNet 系列中精度最低但速度最快的网络。

resnet34

ResNet 是一种深度学习模型,它引入了残差学习的概念,

允许网络达到非常深的层次,同时仍然保持良好的性能,

resnet34 为 ResNet 系列中精度较低但速度较快的网络。

resnet50

ResNet 是一种深度学习模型,它引入了残差学习的概念,

允许网络达到非常深的层次,同时仍然保持良好的性能,

resnet50 为 ResNet 系列中应用最为广泛的网络。

resnet101

ResNet 是一种深度学习模型,它引入了残差学习的概念,

允许网络达到非常深的层次,同时仍然保持良好的性能,

resnet101 为 ResNet 系列中精度最高但速度最慢的网络。

vit-base

ViT(Vision Transformer)模型,将 Transformer 架构引入图像类任务中,

将图像分为小的图像块后线性嵌入为序列,输入 Transformer 网络中,

通过位置编码保留空间信息,通过注意力机制更好的捕获图像中的空间信息。

vit-large

ViT(Vision Transformer)模型,将 Transformer 架构引入图像类任务中,

将图像分为小的图像块后线性嵌入为序列,输入 Transformer 网络中,

通过位置编码保留空间信息, 通过注意力机制更好的捕获图像中的空间信息。

vgg16

VGG16 是一种经典的卷积神经网络,结构简洁,主要由卷积层、池化层和全连接层构成。

shufflenet-v2

ShufflenetV2是一种轻量级的卷积神经网络(CNN)架构,

通过深度可分离卷积降低计算量,通过通道混合增加通道间信息交流,

旨在提高移动设备和边缘计算设备上的计算效率,同时保持较高的准确性。

resnext50-32x4d

ResNext 是 ResNet 的一个变体,通过在 ResBlock 中引入分组卷积,

在降低参数量的前提下保证了模型准确率。ResNext50-32x4d 是该系列中精度和速度适中的网络。

resnext101-32x8d

ResNext 是 ResNet 的一个变体,通过在 ResBlock 中引入分组卷积,

在降低参数量的前提下保证了模型准确率。ResNext101-32x8d 是该系列中精度最高的网络。

seresnet50

SEResNet 通过在 ResNet 中引入 Squeeze-and-Excitation(SE)模块,

显式地建模通道之间的依赖关系,在不增加太多计算量的前提下大大的提高网络的性能。

seresnext50

SEResNext 通过在 ResNext 中引入 Squeeze-and-Excitation(SE)模块,

显式地建模通道之间的依赖关系,在不增加太多计算量的前提下大大的提高网络的性能。

resnest50

ResNeSt 是 ResNet 的一个变体,通过引入新型的嵌套分割注意力机制,

增加了网络跨通道和跨空间的信息交流,提升了网络的表现。

repvgg-a0

RepVGG 是 VGG 的一个变种,通过创新的引入重参数化的思想,

训练时使用多路径保证训练精度,推理时转换为标准卷积提高性能,

它在保证精度的前提下,大大提升了推理速度。

replknet-31b

RepLKNet 是 RepVGG 的一个变种,使用大核卷积核来提高网络处理

高分辨率图像时的性能,并通过重参数化技术保证训练能够顺利收敛。

RepLKNet-31b 是基础大小的网络。

replknet-31l

RepLKNet 是 RepVGG 的一个变种,使用大核卷积核以提高处理

高分辨率图像时的性能,并通过重参数化技术保证训练能够顺利收敛。

RepLKNet-31b 网络更大,精度更高。

inception-v3

Inception-V3 采用经典的 Inception 模块,设计不同大小的卷积和池化层,

捕捉图像的局部和全局特征,并通过因式分解卷积,

将大卷积等价变为多个小卷积核,在保持高精度的同时降低计算成本。

efficientnet-b0

EfficientNet 通过复合缩放方法,系统地缩放了网络宽度、深度、分辨率,

并通过 AutoML 技术,自动搜索网络架构来找到最优的设计。

swintransformer-tiny

SwinTransformer 在 ViT 的基础上,通过层次化特征图和移位窗口,

增加模型的感受野,更好的提取多尺度特征。

SwinTransformer-tiny 为该系列速度最快的网络。

swintransformer-small

SwinTransformer 在 ViT 的基础上,通过层次化特征图和移位窗口,

增加模型的感受野,更好的提取多尺度特征。

SwinTransformer-small 相比于 tiny 速度略下降但精度更优。

regnetx-400mf

RegNet 是 ResNet 的一个变种,通过精确地控制网络宽度、深度和组宽度,

实现模型性能和效率的平衡。RegNetX-400mf 是该系列最快的网络。

regnetx-800mf

RegNet 是 ResNet 的一个变种,通过精确地控制网络宽度、深度和组宽度,

实现模型性能和效率的平衡。RegNetX-800mf 速度较快。

regnetx-1.6gf

RegNet 是 ResNet 的一个变种,通过精确地控制网络宽度、深度和组宽度,

实现模型性能和效率的平衡。RegNetX-1.6gf 速度和精度较为平衡。

regnetx-3.2gf

RegNet 是 ResNet 的一个变种,通过精确地控制网络宽度、深度和组宽度,

实现模型性能和效率的平衡。RegNetX-3.2gf 精度较优。

regnetx-12gf

RegNet 是 ResNet 的一个变种,通过精确地控制网络宽度、深度和组宽度,

实现模型性能和效率的平衡。RegNetX-12gf 是该系列最大精度最优的网络。

conformer-base

Conformer 结合 CNN 的局部建模能力和 Transformer 的全局建模能力,

提升模型在处理数据时的性能。

convnext-tiny

ConvNext 通过模仿 Transformer 的设计,逐步将 Transformer 的特性

转移到 CNN 上,通过重新设计和优化 CNN 架构,

ConvNext-Tiny 为该系列最小最快的网络。

convnext-small

ConvNext 通过模仿 Transformer 的设计,逐步将 Transformer 的特性

转移到 CNN 上,通过重新设计和优化 CNN 架构,有效提升了模型能力。

ConvNext-Small 为该系列速度精度较平衡的网络。

convnext-large

ConvNext 通过模仿 Transformer 的设计,逐步将 Transformer 的特性

转移到 CNN 上,通过重新设计和优化 CNN 架构,有效提升了模型能力。

ConvNext-Large 为该系列最大精度最优的网络。

densenet121

DenseNet 通过密集连接和瓶颈层的设计,有效减少模型参数量和计算量,

同时保持甚至提高模型性能。

hrnet-w18

HRNet 通过在整个网络中保持高分辨率特征图,并在多个尺度上

设计特征提取模块,提高了网络在处理高分辨率图像时的性能。

HRNet-w18 是该系列最快的网络。

hrnet-w32

HRNet 通过在整个网络中保持高分辨率特征图,并在多个尺度上

设计特征提取模块,提高了网络在处理高分辨率图像时的性能。

HRNet-w18 是该系列速度精度较为均衡的网络。

mobilenet-v2

MobileNet-V2 引入了深度可分离卷积、线性瓶颈和倒置残差结构,

提供了一种新的设计范式,在大大的减少模型参数量的前提下,保证了模型性能。

mobilenet-v3-small

MobileNet-V3 在 MobileNet-V2 的基础上,通过搜索调整宽度和深度因子,

达到更优的计算效率和精度的平衡。

mobileone-s0

MobileOne 是移动端优先的网络,通过深度可分离卷积构建极小的模型,

保证在各种移动设备以及嵌入式设备上运行。