AI 开发流程

左侧导航栏展示了寒武纪智算平台的全部子产品模块。您可以根据实际需求进行人工智能任务的全生命周期的开发与管理。

常见的使用场景如下所示。

云原生开发场景

../_images/ai_cloud_develop_pipeline.png

图 63 云原生开发场景

开发准备

在进行算法开发前,需要完成数据、镜像、代码、存储等准备。用户可以通过 标注数据 上传未标注的数据集并完成标注,或通过 数据管理 上传标注好的数据集,以完成数据准备;通过 镜像管理 上传任务所需环境镜像;通过 算法管理 创建算法卷来管理开发所需的代码;通过 模型管理 创建模型卷上传预训练所需模型,并存储训练得到的模型;通过 存储管理 创建存储卷来存储整个开发过程中产生的各种所需保存的数据。

算法开发

在完成各种开发的准备后,用户可以通过启动 开发环境 使用平台内部集成的 VS Code 等工具进行代码调试,或通过 ssh 远程连入容器,完成所需操作。

模型训练

开发完成后可以通过 任务式训练 进行模型训练,并查看训练过程中的各种日志信息。

模型部署

训练完成后将模型部署为 在线服务 ,通过调用 HTTP API 进行预测和调用。

表 3 云原生开发场景功能模块

功能模块

描述

相关文档

标注数据

可以上传未标注的数据集,通过智算平台内置的标注功能完成

图像、视频、音频、文本类任务的标注,

为模型开发与训练提供数据准备。

标注数据

数据管理

可以上传现有的数据集,并对数据集进行各种清洗、增强,

同时支持配置数据源以连接远程数据库读取数据。

数据管理

算法管理

提供算法管理功能,支持统一管理您的算法代码,

以及收藏的内置资源仓库中的算法代码。

算法管理

镜像管理

提供容器镜像管理功能,可管理私有和收藏的镜像,

同时支持通过 Dockerfile 在线构建镜像,

也支持导入第三方容器镜像。

镜像管理

模型管理

提供模型管理功能,支持统一管理私有、预训练和收藏的模型。

模型管理

存储管理

提供持久存储卷,可用于存储在任务中产生的各种数据,

并可以挂载到多个应用、任务中。

存储管理

开发环境

集成了 VS Code Server、Jupyter Notebook

和 JupyterLab,提供在线开发调试功能;

同时也提供 SSH 用于访问容器。

开发环境

任务式训练

提供模型训练的功能,也支持从开发环境直接创建任务式训练;

支持单机和多机训练;支持查看训练日志和资源使用率。

开发环境

在线服务

模型支持在线服务,

可以通过调用在线服务提供的 HTTP API 进行推理。

在线服务

预置模型开发场景

../_images/ai_preset_develop_pipeline.png

图 64 预置模型开发场景

预置模型开发准备

用户可以通过 标注数据 上传未标注的数据集并完成标注;通过 模型管理 创建模型卷存储训练得到的模型。

预置模型训练

预置模型训练 内置了图像、视频、音频、表格等各种任务的模型,可以直接选择任务所需的模型进行训练。

模型评估

平台内置各种任务的多种评价指标,训练得到的模型通过 评估任务 进行评估。

表 4 预置模型开发场景功能模块

功能模块

描述

相关文档

标注数据

可以上传未标注的数据集,通过智算平台内置的标注功能完成

图像、视频、音频、文本类任务的标注,

为模型开发与训练提供数据准备。

标注数据

模型管理

提供模型管理功能,支持统一管理私有、预训练和收藏的模型。

模型管理

预置模型训练

预置模型训练面向各行各业有定制 AI 需求、

零算法基础或追求高效率开发 AI 的用户,

可选择图像、视频、音频、表格等多种任务类型的预训练模型

及超参数配置定制开发模型。

预置模型训练

评估任务

对完成训练的模型进行评估,并查看各种可视化的评估指标。

评估任务