快速创建任务式训练
本文以创建一个使用 Horovod 分布式模式的任务式训练为例,体验快速创建任务式训练过程:
收藏资源仓库中的数据集、算法和镜像;
创建任务式训练;
查看任务式训练的配置信息、监控、日志等;
查看训练后保存模型数据。
资源准备
单击右上角菜单栏选择“资源仓库”,进入“资源仓库”页面,资源仓库操作指南可参见 资源仓库简介。
数据集准备
单击上方的“数据集”,搜索“mnist”数据集;
单击“mnist”数据集,单击详情页右上方的“收藏至算力平台”,选择“v1”版本,单击“收藏”。
算法准备
单击上方的“算法”,搜索“pytorch-mnist-horovod”算法;
单击“pytorch-mnist-horovod”算法,单击详情页右上方的“收藏至算力平台”,选择“v1”版本,单击“收藏”。
镜像准备
单击上方的“镜像 Hub”,搜索“horovod-dev-py3-cuda11.2-cudnn8.1.0”;
单击“horovod-dev-py3-cuda11.2-cudnn8.1.0”,单击详情页右上方的“收藏至算力平台”,选择“20210623”版本,单击“收藏”。
模型准备
进入“算力平台”页面;
单击左侧功能栏选择“模型管理”->“模型卷”;
单击右上角“添加我的模型”,模型名称填写“for-example”,该模型卷用于保存训练完成的模型;
“模型类型”和“应用场景”根据实际训练完成的模型进行选择,以“mnist”为例,“模型类型”选择“图像”,“应用场景”选择“图像分类单标签”;
依次填写“大小”,“他人访问权限”后,单击“添加”。
更多模型卷操作参见 模型卷 。
创建任务式训练
左侧功能栏选择“训练管理->任务式训练”;
单击右上角“创建任务式训练”;
按照页面提示配置参数:
名称填写“example3”;
他人访问权限:可读写,他人访问权限具体可参见 他人访问权限 ;
任务类型:常规任务;
优先级:正常,优先级说明可参见 优先级说明 ;
数据集选择“数据集收藏”的“mnist”;
算法选择“算法收藏”的“pytorch-mnist-horovod”;
保存模型地址选择“我的模型”的“for-example”,不要勾选“只读”;
分布式模式选择“Horovod”;
资源类型:公共资源池;
单节点规格选择含有GPU类型的规格;若无算力规格,可联系平台管理员创建;
镜像选择“镜像收藏”,下拉选择“horovod-dev-py3-cuda11.2-cudnn8.1.0”,版本为“20210623”;
节点数填写 2;
运行指令选择“专家模式”,输入指令如下:
python3 /workspace/algorithm/favorite/pytorch-mnist-horovod/v1/pytorch_mnist.py \ --dataset_dir=/workspace/dataset/favorite/mnist/v1 \ --logs_dir=/workspace/outputs/horovod-mnist
使用时长选择 24 小时;当任务的运行时长超过“使用时长”后,任务状态会转为“过期”,因此使用时长可设置为任务训练需要的时长,时长规格选项由平台管理员配置。
单击“创建”,等待任务式训练状态变成“运行中”。
查看任务式训练详情
左侧功能栏选择“训练管理->任务式训练”;
单击左上角搜索框;
在下拉列表中,可基于“名称”、“状态”、“创建人”、“我的算法卷”、“算法收藏”、“算力规格”和“保存模型地址”搜索任务式训练;
基于“名称”搜索“example3”,单击该任务式训练名称进入详情页面;
单击任务式训练,进入详情页面:
查看模型
左侧功能栏选择“模型管理”->“模型卷”;
单击左上角搜索框;
在下拉列表中,可基于“名称”、“状态”、“标签”和“创建人”搜索我的模型;
基于“名称”搜索“for-example”,单击该模型卷名称进入详情页面;
查看训练后保存模型数据: