快速创建任务式训练

本文以创建一个使用 Horovod 分布式模式的任务式训练为例,体验快速创建任务式训练过程:

  1. 收藏资源仓库中的数据集、算法和镜像;

  2. 创建任务式训练;

  3. 查看任务式训练的配置信息、监控、日志等;

  4. 查看训练后保存模型数据。

资源准备

单击右上角菜单栏选择“资源仓库”,进入“资源仓库”页面,资源仓库操作指南可参见 资源仓库简介

数据集准备

  1. 单击上方的“数据集”,搜索“mnist”数据集;

  2. 单击“mnist”数据集,单击详情页右上方的“收藏至算力平台”,选择“v1”版本,单击“收藏”。

算法准备

  1. 单击上方的“算法”,搜索“pytorch-mnist-horovod”算法;

  2. 单击“pytorch-mnist-horovod”算法,单击详情页右上方的“收藏至算力平台”,选择“v1”版本,单击“收藏”。

镜像准备

  1. 单击上方的“镜像 Hub”,搜索“horovod-dev-py3-cuda11.2-cudnn8.1.0”;

  2. 单击“horovod-dev-py3-cuda11.2-cudnn8.1.0”,单击详情页右上方的“收藏至算力平台”,选择“20210623”版本,单击“收藏”。

模型准备

  1. 进入“算力平台”页面;

  2. 单击左侧功能栏选择“模型管理”->“模型卷”;

  3. 单击右上角“添加我的模型”,模型名称填写“for-example”,该模型卷用于保存训练完成的模型;

  4. “模型类型”和“应用场景”根据实际训练完成的模型进行选择,以“mnist”为例,“模型类型”选择“图像”,“应用场景”选择“图像分类单标签”;

  5. 依次填写“大小”,“他人访问权限”后,单击“添加”。

../_images/create_model_volume.png

图 42 创建模型卷

更多模型卷操作参见 模型卷

创建任务式训练

  1. 左侧功能栏选择“训练管理->任务式训练”;

  2. 单击右上角“创建任务式训练”;

  3. 按照页面提示配置参数:

    • 名称填写“example3”;

    • 他人访问权限:可读写,他人访问权限具体可参见 他人访问权限

    • 任务类型:常规任务;

    • 优先级:正常,优先级说明可参见 优先级说明

    • 数据集选择“数据集收藏”的“mnist”;

    • 算法选择“算法收藏”的“pytorch-mnist-horovod”;

    • 保存模型地址选择“我的模型”的“for-example”,不要勾选“只读”;

    • 分布式模式选择“Horovod”;

    • 资源类型:公共资源池;

    • 单节点规格选择含有GPU类型的规格;若无算力规格,可联系平台管理员创建;

    ../_images/create_training_job_1.png

    图 43 创建任务式训练

    • 镜像选择“镜像收藏”,下拉选择“horovod-dev-py3-cuda11.2-cudnn8.1.0”,版本为“20210623”;

    • 节点数填写 2;

    • 运行指令选择“专家模式”,输入指令如下:

    python3 /workspace/algorithm/favorite/pytorch-mnist-horovod/v1/pytorch_mnist.py \
    --dataset_dir=/workspace/dataset/favorite/mnist/v1 \
    --logs_dir=/workspace/outputs/horovod-mnist
    
    • 使用时长选择 24 小时;当任务的运行时长超过“使用时长”后,任务状态会转为“过期”,因此使用时长可设置为任务训练需要的时长,时长规格选项由平台管理员配置。

    ../_images/create_training_job_2.png

    图 44 创建任务式训练

  4. 单击“创建”,等待任务式训练状态变成“运行中”。

查看任务式训练详情

  1. 左侧功能栏选择“训练管理->任务式训练”;

  2. 单击左上角搜索框;

  3. 在下拉列表中,可基于“名称”、“状态”、“创建人”、“我的算法卷”、“算法收藏”、“算力规格”和“保存模型地址”搜索任务式训练;

  4. 基于“名称”搜索“example3”,单击该任务式训练名称进入详情页面;

  5. 单击任务式训练,进入详情页面:

    • 查看任务式训练的配置信息;

    ../_images/training_job_config_detail.png

    图 45 查看任务式训练配置信息

    • 查看任务式训练的监控,监控指标说明参见 硬件监控

    ../_images/training_job_monitoring.png

    图 46 查看任务式训练监控

    • 查看任务式训练的日志;

    ../_images/training_job_log.png

    图 47 查看任务式训练日志

查看模型

  1. 左侧功能栏选择“模型管理”->“模型卷”;

  2. 单击左上角搜索框;

  3. 在下拉列表中,可基于“名称”、“状态”、“标签”和“创建人”搜索我的模型;

  4. 基于“名称”搜索“for-example”,单击该模型卷名称进入详情页面;

  5. 查看训练后保存模型数据:

../_images/training_job_savemodel.png

图 48 查看模型