推理预留

2.1 版本新增: 支持为推理服务预留项目配额。

对于使用推理服务的项目,可以预留一定的资源,确保其他应用不会占用完项目所有配额, 避免推理服务在负载增加时无法扩容新的节点。

目前只支持预留 GPU 和 MLU 相关资源。

表 228 应用占用资源类型

推理资源

常规资源

  • 在线服务

  • 推理任务

  • 开发容器

  • 容器应用

  • 容器任务

  • 所有可占用推理资源的应用

  • 开发环境

  • 训练任务

  • 评估任务

所有应用优先使用常规资源。可以使用推理资源的应用,在项目配额(包括预留配额)用完时, 会因为无法调度而进入错误状态,不会进入排队状态。

提示

常规资源 + 推理预留资源 = 项目配额

预留资源占用示例

配额总量

常规资源(使用/总量)

推理预留资源(使用/总量)

初始

3

0/2 []

0/1 []

创建训练任务 A,占用 1

3

1/2 [A]

0/1 []

创建训练任务 B,占用 1

3

2/2 [A, B]

0/1 []

创建训练任务 C,占用 1。配额不足,进入排队。

3

2/2 [A, B]

0/1 []

创建推理服务 D,占用 1

3

2/2 [A, B]

1/1 [D]

训练任务 A 结束。训练任务 C 继续排队。

3

2/2 [B, D]

0/1 []

训练任务 B 结束。训练任务 C 结束排队并启动。

3

2/2 [C, D]

0/1 []

训练任务 C 结束

3

1/2 [D]

0/1 []

查看推理预留详情

左侧功能栏选择“项目管理->资源用量”,在“项目配额实时用量概览”标签页定位到“推理预留”功能区。可以查看常规、推理预留的分配和使用情况。

../../_images/reserved_quota.png

图 306 推理预留详情

编辑推理预留

  1. 左侧功能栏选择“项目管理->资源用量”,“项目配额实时用量概览”标签页定位到“推理预留”功能区;

  2. 单击右上角“编辑”;

  3. 按照页面提示配置参数;预留资源数量不能超过项目配额;

  4. 单击“确认”。

../../_images/edit_reserved_quota.png

图 307 编辑推理预留