硬件监控

平台支持查看容器的 CPU、内存、网络流量、MLU、GPU 的监控信息。

以下功能支持硬件监控:

备注

当选择的时间范围比较大时,查询监控时会自动降采样,参见 监控降采样

指标说明

  • 所有容器都有的监控指标:

    CPU 使用率

    指定采样周期内 CPU 使用量占容器 CPU 总量的比例。

    内存占用

    指定采样周期内内存的使用量。

    网络流量 I/O

    指定采样周期内发送与接收的网络速率。

    本地磁盘 I/O

    指定采样周期内容器中读或写本地磁盘速率。

  • 使用 MLU 的容器特有的监控指标:

    MLU 算力利用率

    指定采样周期内 MLU 算力使用量占 MLU 算力总量的比例。

    MLU 内存利用率

    指定采样周期内 MLU 内存使用量占 MLU 内存总量的比例。

    MLU 功耗

    指定采样时间点的 MLU 功率。

    MLULink 网络流量

    指定采样周期内 MLULink 读或写网络的字节数 / 时长。

../../_images/hardware_mlu_monitor.png

图 312 MLU 硬件监控

  • 使用 GPU 的容器特有的监控指标:

    GPU 算力利用率

    指定采样周期内 GPU 算力使用量占 GPU 算力总量的比例。

    GPU 内存利用率

    指定采样周期内 GPU 内存使用量占 GPU 内存总量的比例。

    GPU 功耗

    指定采样时间点 GPU 的功率。

../../_images/hardware_gpu_monitor.png

图 313 GPU 硬件监控

  • 使用自定义 AI 板卡的容器特有的监控指标:

    自定义 AI 板卡算力使用率

    指定采样周期内自定义 AI 板卡算力使用量占自定义 AI 板卡算力总量的比例。

    自定义 AI 板卡内存使用率

    指定采样周期内自定义 AI 板卡内存使用量占自定义 AI 板卡内存总量的比例。

    自定义 AI 板卡功耗

    指定采样时间点自定义 AI 板卡的功率。