硬件监控
平台支持查看容器的 CPU、内存、网络流量、MLU、GPU 的监控信息。
以下功能支持硬件监控:
备注
当选择的时间范围比较大时,查询监控时会自动降采样,参见 监控降采样。
指标说明
所有容器都有的监控指标:
- CPU 使用率
指定采样周期内 CPU 使用量占容器 CPU 总量的比例。
- 内存占用
指定采样周期内内存的使用量。
- 网络流量 I/O
指定采样周期内发送与接收的网络速率。
- 本地磁盘 I/O
指定采样周期内容器中读或写本地磁盘速率。
使用 MLU 的容器特有的监控指标:
- MLU 算力利用率
指定采样周期内 MLU 算力使用量占 MLU 算力总量的比例。
- MLU 内存利用率
指定采样周期内 MLU 内存使用量占 MLU 内存总量的比例。
- MLU 功耗
指定采样时间点的 MLU 功率。
- MLULink 网络流量
指定采样周期内 MLULink 读或写网络的字节数 / 时长。
使用 GPU 的容器特有的监控指标:
- GPU 算力利用率
指定采样周期内 GPU 算力使用量占 GPU 算力总量的比例。
- GPU 内存利用率
指定采样周期内 GPU 内存使用量占 GPU 内存总量的比例。
- GPU 功耗
指定采样时间点 GPU 的功率。
使用自定义 AI 板卡的容器特有的监控指标:
- 自定义 AI 板卡算力使用率
指定采样周期内自定义 AI 板卡算力使用量占自定义 AI 板卡算力总量的比例。
- 自定义 AI 板卡内存使用率
指定采样周期内自定义 AI 板卡内存使用量占自定义 AI 板卡内存总量的比例。
- 自定义 AI 板卡功耗
指定采样时间点自定义 AI 板卡的功率。