计算资源总览

一、文档概述

本文档旨在帮助用户理解计算资源总览页面的各项监控指标,明确告警规则,并提供故障处理的方法与流程,以保障系统计算资源的稳定运行。

二、指标说明与告警规则

1. CPU 相关指标

(1)CPU 利用率

  • 含义:CPU 资源的实际使用比例,反映 CPU 的繁忙程度。
  • 正常范围:≤70%(业务无特殊需求时)。
  • 告警阈值
    • 警告:80% ≤ 利用率 < 90%(持续 5 分钟);
    • 严重:利用率 ≥ 90%(持续 5 分钟)。
  • 处理建议
    • 登录服务器,通过 tophtop 命令查看占用 CPU 高的进程;
    • 分析进程所属业务,优化程序逻辑(如减少循环、并行优化等);
    • 若为业务流量激增导致,考虑 CPU 资源扩容。

(2)CPU 申请分配率

  • 含义:业务实际申请的 CPU 资源与系统可分配 CPU 资源的比例。
  • 正常范围:≤100%。
  • 告警阈值:≥100%(警告)。
  • 处理建议
    • 检查业务的 CPU 资源申请配置,确认是否存在不合理的高申请;
    • 调整业务的 CPU 资源申请上限,或对系统 CPU 资源进行扩容。

(3)CPU 限制分配率

  • 含义:受系统限制的 CPU 资源分配比例,超过 100% 表示 CPU 资源分配存在瓶颈。
  • 正常范围:≤100%。
  • 告警阈值:≥100%(警告)。
  • 处理建议
    • 结合“CPU 申请分配率”分析,若申请合理则扩容 CPU 资源;
    • 若申请不合理,调整业务的 CPU 资源限制配置。

2. GPU 相关指标

(1)GPU 利用率

  • 含义:GPU 资源的实际使用比例,反映 GPU 的繁忙程度。
  • 正常范围:若业务依赖 GPU,正常利用率需根据业务场景判断;若业务不依赖 GPU,利用率为 0% 属正常。
  • 告警阈值
    • 异常低:业务依赖 GPU 但利用率长期 ≤5%(警告);
    • 异常高:利用率 ≥90%(持续 5 分钟,警告)。
  • 处理建议
    • 若业务应使用 GPU 但利用率低:检查 GPU 驱动是否正常、业务程序是否正确调用 GPU;
    • 若利用率高:优化 GPU 任务(如模型轻量化、计算逻辑优化),或扩容 GPU 资源。

(2)GPU 申请分配率

  • 含义:业务实际申请的 GPU 资源与系统可分配 GPU 资源的比例。
  • 正常范围:≤100%。
  • 告警阈值:≥100%(警告)。
  • 处理建议
    • 检查 GPU 资源申请配置,调整不合理的申请上限;
    • 若业务确实需要更多 GPU 资源,对系统 GPU 资源进行扩容。

(3)GPU 限制分配率

  • 含义:受系统限制的 GPU 资源分配比例,与“GPU 申请分配率”一致时表示无资源限制瓶颈。
  • 正常范围:≤100%。
  • 告警阈值:≥100%(警告)。
  • 处理建议:同“GPU 申请分配率”。

3. 内存相关指标

(1)内存利用率

  • 含义:内存资源的实际使用比例,反映内存的使用饱和程度。
  • 正常范围:≤80%(业务无特殊需求时)。
  • 告警阈值
    • 警告:80% ≤ 利用率 < 90%(持续 5 分钟);
    • 严重:利用率 ≥90%(持续 5 分钟)。
  • 处理建议
    • 登录服务器,通过 free -htop 命令查看内存占用情况;
    • 分析占用内存高的进程,优化程序(如释放无用内存、优化缓存策略);
    • 若为业务增长导致,考虑内存资源扩容。

(2)内存申请分配率

  • 含义:业务实际申请的内存资源与系统可分配内存资源的比例。
  • 正常范围:≤100%。
  • 告警阈值:≥100%(警告)。
  • 处理建议
    • 检查业务的内存申请配置,调整不合理的申请上限;
    • 若业务确实需要更多内存,对系统内存资源进行扩容。

(3)内存限制分配率

  • 含义:受系统限制的内存资源分配比例,低于 100% 表示内存资源分配无瓶颈。
  • 正常范围:≤100%。
  • 告警阈值:≥100%(警告)。
  • 处理建议:同“内存申请分配率”。

三、故障处理流程

当收到计算资源监控告警时,建议按照以下流程处理:

  1. 确认告警信息:明确告警涉及的资源类型(CPU/GPU/内存)和具体指标(利用率/分配率等)。
  2. 查看实时指标:在“计算资源总览”页面查看该指标的当前数值,判断告警严重程度。
  3. 分析根因
    • 若为利用率高:检查是否有突发业务流量、程序异常循环或内存泄漏等情况;
    • 若为分配率超 100%:检查业务资源申请配置是否过高,或系统可分配资源是否不足。
  4. 执行处理措施:根据前文“处理建议”针对性操作(如优化程序、调整资源配置、扩容等)。
  5. 验证恢复情况:处理后持续观察指标变化,确认告警消除且资源使用恢复正常。

四、常见问题解答

Q1:CPU 限制分配率超过 100%,但 CPU 利用率并不高,是什么原因?

A:这说明业务申请的 CPU 资源限制超过了系统可分配的 CPU 资源总量,但实际业务并未将申请的资源全部用完。处理方式是调整业务的 CPU 资源限制配置,使其与系统可分配资源匹配,避免资源浪费或误告警。

Q2:GPU 利用率为 0%,但业务应该依赖 GPU 运行,如何排查?

A:请检查三方面:① GPU 驱动是否正常安装并加载;② 业务程序是否正确配置了 GPU 调用逻辑(如深度学习框架是否指定了 GPU 设备);③ 系统是否存在 GPU 资源分配的权限或配置限制。

Q3:内存利用率不高,但内存限制分配率较高,需要处理吗?

A:若内存利用率正常,仅限制分配率较高(但≤100%),说明业务申请的内存资源接近系统可分配上限,但实际未用完。可结合业务增长预期判断:若未来业务会扩容,可提前规划内存扩容;若业务稳定,可适当调整内存申请限制以避免不必要的资源占用。

计算资源总览展示了当前集群中CPU和内存的使用率

GPU的场合显示如下:

指标 说明
CPU利用率 集群当前时间点的CPU利用率
CPU申请分配率 集群中所有容器 CPU申请 总和 / 集群总CPU核数,当值超过100%时,无法调度创建新的容器
CPU限制分配率 集群中所有容器 CPU限制 总和 / 集群总CPU核数
内存利用率 集群当前时间点内存利用率
内存申请分配率 集群中所有容器 内存申请 总和 / 集群总内存,当值超过100%时,无法创建新的容器
内存限制分配率 集群中所有容器 内存限制 总和 / 集群总内存
GPU利用率 集群当前时间点的GPU利用率
GPU申请分配率 集群中所有容器 GPU申请 总和 / 集群总GPU核数,当值超过100%时,无法调度创建新的容器
GPU限制分配率 集群中所有容器 GPU限制 总和 / 集群总GPU核数
作者:叶奕珺  创建时间:2024-07-25 22:51
最后编辑:叶奕珺  更新时间:2025-11-12 14:41