计算资源总览

一、文档概述
本文档旨在帮助用户理解计算资源总览页面的各项监控指标,明确告警规则,并提供故障处理的方法与流程,以保障系统计算资源的稳定运行。
二、指标说明与告警规则
1. CPU 相关指标
(1)CPU 利用率
- 含义:CPU 资源的实际使用比例,反映 CPU 的繁忙程度。
- 正常范围:≤70%(业务无特殊需求时)。
- 告警阈值:
- 警告:80% ≤ 利用率 < 90%(持续 5 分钟);
- 严重:利用率 ≥ 90%(持续 5 分钟)。
- 处理建议:
- 登录服务器,通过
top或htop命令查看占用 CPU 高的进程; - 分析进程所属业务,优化程序逻辑(如减少循环、并行优化等);
- 若为业务流量激增导致,考虑 CPU 资源扩容。
- 登录服务器,通过
(2)CPU 申请分配率
- 含义:业务实际申请的 CPU 资源与系统可分配 CPU 资源的比例。
- 正常范围:≤100%。
- 告警阈值:≥100%(警告)。
- 处理建议:
- 检查业务的 CPU 资源申请配置,确认是否存在不合理的高申请;
- 调整业务的 CPU 资源申请上限,或对系统 CPU 资源进行扩容。
(3)CPU 限制分配率
- 含义:受系统限制的 CPU 资源分配比例,超过 100% 表示 CPU 资源分配存在瓶颈。
- 正常范围:≤100%。
- 告警阈值:≥100%(警告)。
- 处理建议:
- 结合“CPU 申请分配率”分析,若申请合理则扩容 CPU 资源;
- 若申请不合理,调整业务的 CPU 资源限制配置。
2. GPU 相关指标
(1)GPU 利用率
- 含义:GPU 资源的实际使用比例,反映 GPU 的繁忙程度。
- 正常范围:若业务依赖 GPU,正常利用率需根据业务场景判断;若业务不依赖 GPU,利用率为 0% 属正常。
- 告警阈值:
- 异常低:业务依赖 GPU 但利用率长期 ≤5%(警告);
- 异常高:利用率 ≥90%(持续 5 分钟,警告)。
- 处理建议:
- 若业务应使用 GPU 但利用率低:检查 GPU 驱动是否正常、业务程序是否正确调用 GPU;
- 若利用率高:优化 GPU 任务(如模型轻量化、计算逻辑优化),或扩容 GPU 资源。
(2)GPU 申请分配率
- 含义:业务实际申请的 GPU 资源与系统可分配 GPU 资源的比例。
- 正常范围:≤100%。
- 告警阈值:≥100%(警告)。
- 处理建议:
- 检查 GPU 资源申请配置,调整不合理的申请上限;
- 若业务确实需要更多 GPU 资源,对系统 GPU 资源进行扩容。
(3)GPU 限制分配率
- 含义:受系统限制的 GPU 资源分配比例,与“GPU 申请分配率”一致时表示无资源限制瓶颈。
- 正常范围:≤100%。
- 告警阈值:≥100%(警告)。
- 处理建议:同“GPU 申请分配率”。
3. 内存相关指标
(1)内存利用率
- 含义:内存资源的实际使用比例,反映内存的使用饱和程度。
- 正常范围:≤80%(业务无特殊需求时)。
- 告警阈值:
- 警告:80% ≤ 利用率 < 90%(持续 5 分钟);
- 严重:利用率 ≥90%(持续 5 分钟)。
- 处理建议:
- 登录服务器,通过
free -h或top命令查看内存占用情况; - 分析占用内存高的进程,优化程序(如释放无用内存、优化缓存策略);
- 若为业务增长导致,考虑内存资源扩容。
- 登录服务器,通过
(2)内存申请分配率
- 含义:业务实际申请的内存资源与系统可分配内存资源的比例。
- 正常范围:≤100%。
- 告警阈值:≥100%(警告)。
- 处理建议:
- 检查业务的内存申请配置,调整不合理的申请上限;
- 若业务确实需要更多内存,对系统内存资源进行扩容。
(3)内存限制分配率
- 含义:受系统限制的内存资源分配比例,低于 100% 表示内存资源分配无瓶颈。
- 正常范围:≤100%。
- 告警阈值:≥100%(警告)。
- 处理建议:同“内存申请分配率”。
三、故障处理流程
当收到计算资源监控告警时,建议按照以下流程处理:
- 确认告警信息:明确告警涉及的资源类型(CPU/GPU/内存)和具体指标(利用率/分配率等)。
- 查看实时指标:在“计算资源总览”页面查看该指标的当前数值,判断告警严重程度。
- 分析根因:
- 若为利用率高:检查是否有突发业务流量、程序异常循环或内存泄漏等情况;
- 若为分配率超 100%:检查业务资源申请配置是否过高,或系统可分配资源是否不足。
- 执行处理措施:根据前文“处理建议”针对性操作(如优化程序、调整资源配置、扩容等)。
- 验证恢复情况:处理后持续观察指标变化,确认告警消除且资源使用恢复正常。
四、常见问题解答
Q1:CPU 限制分配率超过 100%,但 CPU 利用率并不高,是什么原因?
A:这说明业务申请的 CPU 资源限制超过了系统可分配的 CPU 资源总量,但实际业务并未将申请的资源全部用完。处理方式是调整业务的 CPU 资源限制配置,使其与系统可分配资源匹配,避免资源浪费或误告警。
Q2:GPU 利用率为 0%,但业务应该依赖 GPU 运行,如何排查?
A:请检查三方面:① GPU 驱动是否正常安装并加载;② 业务程序是否正确配置了 GPU 调用逻辑(如深度学习框架是否指定了 GPU 设备);③ 系统是否存在 GPU 资源分配的权限或配置限制。
Q3:内存利用率不高,但内存限制分配率较高,需要处理吗?
A:若内存利用率正常,仅限制分配率较高(但≤100%),说明业务申请的内存资源接近系统可分配上限,但实际未用完。可结合业务增长预期判断:若未来业务会扩容,可提前规划内存扩容;若业务稳定,可适当调整内存申请限制以避免不必要的资源占用。
计算资源总览展示了当前集群中CPU和内存的使用率

GPU的场合显示如下:

| 指标 | 说明 |
|---|---|
| CPU利用率 | 集群当前时间点的CPU利用率 |
| CPU申请分配率 | 集群中所有容器 CPU申请 总和 / 集群总CPU核数,当值超过100%时,无法调度创建新的容器 |
| CPU限制分配率 | 集群中所有容器 CPU限制 总和 / 集群总CPU核数 |
| 内存利用率 | 集群当前时间点内存利用率 |
| 内存申请分配率 | 集群中所有容器 内存申请 总和 / 集群总内存,当值超过100%时,无法创建新的容器 |
| 内存限制分配率 | 集群中所有容器 内存限制 总和 / 集群总内存 |
| GPU利用率 | 集群当前时间点的GPU利用率 |
| GPU申请分配率 | 集群中所有容器 GPU申请 总和 / 集群总GPU核数,当值超过100%时,无法调度创建新的容器 |
| GPU限制分配率 | 集群中所有容器 GPU限制 总和 / 集群总GPU核数 |
作者:叶奕珺 创建时间:2024-07-25 22:51
最后编辑:叶奕珺 更新时间:2025-11-12 14:41
最后编辑:叶奕珺 更新时间:2025-11-12 14:41