节点维度图表展示

一、概述

本文档旨在帮助用户理解监控中心总览页面中节点维度的各项监控指标、告警规则及处理流程,以便及时发现并解决集群节点的异常问题。

二、核心监控指标说明

1. 节点数量

  • 含义:当前 Kubernetes 集群中所有节点的总数。
  • 监控逻辑:实时统计集群内节点的存活数量,反映集群的节点规模。
  • 异常场景:节点数量骤减(如因宕机、网络故障导致节点离线)时触发告警。

2. 运行Pod数

  • 含义:所有节点上当前处于运行状态的 Pod 总数量。
  • 监控逻辑:统计集群内所有节点上的 Pod 运行总量,反映集群的业务负载规模。
  • 异常场景:Pod 数量异常波动(如骤增导致资源耗尽,或骤减导致服务不可用)时触发告警。

3. 运行容器数

  • 含义:所有节点上当前运行的容器总数量(每个 Pod 可包含多个容器)。
  • 监控逻辑:统计容器的运行总量,间接反映集群的业务组件规模。

4. 平均CPU使用率

  • 含义:所有节点的 CPU 使用率平均值,反映集群节点的 CPU 资源消耗程度。
  • 指标范围:0%100%,绿色区间(0%70%)为正常,黄色(70%~90%)为警告,红色(≥90%)为严重告警。

5. 平均内存使用率

  • 含义:所有节点的内存使用率平均值,反映集群节点的内存资源消耗程度。
  • 指标范围:0%100%,绿色区间(0%80%)为正常,黄色(80%~95%)为警告,红色(≥95%)为严重告警。

6. 节点当前Pod数量(按状态分布)

  • 状态说明
    • Pending(黄色):Pod 处于等待调度状态,可能因资源不足、节点亲和性等原因导致。
    • Running(蓝色):Pod 正常运行中。
    • Succeeded(绿色):Pod 执行完成并成功退出(如一次性任务)。
    • Failed(红色):Pod 执行失败,容器异常退出。
    • Idle(浅灰色):Pod 无实际业务负载,处于空闲状态。
  • 监控逻辑:按节点统计 Pod 状态分布,重点关注 Failed 状态的 Pod 占比。

7. 节点健康状态

  • 状态说明
    • ready(绿色):节点正常,可调度 Pod。
    • Readonly filesystem(黄色):节点文件系统只读,可能因磁盘故障导致。
    • 其他异常状态:如节点未就绪(NotReady),可能因网络、组件故障导致。
  • 监控逻辑:统计各状态的节点数量占比,反映集群节点的整体健康度。

三、告警规则配置

监控指标 告警级别 触发条件 通知方式
节点数量骤减 严重 节点数量在5分钟内减少≥2个 邮件、短信
CPU使用率≥85% 警告 持续时间≥5分钟 邮件
内存使用率≥90% 严重 持续时间≥3分钟 邮件、短信
Pod失败率≥10% 警告 单个节点上Failed Pod占比≥10% 邮件
节点异常状态占比≥30% 严重 异常状态(非ready)节点占比≥30% 邮件、短信

四、告警处理流程

1. 收到告警后,先定位异常节点

  • 通过“节点选择器”筛选异常节点,查看其详细监控面板(如CPU、内存、磁盘的实时曲线)。

2. 分析异常原因

  • 节点数量骤减:登录云平台或物理机查看节点是否宕机,检查节点日志(journalctl -u kubelet)。
  • CPU/内存使用率高:执行 kubectl top nodes 查看节点资源占用,再执行 kubectl top pods 定位资源消耗高的Pod,可考虑扩容节点或限制Pod资源。
  • Pod失败率高:执行 kubectl describe pod <pod-name> 查看Pod事件,或 kubectl logs <pod-name> 查看容器日志,分析失败原因(如镜像拉取失败、配置错误)。
  • 节点健康状态异常:执行 kubectl describe node <node-name> 查看节点条件(Conditions),若为“Readonly filesystem”,检查磁盘状态(df -h);若为“NotReady”,检查kubelet服务状态(systemctl status kubelet)。

3. 处理与恢复

  • 节点宕机:若为云服务器,尝试重启节点;若为物理机,检查硬件故障。
  • 资源不足:调整Pod的资源请求(requests)和限制(limits),或新增节点扩容。
  • Pod配置错误:修改Deployment/YAML配置,重新部署Pod。
  • 磁盘故障:修复磁盘或迁移节点上的Pod,避免数据丢失。

五、最佳实践

  1. 定期巡检:每日查看节点维度监控总览,关注指标趋势变化。
  2. 阈值调优:根据业务实际负载调整CPU、内存的告警阈值,避免误报或漏报。
  3. 自动化联动:结合运维平台,将告警与自动化修复脚本联动(如自动重启异常Pod)。

通过以上文档,您可快速掌握节点维度监控告警的核心逻辑与处理方法,保障集群的稳定运行。

作者:叶奕珺  创建时间:2025-11-03 17:23
最后编辑:叶奕珺  更新时间:2025-11-04 11:36