概述

本图表集中展示 Kubernetes 集群各类核心资源的使用状态与健康状况,为运维人员提供集群运行状况的全局视图。

主要功能

1. 可视化健康状态展示

  • 环形图可视化:每个核心资源类型均以环形图形式直观展示正常与异常比例
  • 颜色编码
    • 蓝色区域:代表正常健康的资源
    • 红色区域:代表存在异常的资源
    • 区域大小比例反映异常资源占比

2. 实时状态信息查询

  • 正常资源统计:实时显示各类资源的健康数量
  • 异常资源明细:详细列出存在问题的具体资源实例
  • 状态动态更新:所有数据实时同步集群状态变化

3. 快速导航与排查

  • 一键直达详情:直接从异常列表跳转到具体资源管理页面
  • 上下文关联:保持导航上下文,便于深入分析

交互操作

1. 查看正常资源统计

操作步骤:

  1. 将鼠标悬停在环形图的蓝色区域
  2. 系统将显示提示框,展示:
    • 该资源类型的正常数量
    • 资源总数
    • 正常率百分比

使用场景示例:

  • 快速确认集群中健康节点的数量
  • 查看已成功部署的Deployment比例
  • 监控Pod就绪率变化趋势

2. 查看异常资源详情

操作步骤:

  1. 将鼠标悬停在环形图的红色区域
  2. 系统将展开异常资源列表,显示:
    • 异常资源名称/标识
    • 所属命名空间
    • 异常状态简述
    • 异常持续时间(如可获取)

使用场景示例:

  • 发现具体哪个Deployment部署失败
  • 定位未就绪的Pod及其命名空间
  • 查看存储卷申领的异常状态

3. 跳转至异常详情页面

操作步骤:

  1. 在异常资源列表中,点击任意异常条目后的”查看详情”链接
  2. 系统将跳转到该资源的详细管理页面

使用场景示例:

  • 深入分析Pod未就绪的具体原因
  • 查看Deployment滚动更新的详细状态
  • 处理持久卷申领绑定问题

资源状态说明

1. 节点 (Node)

  • 正常状态:节点监控组件正常运行,能够正常采集指标数据
  • 异常状态:节点监控组件无法正常工作,无法采集该节点的指标数据

2. 命名空间 (Namespace)

  • 正常状态:命名空间处于Active活跃状态
  • 终止中状态:命名空间处于Terminating终止中状态

3. 无状态工作负载 (Deployment)

  • 异常状态:Deployment的状态条件中存在非”true”状态的条件,表示部署配置或运行状态存在问题

详细说明:
当Deployment的状态条件中存在非”true”的值时,表示该Deployment在部署或运行过程中遇到了问题。Deployment通常有以下几种状态条件需要监控:

  1. Available(可用性)条件

    • 当此条件为false时,表示Deployment没有达到期望的最小可用副本数
    • 可能原因:镜像拉取失败、资源配额不足、节点调度失败、健康检查未通过等
  2. Progressing(进行中)条件

    • 当此条件为false时,表示Deployment的滚动更新进度停滞
    • 可能原因:新版本Pod启动失败、旧版本Pod终止失败、就绪检查超时等
  3. ReplicaFailure(副本失败)条件

    • 当此条件为true时,表示创建或删除Pod副本时遇到了错误
    • 可能原因:节点资源不足、存储卷挂载失败、网络策略限制等

这些条件的异常通常意味着:

  • 新版本应用部署失败,需要检查镜像、配置或资源限制
  • 滚动更新被阻塞,可能因为新Pod无法达到就绪状态
  • Deployment无法维持期望的副本数,可能存在资源竞争或节点问题

4. 有状态工作负载 (StatefulSet)

  • 异常状态:StatefulSet的实际运行副本数与期望的就绪副本数不一致,存在副本未就绪的情况

5. 守护进程集 (DaemonSet)

  • 异常状态:DaemonSet期望调度的Pod数量与实际就绪的Pod数量不一致,存在节点上的Pod未就绪

6. 普通任务 (Job)

  • 异常状态:任务执行过程中出现了失败的情况

7. 定时任务 (CronJob)

  • 进行中状态:有定时任务正在执行中

8. 自动伸缩 (HPA/VPA)

  • 异常状态:水平Pod自动伸缩器的状态条件中存在非”true”状态的条件,表示伸缩功能存在问题

详细说明:
HPA(水平Pod自动伸缩器)的状态条件异常通常表示自动伸缩功能无法正常工作:

  1. AbleToScale(可伸缩)条件

    • 当此条件为false时,表示HPA无法获取当前指标或计算目标副本数
    • 可能原因:指标API不可用、配置的指标不存在、权限问题等
  2. ScalingActive(伸缩活跃)条件

    • 当此条件为false时,表示HPA被禁用或指标收集失败
    • 可能原因:HPA被暂停、指标服务器故障、资源指标配置错误等
  3. ScalingLimited(伸缩受限)条件

    • 当此条件为true时,表示HPA已达到配置的最大或最小副本数限制
    • 可能原因:配置的最小/最大副本数限制、资源配额限制等

9. 容器组 (Pod)

  • 未就绪状态:Pod未能达到就绪状态,且Pod并非处于正常完成状态

详细说明:
Pod未就绪意味着它虽然正在运行,但还没有准备好接收流量或提供服务。这种情况通常发生在:

  • 容器正在进行初始化
  • 就绪探针检查失败
  • 依赖的服务或资源尚未可用
  • 配置加载过程中

但需要排除Pod已成功执行完毕的情况,这种情况下Pod是正常结束而非异常。

10. 容器 (Container)

  • 未就绪状态:容器未能达到就绪状态,且其所在的Pod并非处于正常完成状态

详细说明:
容器未就绪表示容器进程正在运行,但内部服务尚未准备好处理请求。常见场景包括:

  • 应用正在启动或初始化
  • 数据库连接建立中
  • 配置文件加载未完成
  • 外部依赖项检查失败

11. 持久卷申领 (PVC)

  • 丢失状态:持久卷申领的状态为”Lost”,表示关联的持久卷已丢失
  • 等待中状态:持久卷申领的状态为”Pending”,表示正在等待持久卷的绑定

详细说明:

  1. Lost(丢失)状态

    • 表示PVC绑定的持久卷由于底层存储问题已不可用
    • 可能原因:存储后端故障、存储卷被意外删除、网络连接中断等
    • 影响:使用该PVC的Pod将无法访问数据,可能导致应用故障
  2. Pending(等待中)状态

    • 表示PVC正在等待合适的持久卷进行绑定
    • 可能原因:没有可用的持久卷、存储类配置错误、资源配额不足等
    • 注意:短暂的Pending状态是正常的,但长时间Pending需要关注

12. 网络端点 (Endpoint)

  • 未就绪状态:端点存在未就绪的地址,或者端点中同时存在就绪和未就绪的地址(表示部分地址未就绪)
作者:叶奕珺  创建时间:2024-08-14 10:06
最后编辑:叶奕珺  更新时间:2026-01-15 14:15