容器资源总览

一、文档概述

本文档旨在指导用户理解容器资源总览面板的监控逻辑、资源状态标识及异常告警处理流程,帮助用户高效识别并解决容器资源异常,保障容器平台稳定运行。

二、资源状态展示说明

容器资源总览面板通过环形图直观展示各类资源的运行状态,涵盖以下资源类型:

  • 无状态工作负载
  • 有状态工作负载
  • 普通任务
  • 自动伸缩
  • 容器组
  • 容器
  • 网络端点
  • 节点
  • 命名空间
  • 守护进程集(可选展示)

环形图中,蓝色区域代表正常资源红色区域代表异常资源,并以“正常数量/总数量”的格式标注资源状态(如3026/3053表示该类型资源中3026个正常、总计3053个)。红色区域会标注具体状态类型(如“异常”“失败”“未就绪”),用于区分不同问题类型。

三、正常资源识别

当鼠标移动到环形图的蓝色正常区域时,会弹出提示框展示当前集群正常资源的详细信息,包括:

  • 资源类型(如“守护进程集 - 正常”)
  • 资源总计数量
  • 所属区域(如“华东-上海”)
  • 区域内正常资源数量

示例:“守护进程集 - 正常(总计:7) 华东-上海 7”

四、异常资源识别与处理

1. 异常状态标识

环形图红色区域会标注异常类型,常见类型及含义如下:

  • 异常:资源存在运行故障,需立即关注
  • 失败:任务类资源执行逻辑失败
  • 未就绪:资源未处于可服务状态

2. 异常详情查看

当鼠标移动到环形图的红色异常区域时,会弹出详细列表展示异常资源信息,包括:

  • 异常资源类型(如“守护进程集 - 异常”)
  • 异常资源总数
  • 异常资源路径(如“华东-上海 > elk > filebeat”)
  • 每个异常资源的数量

示例:“华东-上海 > kube-system > node-problem-detector”

3. 异常处理流程

  1. 定位异常资源:通过环形图红色区域识别异常资源类型,鼠标悬停查看异常详情列表。
  2. 跳转详情页:点击异常资源路径链接,快速前往资源详情页。
  3. 分析与修复:在详情页查看资源日志、事件等信息,定位问题后执行修复操作(如重启资源、调整配置、扩容等)。
  4. 验证恢复:修复后返回容器资源总览面板,确认异常区域消失、资源状态恢复正常。

五、告警规则说明

1. 告警触发条件

当出现以下情况时,将触发告警:

  • 特定类型资源异常数量超过预设阈值(如无状态工作负载异常数≥5)。
  • 出现严重级别的异常类型(如影响核心业务的“异常”状态)。

2. 告警级别与通知方式

告警级别 说明 通知方式
严重 核心资源异常,影响业务 邮件、短信、平台弹窗
警告 非核心资源异常,需关注 邮件、平台弹窗

3. 告警处理优先级

优先处理严重级别且属于核心业务资源(如无状态工作负载、容器组)的异常,再处理警告级别及非核心资源异常。

六、常见问题解答

  1. 环形图中“X/Y”数值代表什么?
    表示该资源类型中正常数量/总数量,其中Y为资源总数,X为当前正常运行的资源数。

  2. 如何快速定位异常资源的详情?
    将鼠标移动到环形图红色异常区域,在弹出的列表中点击异常资源路径即可跳转至详情页。

  3. “未就绪”“失败”“异常”状态有何区别?

    • 未就绪:资源未完成初始化或处于不可服务状态,多为启动过程临时状态或配置问题。
    • 失败:任务类资源(如普通任务)执行逻辑失败,需检查任务定义或依赖。
    • 异常:资源运行时出现故障(如崩溃、资源不足),影响业务可用性,需紧急处理。

容器资源总览展示了当前集群下所有容器相关的资源总数统计,包括正常和异常资源的统计,以及异常资源的列表。

正常资源展示

① 鼠标移动到蓝色正常区域,会展示当前集群正常资源的数量

异常资源展示

① 鼠标移动到红色异常区域,会展示当前异常资源的详细列表
② 点击列表中的连接,可以快速前往异常资源的详情进行查看

作者:叶奕珺  创建时间:2024-08-14 10:06
最后编辑:叶奕珺  更新时间:2025-11-04 11:36