集群维度图表展示

一、概述

集群级别监控模块从全局视角整合计算资源、容器资源、告警、事件、日志等多维度信息,为集群运维提供“资源态势-异常感知-问题定位-根因分析”的全流程支持,助力用户高效保障集群稳定运行。

二、计算资源总览

1. 功能概述

对集群CPU、内存两类核心计算资源的利用率、申请分配率、限制分配率进行宏观统计展示,涵盖CPU利用率、CPU申请分配率、CPU限制分配率、内存利用率、内存申请分配率、内存限制分配率等关键指标。

2. 核心价值

  • 快速感知集群计算资源的整体负载程度(如CPU、内存是否接近瓶颈)。
  • 识别资源分配饱和风险(如CPU限制分配率过高可能导致Pod被限流,内存限制分配率过高可能引发OOM)。
  • 辅助判断资源申请的合理性(如申请分配率过高但利用率低,可能存在资源过度申请)。

3. 使用场景

  • 集群日常资源巡检时,通过计算资源总览快速确认CPU、内存的整体负载是否在合理区间。
  • 集群出现资源相关故障(如Pod调度失败、应用性能下降)时,通过该模块定位是资源不足还是分配策略不合理。

三、容器资源总览

1. 功能概述

无状态工作负载、有状态工作负载、普通任务、自动伸缩、容器组(Pod)、容器、网络端点、节点、命名空间等维度,展示各类容器资源的总数、可用数、异常数、未就绪数等状态信息。

2. 核心价值

  • 宏观掌握容器层面各类资源的整体健康度(如是否存在大量异常工作负载、未就绪Pod)。
  • 快速定位容器级别的资源异常点(如某类工作负载异常占比高,可优先排查该类业务)。
  • 辅助判断集群容器资源的服务交付状态(如大量Pod未就绪可能影响业务可用性)。

3. 使用场景

  • 集群容器业务出现大范围异常时,通过容器资源总览快速锁定异常集中的资源类型(如无状态工作负载异常居多,可聚焦Deployment类资源排查)。
  • 新业务上线后,通过该模块确认各类容器资源的就绪状态,保障业务交付质量。

四、告警总览

功能概述

宏观统计视角呈现集群内告警的级别分布、资源类型分布、数量趋势等核心信息,直观反映集群当前告警的整体态势。

核心价值

  • 快速感知集群是否存在大规模告警高严重级别的告警风险
  • 辅助判断告警影响范围(如某类资源或某类级别告警集中爆发)。

使用场景

  • 集群日常巡检时,通过告警总览快速确认集群告警“健康度”。
  • 集群出现批量异常时,通过级别、资源类型分布定位风险核心领域。

五、告警列表

功能概述

明细化形式展示每一条告警的具体信息,包括告警时间、涉及资源、告警级别、触发原因、处理建议等。

核心价值

  • 支撑对单个告警的精准定位与处理,明确每一条告警的来龙去脉。
  • 实现告警的“可追溯、可处置”,避免遗漏关键告警。

使用场景

  • 针对单条告警进行故障排查时,通过告警列表获取详细信息(如某Pod持续CPU告警,可查看其具体触发阈值、当前值等)。
  • 跟踪告警处理进度,确认告警是否已解决或需进一步处置。

六、事件总览

功能概述

对集群内Kubernetes事件进行类型、资源维度的统计汇总,包括事件类型(正常/警告)、涉及资源(节点/Pod/命名空间)、数量趋势等宏观信息。

核心价值

  • 宏观把握集群事件的分布规律与动态变化,识别事件集中爆发的资源或时间窗口。
  • 辅助判断集群是否存在“事件风暴”(如某节点频繁产生异常事件)。

使用场景

  • 集群资源调度异常时,通过事件总览定位是否因某类资源(如节点)事件集中导致。
  • 日常运维中,通过事件类型分布判断集群运行的“隐性风险”(如警告类事件占比过高)。

七、事件列表

功能概述

详细列出每一条Kubernetes事件的具体内容,包括事件时间、涉及资源、事件类型、原因描述、事件状态等。

核心价值

  • 深入分析事件对集群的具体影响,追溯问题根源(如某Pod调度失败的具体原因是节点资源不足)。
  • 实现事件的“全生命周期跟踪”,明确事件的产生、发展和解决过程。

使用场景

  • 排查Pod启动失败、资源调度异常等问题时,通过事件列表查看具体触发事件(如“Pod因内存不足被驱逐”事件)。
  • 分析集群组件(如kubelet、controller-manager)的运行状态,通过事件判断是否存在组件异常。

八、日志总览

功能概述

从全局视角展示集群日志的产生量、级别分布(错误/警告/信息)、命名空间/应用维度的分布等宏观信息。

核心价值

  • 为日志分析和故障排查提供宏观指引,快速定位日志密集或高风险级别的命名空间/应用。
  • 辅助判断集群是否存在“日志风暴”或某类级别日志集中爆发的情况。

使用场景

  • 集群出现大范围故障时,通过日志总览快速锁定高错误日志占比的应用,缩小排查范围。
  • 日常日志治理中,通过日志量分布优化日志存储策略(如对日志量过大的应用单独配置存储规则)。

九、模块协同价值

计算资源总览、容器资源总览为资源层面的态势感知提供基础,告警、事件、日志模块则聚焦异常处置与根因分析

  • 先通过计算&容器资源总览掌握资源整体健康度,再通过告警/事件/日志模块定位具体异常;
  • 从“资源负载”发现潜在风险,通过“告警”明确异常,结合“事件”“日志”追溯根因,实现集群故障的全链路高效处理。
作者:叶奕珺  创建时间:2025-11-03 16:11
最后编辑:叶奕珺  更新时间:2025-11-04 11:36