集群维度图表展示
一、概述
二、计算资源总览
1. 功能概述
2. 核心价值
3. 使用场景
三、容器资源总览
1. 功能概述
2. 核心价值
3. 使用场景
四、告警总览
功能概述
核心价值
使用场景
五、告警列表
功能概述
核心价值
使用场景
六、事件总览
功能概述
核心价值
使用场景
七、事件列表
功能概述
核心价值
使用场景
八、日志总览
功能概述
核心价值
使用场景
九、模块协同价值

集群维度图表展示

一、概述

集群级别监控模块从全局视角整合计算资源、容器资源、告警、事件、日志等多维度信息，为集群运维提供“资源态势-异常感知-问题定位-根因分析”的全流程支持，助力用户高效保障集群稳定运行。

二、计算资源总览

1. 功能概述

对集群CPU、内存两类核心计算资源的利用率、申请分配率、限制分配率进行宏观统计展示，涵盖CPU利用率、CPU申请分配率、CPU限制分配率、内存利用率、内存申请分配率、内存限制分配率等关键指标。

2. 核心价值

快速感知集群计算资源的整体负载程度（如CPU、内存是否接近瓶颈）。
识别资源分配饱和风险（如CPU限制分配率过高可能导致Pod被限流，内存限制分配率过高可能引发OOM）。
辅助判断资源申请的合理性（如申请分配率过高但利用率低，可能存在资源过度申请）。

3. 使用场景

集群日常资源巡检时，通过计算资源总览快速确认CPU、内存的整体负载是否在合理区间。
集群出现资源相关故障（如Pod调度失败、应用性能下降）时，通过该模块定位是资源不足还是分配策略不合理。

三、容器资源总览

1. 功能概述

从无状态工作负载、有状态工作负载、普通任务、自动伸缩、容器组（Pod）、容器、网络端点、节点、命名空间等维度，展示各类容器资源的总数、可用数、异常数、未就绪数等状态信息。

2. 核心价值

宏观掌握容器层面各类资源的整体健康度（如是否存在大量异常工作负载、未就绪Pod）。
快速定位容器级别的资源异常点（如某类工作负载异常占比高，可优先排查该类业务）。
辅助判断集群容器资源的服务交付状态（如大量Pod未就绪可能影响业务可用性）。

3. 使用场景

集群容器业务出现大范围异常时，通过容器资源总览快速锁定异常集中的资源类型（如无状态工作负载异常居多，可聚焦Deployment类资源排查）。
新业务上线后，通过该模块确认各类容器资源的就绪状态，保障业务交付质量。

四、告警总览

功能概述

以宏观统计视角呈现集群内告警的级别分布、资源类型分布、数量趋势等核心信息，直观反映集群当前告警的整体态势。

核心价值

快速感知集群是否存在大规模告警或高严重级别的告警风险。
辅助判断告警影响范围（如某类资源或某类级别告警集中爆发）。

使用场景

集群日常巡检时，通过告警总览快速确认集群告警“健康度”。
集群出现批量异常时，通过级别、资源类型分布定位风险核心领域。

五、告警列表

功能概述

以明细化形式展示每一条告警的具体信息，包括告警时间、涉及资源、告警级别、触发原因、处理建议等。

核心价值

支撑对单个告警的精准定位与处理，明确每一条告警的来龙去脉。
实现告警的“可追溯、可处置”，避免遗漏关键告警。

使用场景

针对单条告警进行故障排查时，通过告警列表获取详细信息（如某Pod持续CPU告警，可查看其具体触发阈值、当前值等）。
跟踪告警处理进度，确认告警是否已解决或需进一步处置。

六、事件总览

功能概述

对集群内Kubernetes事件进行类型、资源维度的统计汇总，包括事件类型（正常/警告）、涉及资源（节点/Pod/命名空间）、数量趋势等宏观信息。

核心价值

宏观把握集群事件的分布规律与动态变化，识别事件集中爆发的资源或时间窗口。
辅助判断集群是否存在“事件风暴”（如某节点频繁产生异常事件）。

使用场景

集群资源调度异常时，通过事件总览定位是否因某类资源（如节点）事件集中导致。
日常运维中，通过事件类型分布判断集群运行的“隐性风险”（如警告类事件占比过高）。

七、事件列表

功能概述

详细列出每一条Kubernetes事件的具体内容，包括事件时间、涉及资源、事件类型、原因描述、事件状态等。

核心价值

深入分析事件对集群的具体影响，追溯问题根源（如某Pod调度失败的具体原因是节点资源不足）。
实现事件的“全生命周期跟踪”，明确事件的产生、发展和解决过程。

使用场景

排查Pod启动失败、资源调度异常等问题时，通过事件列表查看具体触发事件（如“Pod因内存不足被驱逐”事件）。
分析集群组件（如kubelet、controller-manager）的运行状态，通过事件判断是否存在组件异常。

八、日志总览

功能概述

从全局视角展示集群日志的产生量、级别分布（错误/警告/信息）、命名空间/应用维度的分布等宏观信息。

核心价值

为日志分析和故障排查提供宏观指引，快速定位日志密集或高风险级别的命名空间/应用。
辅助判断集群是否存在“日志风暴”或某类级别日志集中爆发的情况。

使用场景

集群出现大范围故障时，通过日志总览快速锁定高错误日志占比的应用，缩小排查范围。
日常日志治理中，通过日志量分布优化日志存储策略（如对日志量过大的应用单独配置存储规则）。

九、模块协同价值

计算资源总览、容器资源总览为资源层面的态势感知提供基础，告警、事件、日志模块则聚焦异常处置与根因分析：

先通过计算&容器资源总览掌握资源整体健康度，再通过告警/事件/日志模块定位具体异常；
从“资源负载”发现潜在风险，通过“告警”明确异常，结合“事件”“日志”追溯根因，实现集群故障的全链路高效处理。

作者：叶奕珺创建时间：2025-11-03 16:11
最后编辑：叶奕珺更新时间：2025-11-04 11:36