监控中心

概述
告警级别说明
功能模块
1. 告警总览
2. 分级告警列表
3. 告警详情与处置
4. 图表中心
5. 监控大盘
操作指南
1. 告警订阅
2. 告警排查流程
3. 历史告警查询
4. 图表中心使用
5. 监控大盘操作
常见问题
1. 为何频繁收到某类告警？
2. 如何屏蔽误报告警？
3. 告警处理后状态未更新？
4. 图表中心数据与监控中心不一致？
5. 监控大盘的地理分布与实际集群位置不符？

概述

告警中心是监控系统的核心模块之一，用于实时捕获集群、命名空间、容器组等多维度资源的异常状态，通过分级告警机制及时向用户传递系统风险。结合图表中心的可视化分析能力与监控大盘的多集群、多云全局视图，形成“全局态势-指标分析-告警处置”的完整闭环，助力快速定位并解决问题，保障系统稳定运行。

告警级别说明

级别	标识	含义	处置建议
致命	🔴	系统存在严重故障，可能导致服务中断、数据丢失	立即处理，优先排查资源可用性
警告	🟠	系统存在潜在风险，长期不处理可能演变为致命故障	尽快处理，分析风险并制定优化方案
信息	🔵	系统存在轻微异常，对服务影响较低	按需处理，结合业务优先级安排排查
无	⚪	资源状态正常	持续监控，关注后续变化

功能模块

1. 告警总览

聚合展示各类告警的统计分布与趋势变化，帮助用户快速掌握系统整体告警态势（如致命告警数量、告警类型占比等）。

2. 分级告警列表

按“致命、警告、提示”级别分类呈现告警详情，每条告警包含触发时间、涉及资源（集群/容器组等）、告警原因等关键信息，支持按“资源类型、时间范围”筛选查询。

3. 告警详情与处置

点击告警可查看触发条件、影响范围及推荐处置步骤，用户可在该模块标记告警处置状态（如“已处理”“待跟进”）。

4. 图表中心

集成Grafana核心功能，支持在网页内直接嵌入并展示Grafana监控图表，为告警分析提供可视化数据支撑。

核心能力：覆盖集群、命名空间、节点、容器等多维度监控指标（如CPU利用率、内存使用率、网络吞吐量等），可查看实时数据与历史趋势曲线；
联动告警：支持从告警详情页直接跳转至关联资源的图表页面，快速定位告警触发时段的指标异常，辅助分析问题根源；
灵活配置：支持自定义图表时间范围、指标维度，满足不同场景下的精细化分析需求。

5. 监控大盘

作为多集群、多云环境的全局可视化总览入口，融合跨集群、跨云平台（如阿里云、私有云等）的监控数据，提供直观的全局态势感知能力。

地理分布视图：以地图形式展示各区域集群的分布与运行状态，支持“中国视图/全球视图”切换，快速定位区域级资源与告警集中点（如附件中河南区域的集群状态）；
多维度指标看板：
- 告警统计：以时间维度呈现一周内“提示、警告、致命”三类告警的分布趋势，辅助识别告警高发时段与类型；
- 资源利用率：实时展示CPU、内存、磁盘等核心资源的整体使用率曲线，把握全局资源负载；
- 性能指标采样：通过雷达图、趋势曲线等形式，分析CPU利用率、内存使用率、磁盘IO、网络吞吐等关键性能指标在不同环境（如阿里云生产、GPU集群、测试环境）的表现差异；
集群/云平台筛选：支持按集群（如“叶奕珺的测试环境”“华东-测试”）、云平台类型进行数据筛选，聚焦特定环境的监控态势；
资源总览：展示全局资源开机率、CPU核数、内存容量等核心资源的总量与使用情况，辅助资源规划决策。

操作指南

1. 告警订阅

支持按“告警级别、资源类型”自定义订阅规则，通知方式涵盖邮件、短信、站内信等，确保关键告警不遗漏。

2. 告警排查流程

收到告警后，先查看告警详情（资源类型、触发原因）；
点击详情页中的“查看关联图表”，跳转至图表中心，结合Grafana可视化数据（如指标突变点、趋势异常）分析资源负载变化；
如需全局态势参考，可切换至监控大盘，查看跨集群/多云的资源与告警分布，定位问题是否具有区域性或平台级特征；
针对异常资源，结合图表数据与大盘视图检查其配置、日志、依赖关系，定位问题根源；
执行处置操作后，通过图表中心确认指标是否恢复正常，同步更新告警处置状态，并在监控大盘中验证全局态势是否改善。

3. 历史告警查询

支持按“时间区间、资源类型”查询历史告警记录，结合图表中心的历史数据曲线与监控大盘的历史趋势，便于追溯系统问题、总结故障规律。

4. 图表中心使用

从左侧导航进入“图表中心”，可按资源类型（集群/命名空间等）筛选预设图表；
自定义分析：通过“时间范围选择器”（如近1小时、近24小时）调整数据周期，或添加/隐藏指标维度，聚焦关键数据；
关联告警：在图表页点击“关联告警”按钮，可查看该时段内该资源的所有告警记录，实现数据与告警的联动分析。

5. 监控大盘操作

视图切换：点击“点击查看全球视图”可在“中国视图/全球视图”间切换，查看不同地理范围的集群分布；
环境筛选：通过下方“全部”“叶奕珺的测试环境”“华东-测试”等标签，筛选特定集群或云平台的监控数据；
指标钻取：点击资源利用率曲线、性能采样图表等，可跳转至图表中心的详情页，查看更细粒度的指标数据；
告警联动：在“一周告警统计”模块点击具体告警类型或时段，可跳转至告警中心的对应筛选列表，快速定位该时段/类型的告警详情。

常见问题

1. 为何频繁收到某类告警？

可能是资源配置不合理（如CPU/内存限制过低）或业务流量突增导致。建议通过图表中心查看资源指标趋势，结合监控大盘的跨集群/多云负载分布，分析负载峰值规律，调整资源配额或优化业务逻辑。

2. 如何屏蔽误报告警？

进入告警详情页，若确认告警为误报，可设置告警屏蔽规则，避免同类误报重复通知。

3. 告警处理后状态未更新？

需确认处置操作是否彻底解决了告警触发条件。可通过图表中心检查指标是否恢复至正常阈值，若问题未根治，告警状态可能不会更新，建议重新排查。

4. 图表中心数据与监控中心不一致？

图表中心数据来源于Grafana原生采集，与监控中心总览页数据同步周期一致（默认5分钟），若存在短时差异属正常现象，可刷新页面或延长时间范围查看。

5. 监控大盘的地理分布与实际集群位置不符？

可在“监控大盘-设置”中维护集群的地理信息，确保地图上的集群位置与实际部署区域一致，提升全局视图的准确性。

作者：叶奕珺创建时间：2019-07-22 14:25
最后编辑：叶奕珺更新时间：2026-01-15 14:15