监控中心
一、概述
告警中心是监控系统的核心模块之一,用于实时捕获集群、命名空间、容器组等多维度资源的异常状态,通过分级告警机制及时向用户传递系统风险。结合图表中心的可视化分析能力与监控大盘的多集群、多云全局视图,形成“全局态势-指标分析-告警处置”的完整闭环,助力快速定位并解决问题,保障系统稳定运行。
二、告警级别说明
| 级别 | 标识 | 含义 | 处置建议 |
|---|---|---|---|
| 致命 | 🔴 | 系统存在严重故障,可能导致服务中断、数据丢失 | 立即处理,优先排查资源可用性 |
| 警告 | 🟠 | 系统存在潜在风险,长期不处理可能演变为致命故障 | 尽快处理,分析风险并制定优化方案 |
| 提示 | 🔵 | 系统存在轻微异常,对服务影响较低 | 按需处理,结合业务优先级安排排查 |
| 无 | ⚪ | 资源状态正常 | 持续监控,关注后续变化 |
三、功能模块
1. 告警总览
聚合展示各类告警的统计分布与趋势变化,帮助用户快速掌握系统整体告警态势(如致命告警数量、告警类型占比等)。
2. 分级告警列表
按“致命、警告、提示”级别分类呈现告警详情,每条告警包含触发时间、涉及资源(集群/容器组等)、告警原因等关键信息,支持按“资源类型、时间范围”筛选查询。
3. 告警详情与处置
点击告警可查看触发条件、影响范围及推荐处置步骤,用户可在该模块标记告警处置状态(如“已处理”“待跟进”)。
4. 图表中心
集成Grafana核心功能,支持在网页内直接嵌入并展示Grafana监控图表,为告警分析提供可视化数据支撑。
- 核心能力:覆盖集群、命名空间、节点、容器等多维度监控指标(如CPU利用率、内存使用率、网络吞吐量等),可查看实时数据与历史趋势曲线;
- 联动告警:支持从告警详情页直接跳转至关联资源的图表页面,快速定位告警触发时段的指标异常,辅助分析问题根源;
- 灵活配置:支持自定义图表时间范围、指标维度,满足不同场景下的精细化分析需求。
5. 监控大盘
作为多集群、多云环境的全局可视化总览入口,融合跨集群、跨云平台(如阿里云、私有云等)的监控数据,提供直观的全局态势感知能力。
- 地理分布视图:以地图形式展示各区域集群的分布与运行状态,支持“中国视图/全球视图”切换,快速定位区域级资源与告警集中点(如附件中河南区域的集群状态);
- 多维度指标看板:
- 告警统计:以时间维度呈现一周内“提示、警告、致命”三类告警的分布趋势,辅助识别告警高发时段与类型;
- 资源利用率:实时展示CPU、内存、磁盘等核心资源的整体使用率曲线,把握全局资源负载;
- 性能指标采样:通过雷达图、趋势曲线等形式,分析CPU利用率、内存使用率、磁盘IO、网络吞吐等关键性能指标在不同环境(如阿里云生产、GPU集群、测试环境)的表现差异;
- 集群/云平台筛选:支持按集群(如“叶奕珺的测试环境”“华东-测试”)、云平台类型进行数据筛选,聚焦特定环境的监控态势;
- 资源总览:展示全局资源开机率、CPU核数、内存容量等核心资源的总量与使用情况,辅助资源规划决策。
四、操作指南
1. 告警订阅
支持按“告警级别、资源类型”自定义订阅规则,通知方式涵盖邮件、短信、站内信等,确保关键告警不遗漏。
2. 告警排查流程
- 收到告警后,先查看告警详情(资源类型、触发原因);
- 点击详情页中的“查看关联图表”,跳转至图表中心,结合Grafana可视化数据(如指标突变点、趋势异常)分析资源负载变化;
- 如需全局态势参考,可切换至监控大盘,查看跨集群/多云的资源与告警分布,定位问题是否具有区域性或平台级特征;
- 针对异常资源,结合图表数据与大盘视图检查其配置、日志、依赖关系,定位问题根源;
- 执行处置操作后,通过图表中心确认指标是否恢复正常,同步更新告警处置状态,并在监控大盘中验证全局态势是否改善。
3. 历史告警查询
支持按“时间区间、资源类型”查询历史告警记录,结合图表中心的历史数据曲线与监控大盘的历史趋势,便于追溯系统问题、总结故障规律。
4. 图表中心使用
- 从左侧导航进入“图表中心”,可按资源类型(集群/命名空间等)筛选预设图表;
- 自定义分析:通过“时间范围选择器”(如近1小时、近24小时)调整数据周期,或添加/隐藏指标维度,聚焦关键数据;
- 关联告警:在图表页点击“关联告警”按钮,可查看该时段内该资源的所有告警记录,实现数据与告警的联动分析。
5. 监控大盘操作
- 视图切换:点击“点击查看全球视图”可在“中国视图/全球视图”间切换,查看不同地理范围的集群分布;
- 环境筛选:通过下方“全部”“叶奕珺的测试环境”“华东-测试”等标签,筛选特定集群或云平台的监控数据;
- 指标钻取:点击资源利用率曲线、性能采样图表等,可跳转至图表中心的详情页,查看更细粒度的指标数据;
- 告警联动:在“一周告警统计”模块点击具体告警类型或时段,可跳转至告警中心的对应筛选列表,快速定位该时段/类型的告警详情。
五、常见问题
1. 为何频繁收到某类告警?
可能是资源配置不合理(如CPU/内存限制过低)或业务流量突增导致。建议通过图表中心查看资源指标趋势,结合监控大盘的跨集群/多云负载分布,分析负载峰值规律,调整资源配额或优化业务逻辑。
2. 如何屏蔽误报告警?
进入告警详情页,若确认告警为误报,可设置告警屏蔽规则,避免同类误报重复通知。
3. 告警处理后状态未更新?
需确认处置操作是否彻底解决了告警触发条件。可通过图表中心检查指标是否恢复至正常阈值,若问题未根治,告警状态可能不会更新,建议重新排查。
4. 图表中心数据与监控中心不一致?
图表中心数据来源于Grafana原生采集,与监控中心总览页数据同步周期一致(默认5分钟),若存在短时差异属正常现象,可刷新页面或延长时间范围查看。
5. 监控大盘的地理分布与实际集群位置不符?
可在“监控大盘-设置”中维护集群的地理信息,确保地图上的集群位置与实际部署区域一致,提升全局视图的准确性。