监控中心

一、概述

告警中心是监控系统的核心模块之一,用于实时捕获集群、命名空间、容器组等多维度资源的异常状态,通过分级告警机制及时向用户传递系统风险。结合图表中心的可视化分析能力与监控大盘的多集群、多云全局视图,形成“全局态势-指标分析-告警处置”的完整闭环,助力快速定位并解决问题,保障系统稳定运行。

二、告警级别说明

级别 标识 含义 处置建议
致命 🔴 系统存在严重故障,可能导致服务中断、数据丢失 立即处理,优先排查资源可用性
警告 🟠 系统存在潜在风险,长期不处理可能演变为致命故障 尽快处理,分析风险并制定优化方案
提示 🔵 系统存在轻微异常,对服务影响较低 按需处理,结合业务优先级安排排查
资源状态正常 持续监控,关注后续变化

三、功能模块

1. 告警总览

聚合展示各类告警的统计分布趋势变化,帮助用户快速掌握系统整体告警态势(如致命告警数量、告警类型占比等)。

2. 分级告警列表

按“致命、警告、提示”级别分类呈现告警详情,每条告警包含触发时间、涉及资源(集群/容器组等)、告警原因等关键信息,支持按“资源类型、时间范围”筛选查询。

3. 告警详情与处置

点击告警可查看触发条件、影响范围推荐处置步骤,用户可在该模块标记告警处置状态(如“已处理”“待跟进”)。

4. 图表中心

集成Grafana核心功能,支持在网页内直接嵌入并展示Grafana监控图表,为告警分析提供可视化数据支撑。

  • 核心能力:覆盖集群、命名空间、节点、容器等多维度监控指标(如CPU利用率、内存使用率、网络吞吐量等),可查看实时数据与历史趋势曲线;
  • 联动告警:支持从告警详情页直接跳转至关联资源的图表页面,快速定位告警触发时段的指标异常,辅助分析问题根源;
  • 灵活配置:支持自定义图表时间范围、指标维度,满足不同场景下的精细化分析需求。

5. 监控大盘

作为多集群、多云环境的全局可视化总览入口,融合跨集群、跨云平台(如阿里云、私有云等)的监控数据,提供直观的全局态势感知能力。

  • 地理分布视图:以地图形式展示各区域集群的分布与运行状态,支持“中国视图/全球视图”切换,快速定位区域级资源与告警集中点(如附件中河南区域的集群状态);
  • 多维度指标看板
    • 告警统计:以时间维度呈现一周内“提示、警告、致命”三类告警的分布趋势,辅助识别告警高发时段与类型;
    • 资源利用率:实时展示CPU、内存、磁盘等核心资源的整体使用率曲线,把握全局资源负载;
    • 性能指标采样:通过雷达图、趋势曲线等形式,分析CPU利用率、内存使用率、磁盘IO、网络吞吐等关键性能指标在不同环境(如阿里云生产、GPU集群、测试环境)的表现差异;
  • 集群/云平台筛选:支持按集群(如“叶奕珺的测试环境”“华东-测试”)、云平台类型进行数据筛选,聚焦特定环境的监控态势;
  • 资源总览:展示全局资源开机率、CPU核数、内存容量等核心资源的总量与使用情况,辅助资源规划决策。

四、操作指南

1. 告警订阅

支持按“告警级别、资源类型”自定义订阅规则,通知方式涵盖邮件、短信、站内信等,确保关键告警不遗漏。

2. 告警排查流程

  1. 收到告警后,先查看告警详情(资源类型、触发原因);
  2. 点击详情页中的“查看关联图表”,跳转至图表中心,结合Grafana可视化数据(如指标突变点、趋势异常)分析资源负载变化;
  3. 如需全局态势参考,可切换至监控大盘,查看跨集群/多云的资源与告警分布,定位问题是否具有区域性或平台级特征;
  4. 针对异常资源,结合图表数据与大盘视图检查其配置、日志、依赖关系,定位问题根源;
  5. 执行处置操作后,通过图表中心确认指标是否恢复正常,同步更新告警处置状态,并在监控大盘中验证全局态势是否改善。

3. 历史告警查询

支持按“时间区间、资源类型”查询历史告警记录,结合图表中心的历史数据曲线与监控大盘的历史趋势,便于追溯系统问题、总结故障规律。

4. 图表中心使用

  • 从左侧导航进入“图表中心”,可按资源类型(集群/命名空间等)筛选预设图表;
  • 自定义分析:通过“时间范围选择器”(如近1小时、近24小时)调整数据周期,或添加/隐藏指标维度,聚焦关键数据;
  • 关联告警:在图表页点击“关联告警”按钮,可查看该时段内该资源的所有告警记录,实现数据与告警的联动分析。

5. 监控大盘操作

  • 视图切换:点击“点击查看全球视图”可在“中国视图/全球视图”间切换,查看不同地理范围的集群分布;
  • 环境筛选:通过下方“全部”“叶奕珺的测试环境”“华东-测试”等标签,筛选特定集群或云平台的监控数据;
  • 指标钻取:点击资源利用率曲线、性能采样图表等,可跳转至图表中心的详情页,查看更细粒度的指标数据;
  • 告警联动:在“一周告警统计”模块点击具体告警类型或时段,可跳转至告警中心的对应筛选列表,快速定位该时段/类型的告警详情。

五、常见问题

1. 为何频繁收到某类告警?

可能是资源配置不合理(如CPU/内存限制过低)或业务流量突增导致。建议通过图表中心查看资源指标趋势,结合监控大盘的跨集群/多云负载分布,分析负载峰值规律,调整资源配额或优化业务逻辑。

2. 如何屏蔽误报告警?

进入告警详情页,若确认告警为误报,可设置告警屏蔽规则,避免同类误报重复通知。

3. 告警处理后状态未更新?

需确认处置操作是否彻底解决了告警触发条件。可通过图表中心检查指标是否恢复至正常阈值,若问题未根治,告警状态可能不会更新,建议重新排查。

4. 图表中心数据与监控中心不一致?

图表中心数据来源于Grafana原生采集,与监控中心总览页数据同步周期一致(默认5分钟),若存在短时差异属正常现象,可刷新页面或延长时间范围查看。

5. 监控大盘的地理分布与实际集群位置不符?

可在“监控大盘-设置”中维护集群的地理信息,确保地图上的集群位置与实际部署区域一致,提升全局视图的准确性。