操作步骤

1. 打开订阅面板

  • 登录云平台,切换模块至【AOM 告警中心】
  • 在左侧导航栏点击【告警】 -> 【告警规则】,点击【订阅规则】,即可进入【订阅规则】页面。

2. 配置订阅规则

请按以下步骤设置相关参数:

  • 订阅开关:开启后可修改订阅配置;关闭后云平台将停止发送相关通知。

  • 选择通知主题:从下拉列表中选择已创建的主题,用于接收通知。

  • 新建通知主题:若当前无可用主题,请点击“创建主题”进行新建。

  • 刷新主题列表:完成主题创建并返回本页面后,点击“刷新”按钮,即可看到新创建的主题。

  • 选择命名空间:选择您需要监控告警发生的特定命名空间。

  • 选择资源类型:资源类型指Kubernetes中定义的各种对象类型。在此勾选您希望监控哪些类型的Kubernetes资源上发生的事件。

    • 通过开关控制“所有资源类型”的启用状态;
    • 开启时默认订阅全部资源类型触发的告警;
    • 关闭后可在下方进行具体资源类型的指定。
  • 选择告警级别:用于标识告警的严重程度,帮助您确定响应的优先级和方式。通常分为:

    • 🔴 致命(critical ):需要立即处理的关键故障,可能导致服务中断或数据丢失,如节点宕机、核心服务不可用。
    • 🟠 警告(warning ):重要功能受影响但服务仍可降级运行,如资源使用率持续高位、副本数不足。
    • 🔵 信息(info ):潜在问题或需要注意的情况,暂时不影响核心功能,如资源使用率接近阈值、偶发性错误。
    • ⚪ 无(none):一般性的状态变更或通知,通常无需立即干预,如弹性伸缩触发、配置变更记录。
      请根据您的运维策略选择需要接收的告警级别。
  • 选择告警规则:告警规则是预定义的监控条件,当满足这些条件时系统会自动触发告警通知。云平台提供了丰富的预置告警规则,包括:

    • 容器OOMKilled(KubeContainerOOMKilled):容器因内存耗尽(Out Of Memory)被系统强制终止
    • Pod未就绪(KubePodNotReady):Pod 未达到就绪状态,无法接收流量
    • Pod循环崩溃(KubePodCrashLooping):Pod 中的容器反复崩溃并重启,进入 CrashLoopBackOff 状态
    • 容器被重启(KubeContainerRestart):容器因异常退出后被自动重启
    • 任务失败(KubeJobFailed):任务未能成功完成,可能导致数据处理、批量任务等无法正常完成。
      您可以:
    • 默认选择 接受所有系统告警 进行订阅。
    • 关闭接受所有系统告警后,在下方列表中手动勾选需要的具体告警规则。
  • 快速搜索告警规则

    • 在搜索框中输入关键词,快速定位特定告警规则。
  • 确认订阅的告警规则

    • 查看并确认已选择的告警规则列表。
  • 保存设置

    • 保存后,若订阅开关处于开启状态,云平台会将符合上述条件的告警通知发送至所选的通知主题(如企业微信群等)。
    • 若订阅关闭,则停止发送通知。
作者:叶奕珺  创建时间:2025-04-07 15:01
最后编辑:叶奕珺  更新时间:2026-01-15 14:15