概述
消息管理、通知主题与订阅功能共同构建了一套分层式事件响应体系,实现从 告警捕获 → 内容编排 → 精准推送 的全链路自动化管理,适用于复杂运维场景下的多角色协作与分级告警需求。
核心功能
1. 消息管理
- 功能定位:统一管理通知渠道、模板及发送策略,确保消息可达性与一致性。
- 核心能力:
- 多通道支持:集成邮件、企业微信、钉钉、Slack、Webhook等主流通知方式。
- 模板引擎:支持动态变量(如
{{.Event.Message}}
)和Markdown富文本,区分技术/业务视角模板。 - 重试与审计:消息发送失败自动重试,记录推送状态(成功/失败)及接收人反馈。
- 权限隔离:按团队/环境划分消息发送权限(如仅允许运维组配置电话告警)。
2. 通知主题
- 功能定位:将消息按业务场景分类,定义 “谁接收什么内容,通过什么渠道”。
- 核心能力:
- 逻辑分组:创建主题(如
生产核心服务告警
、存储系统异常
)聚合同类事件。 - 动态路由:
- 静态路由:直接绑定接收人列表。
- 动态路由:基于标签匹配接收人(如
role=sre
自动关联运维工程师)。
- 分级策略:
- 按事件严重级切换主题(如P0事件升级至“紧急响应”主题,触发电话通知)。
- 非工作时间静默或切换至低优先级通道。
- 逻辑分组:创建主题(如
3. 订阅功能
- 功能定位:定义事件触发规则,关联至指定主题,实现 “特定事件 → 特定主题 → 特定受众” 的定向通知。
- 核心能力:
- 规则引擎:支持多条件组合(
Namespace
+Reason
+资源标签
),正则表达式匹配。 - 抑制策略:
- 时间窗口抑制:相同事件10分钟内不重复告警。
- 依赖抑制:若父资源(如Deployment)已告警,忽略关联Pod事件。
- 自动化联动:订阅触发后可通过Webhook执行预设操作(如重启服务、触发工单)。
- 规则引擎:支持多条件组合(
作者:叶奕珺 创建时间:2025-03-06 12:05
最后编辑:叶奕珺 更新时间:2025-04-07 16:06
最后编辑:叶奕珺 更新时间:2025-04-07 16:06