概述
通过借助 AI智能体 和 监控配置平台(MCP),通过自然语言快速定制个性化监控大盘,简化操作流程,大幅提升配置效率与使用体验。
效果展示
用户输入监控需求:
自动生成监控JSON:
核心理念:
AI智能体: 理解自然语言需求(例如:“帮我看看最近一小时北京区域订单服务的错误率变化”)。
监控配置平台(MCP): 提供底层数据源接入、指标管理、图表组件和大盘编排能力。
协同工作: AI智能体解析用户意图,自动调用MCP的API或执行配置操作,将用户描述转化为实际的监控图表。
一、 核心功能与优势
1. 自然语言创建图表:
操作: 无需手动选择数据源、配置复杂查询、选择图表类型。直接告诉AI您想看什么。
示例指令:
“创建一个折线图,展示 order-service 服务过去24小时的 API请求延迟P99。”
“给我看一张 上海机房 所有主机 CPU使用率 的实时热力图。”
“对比一下 生产环境 和 预发布环境 的 支付成功率 在过去一周的趋势。”
优势: 大幅降低技术门槛,业务、产品、运营人员也能快速创建所需监控视图。
2. 智能图表推荐与组合:
操作: 描述一个复杂场景,AI智能体会分析相关指标,推荐并组合多个相关图表到一个新的大盘。
示例指令:
“我想监控 用户注册流程 的整体健康状况,需要哪些关键指标?”
“帮我创建一个大盘,重点关注 数据库集群 的性能和容量问题。”
优势: AI理解监控上下文,自动关联核心指标,构建更全面、更有价值的监控视图,避免遗漏。
3. 动态调整与优化现有图表/大盘:
操作: 对已有图表或大盘进行修改,无需进入复杂配置界面。
示例指令:
“把这个CPU使用率图的时间范围改成过去7天。”
“把订单错误率图的阈值线改成5%。”
“在这个大盘里增加一个显示当前在线用户数的数字卡片。”
“把这个折线图改成柱状图,按省份分组。”
优势: 快速迭代监控视图,适应业务变化和分析需求,提升工作效率。
4. 自动化配置与管理:
操作: AI智能体可执行更复杂的、涉及多个步骤的配置任务。
示例指令:
“为所有新上线的 cart-service 实例自动添加CPU、内存监控到 购物车服务大盘。”
“发现 error_log 中出现 OutOfMemory 错误时,在 JVM大盘 高亮显示相关实例的内存图。”
优势: 减少重复性配置工作,实现监控策略的规模化和智能化管理。
二、 如何使用 (操作步骤简述)
1. 访问入口:
在您的 云平台总览 界面 中点击 自定义 页签,点击AI助手按钮 启动聊天窗口。
2. 清晰表达需求:
目标明确: 您想监控什么?(服务、主机、业务指标、应用性能?)
范围具体: 涉及哪些实体?(服务名、主机名、机房、环境?)
指标清晰: 想看哪些具体数据?(CPU、错误率、延迟、QPS、自定义指标?)
时间范围: 看多久的数据?(实时、近1小时、近1天、自定义?)
期望视图: 想要什么类型的图表?(折线图、柱状图、饼图、数字卡片、表格?)或想如何修改现有图表?
示例:
✅ “在 核心交易大盘 里,给 支付网关延迟 的折线图添加一条标记 200ms 的阈值线。”
✅ “创建一个新的大盘,包含 用户中心服务 的 登录成功率 和 注册API调用量 折线图,时间范围是今天。”
❌ “看看系统有没有问题?” (过于模糊)
3. 与AI智能体交互:
在聊天窗口输入您的自然语言指令。
AI智能体会尝试理解您的意图,并可能进行澄清确认(例如:“您是指 prod-order-service 的 api.latency.p99 指标吗?”)。
请根据提示进行确认或修正。
4. 执行与预览:
AI智能体理解确认后,会告知您将要执行的操作(例如:“即将在 生产监控总览 大盘中添加一个展示 prod-payment-service 错误率的折线图”)。
生成新图表/大盘: AI调用MCP API创建,完成后提供新图表/大盘的链接供您点击查看。
修改现有图表/大盘: AI执行修改操作,完成后通知您,您可刷新当前页面查看更新后的效果。
5. 检查与微调:
务必检查: AI生成的结果是否符合预期。监控数据的准确性至关重要。
进一步微调: 如果结果有偏差,您可以:
直接通过 标准编辑界面 手动微调图表配置。
再次给 AI智能体 发送更精确的指令进行调整(例如:“把刚生成的错误率图的Y轴最大值设为10%”)。
三、 典型使用场景示例
1. 快速故障排查:
- “用户反馈登录慢,给我看 登录服务 相关主机的 CPU、内存、网络流量 和 登录API延迟 图表,时间范围最近30分钟。”
2. 业务指标监控:
- “创建一个实时大盘,核心位置显示 今日累计订单量 和 支付成功率 的数字卡片,下方展示 各渠道订单量占比 饼图和 订单量分时趋势 折线图。”
3. 资源容量规划:
- “展示 北京机房 所有 MySQL 实例的 磁盘使用率 表格,按使用率从高到低排序,并标红超过80%的。”
4. 新服务上线监控:
- “新服务 recommendation-v2 刚上线,自动为它的所有实例创建包含 CPU、内存、GC次数、推荐接口QPS 和 错误数 的图表,并添加到 推荐系统监控 大盘。”
5. 对比分析:
- “对比 新版本APP (v4.5) 和 旧版本APP (v4.4) 在过去一周的 首页加载耗时(P90) 趋势线。”
四、 注意事项与最佳实践
权限控制: AI智能体执行的操作受限于您的个人账户在MCP中的权限。您只能创建、修改您有权限访问和操作的图表、大盘。
描述清晰是关键: 指令越清晰、具体(包含必要的服务名、指标名、环境等标识),AI理解越准确,生成结果越符合预期。善用平台已有的命名规范。
理解局限性: AI在处理极其复杂、模糊或涉及平台未接入数据源的请求时可能受限。它主要依赖MCP已有的数据模型和配置能力。
人工复核: 强烈建议 在将AI生成的图表用于关键告警或决策前,进行人工检查确认,确保指标、维度、时间范围、图表类型等均正确无误。
反馈机制: 如果AI理解错误或执行有误,请积极使用平台提供的反馈渠道(如“结果不满意”按钮)进行反馈,帮助AI持续学习和改进。
与手动配置结合: AI擅长快速搭建和修改,复杂的定制化样式、高级查询逻辑等可能仍需通过MCP标准界面手动微调。两者结合使用效率最高。
关注MCP更新: AI智能体依赖MCP提供的接口和能力,MCP的新功能(如新图表类型、新数据源接入)通常会扩展AI的能力范围。
五、 常见问题
Q:支持哪些数据源和监控类型?
A:AI智能体支持的能力取决于MCP平台已接入和管理的所有数据源(如Prometheus、 InfluxDB、 Elasticsearch、 Zabbix、 各类云监控、 自定义业务指标等)及其定义的指标模型。通常覆盖基础设施、应用性能、日志、业务指标等。
Q:AI生成的图表能设置告警吗?
A:目前本功能主要聚焦于图表和大盘的创建与配置。告警规则配置通常是独立模块。但AI生成的图表中展示的关键指标,是您后续在告警系统配置规则的重要依据。未来可能集成告警设置。
Q:修改操作会覆盖我原来的配置吗?
A:AI在执行修改指令(如更改时间范围、图表类型、添加阈值线)时,默认是基于您指定的现有图表进行更新。对于核心配置的修改通常是覆盖。建议在重要大盘修改前确认或做好备份(如果MCP支持)。
Q:指令没被正确理解怎么办?
A:1) 尝试更清晰、具体地描述,加入关键标识符。2) 使用AI的澄清确认环节进行修正。3) 如果多次失败,可暂时转用手动配置,并提交反馈帮助AI学习。4) 查阅平台的指标/服务目录,使用标准名称。
Q:在哪里管理我的AI操作权限?
A:AI操作的权限继承自您登录MCP的账户权限。平台管理员通常在MCP的统一权限管理模块设置用户/角色对特定数据源、指标、大盘、配置功能的访问和操作权限。
总结:
利用AI智能体与MCP的结合,您可以将自定义监控图表和大盘的创建、管理工作从繁琐的技术操作转变为简单的自然语言对话。这极大地释放了生产力,让团队成员都能更快速、更直观地获取所需的监控洞察力,从而更有效地保障系统稳定性和业务发展。
最后编辑:admin 更新时间:2025-07-11 10:07