🔧 Step 0：先确认外部工具配置

⚠️ 本案例依赖外部工具（Telegram/Notion/飞书等），先确认已配置 👉 查看常用工具配置指南 →

解决什么问题

API 挂了的常见流程：

收到告警（已经挂了 5 分钟）
打开电脑
看日志
排查原因
修复
总共 30 分钟

AI 方案：从发现到排查到修复可能只需要 2 分钟，你收到的是诊断报告而不是告警。

前置条件

OpenClaw 已安装在服务器上
有需要监控的 API 接口

配置步骤

设置监控

监控以下 API 端点：
- https://api.example.com/health（每 30 秒）
- https://api.example.com/v1/users（每 1 分钟）
- https://api.example.com/v1/orders（每 1 分钟）

异常判断：
- 响应时间 > 2s → 慢速告警
- HTTP 5xx → 错误告警
- 连接超时 → 宕机告警
- SSL 证书 < 7 天过期 → 证书告警

AI 自动排查流程

发现异常后，AI 自动执行：

排查清单：
1. DNS 解析是否正常
2. SSL 证书是否有效
3. 服务器是否可达（ping）
4. 端口是否开放
5. 服务进程是否运行
6. 最近的错误日志
7. 数据库连接状态
8. 内存和 CPU 使用率
9. 磁盘空间

诊断报告

🔍 API 异常诊断报告时间：15:03:22 端点：/v1/orders 症状：响应时间从 200ms 飙升至 3.2s

排查结果：

✅ DNS 正常

✅ SSL 有效（还有 45 天）

✅ 服务器可达

✅ Nginx 正常

✅ Node 进程运行中

⚠️ 数据库连接池使用率 98%

⚠️ 发现 1 个慢查询（锁表 47 秒）

根因： 一个全表扫描的查询锁住了 orders 表

已自动处理：

Kill 了慢查询进程

连接池使用率降至 34%

响应时间恢复至 180ms

建议：

给 orders 表的 created_at 字段加索引

考虑增加连接池上限（当前 20 → 建议 50）

预期结果

发现到修复：2 分钟（而不是 30 分钟）
你收到的是诊断报告不是慌张的告警
常见问题自动修复
根因分析帮你彻底解决而不是反复出问题

踩坑记录

AI 误杀正常进程

症状：AI 把正在运行的长任务当成慢查询 kill 了。

解法：设置白名单——标记已知的长时间任务，AI 排查时跳过这些。

告警风暴

症状：网络抖动导致一堆告警。

解法：设置告警聚合+冷却期——同一问题 5 分钟内只通知一次。连续 3 次检测失败才触发告警（排除瞬间抖动）。

不满意怎么调

只想监控不想自动修 → AI 只排查+通知，修复由你来
多个服务 → 统一监控面板，API/数据库/缓存一览
想更专业 → 接入 Prometheus+Grafana 做可视化 + AI 解读

API 健康监控：接口挂了 AI 先排查原因再叫你