🎯 做完你会得到
服务器异常自动告警,常见运维操作通过聊天触发,减少手动 SSH 频率
🛠 需要什么
- telegram
- desktop-commander
👤 适合谁
- DevOps工程师
- 开发团队
- 运维工程师
⚡ 效果预览
多个AI Agent协作处理部署流程,从代码到上线全自动,人工干预降低80%
🔧 Step 0:先配置消息接收渠道
⚠️ 本案例需要发送通知到你的手机,先配置消息渠道 👉 去配置 Telegram/飞书/微信接入 →
这个场景解决什么问题
运维人员需要 24 小时盯着服务器,告警来了还要手动 SSH 查日志。通过 OpenClaw 多 Agent 架构,可以让 AI 持续监控,异常自动告警到 Telegram,常见操作通过聊天窗口完成。
直接复制这段:Monitor Agent 定时巡检
openclaw cron add \
--agent monitor \
--name "system-health-check" \
--cron "*/5 * * * *" \
--tz "Asia/Shanghai" \
--session isolated \
--message "执行系统健康检查,有异常立即报告:CPU>85%、内存>90%、磁盘>80%、关键服务状态" \
--announce
核心步骤
第一步:规划运维 Agent 角色分工
| Agent | 职责 | 工具权限 |
|---|---|---|
| Monitor | 系统监控、心跳检测 | 只读系统信息 |
| Alerter | 告警发送、升级处理 | 消息发送 |
| Executor | 执行运维操作 | 完整 shell 权限 |
| Auditor | 操作审计、日志分析 | 只读日志 |
第二步:配置 Monitor Agent
在 Monitor Agent 的工作区 AGENTS.md:
# Monitor Agent
## 监控任务(每5分钟执行)
- 检查 CPU 使用率(>85% 告警)
- 检查内存使用率(>90% 告警)
- 检查磁盘空间(>80% 告警)
- 检查关键服务状态(nginx/mysql/redis)
- 检查最近错误日志
## 告警格式
- 发现问题立即通知 Alerter Agent
- 告警包含:问题描述、当前数值、建议操作
配合定时任务:
openclaw cron add \
--agent monitor \
--name "system-health-check" \
--cron "*/5 * * * *" \
--tz "Asia/Shanghai" \
--session isolated \
--message "执行系统健康检查,有异常立即报告" \
--announce
第三步:配置 Executor Agent(运维执行)
这是权限最高的 Agent,需要严格限制使用者:
{
"agents": {
"list": [
{
"id": "executor",
"workspace": "~/.openclaw/workspaces/ops",
"tools": { "profile": "full" }
}
]
},
"bindings": [
{
"agentId": "executor",
"match": {
"channel": "telegram",
"from": ["你的Telegram用户ID"]
}
}
]
}
第四步:常用运维操作示例
通过 Telegram 发送自然语言操作:
# 查看服务状态
@ops 检查 nginx 和 redis 的运行状态
# 重启服务
@ops 重启 nginx(先告诉我影响范围)
# 查看日志
@ops 显示 /var/log/nginx/error.log 最近 50 行
# 磁盘清理
@ops 找出 /var/log 下超过 7 天且大于 100MB 的日志文件
第五步:设置告警心跳
# 每分钟心跳,异常才发消息
openclaw cron add \
--agent monitor \
--name "heartbeat" \
--cron "* * * * *" \
--tz "Asia/Shanghai" \
--session isolated \
--message "静默检查服务状态,只在发现问题时发送告警" \
--announce
关键配置
安全限制(防止误操作):
# Executor Agent 的 SOUL.md
## 操作原则
- 危险操作(rm/格式化/停服务)必须用户二次确认
- 生产环境操作前必须说明影响范围
- 所有执行的命令写入 memory/audit.log
- 不明确的指令宁可不执行,也不要猜测
预期结果
- CPU/内存/磁盘异常自动推送 Telegram
- 手机上就能重启服务、查看日志
- 所有操作有审计记录
注意事项
- Executor Agent 权限极高,只允许信任的用户触发
- 生产环境建议先在测试服务器验证
- 定期检查 audit.log 确认没有异常操作
- 磁盘清理等操作建议人工确认后再执行
#运维#多Agent#监控#告警#DevOps#服务器
⚔️ 同类副本推荐 ⚔️