跳到正文
🟠 需外部服务 — 需自备相关账号/权限 实战 开发工具

多 Agent 运维矩阵:OpenClaw 管理服务器

用多个专职 Agent 监控服务器状态、自动告警、执行运维操作,搭建 AI 运维团队

⚔️ 难度 ★★★ 实战
⏱ 配置耗时 60 分钟
🎁 掉落 节省 60 分钟
🦞 部署 可一键部署

🎯 做完你会得到

服务器异常自动告警,常见运维操作通过聊天触发,减少手动 SSH 频率

🛠 需要什么

  • telegram
  • desktop-commander

👤 适合谁

  • DevOps工程师
  • 开发团队
  • 运维工程师

⚡ 效果预览

多个AI Agent协作处理部署流程,从代码到上线全自动,人工干预降低80%

🔧 Step 0:先配置消息接收渠道

⚠️ 本案例需要发送通知到你的手机,先配置消息渠道 👉 去配置 Telegram/飞书/微信接入 →

这个场景解决什么问题

运维人员需要 24 小时盯着服务器,告警来了还要手动 SSH 查日志。通过 OpenClaw 多 Agent 架构,可以让 AI 持续监控,异常自动告警到 Telegram,常见操作通过聊天窗口完成。

直接复制这段:Monitor Agent 定时巡检

openclaw cron add \
  --agent monitor \
  --name "system-health-check" \
  --cron "*/5 * * * *" \
  --tz "Asia/Shanghai" \
  --session isolated \
  --message "执行系统健康检查,有异常立即报告:CPU>85%、内存>90%、磁盘>80%、关键服务状态" \
  --announce

核心步骤

第一步:规划运维 Agent 角色分工

Agent职责工具权限
Monitor系统监控、心跳检测只读系统信息
Alerter告警发送、升级处理消息发送
Executor执行运维操作完整 shell 权限
Auditor操作审计、日志分析只读日志

第二步:配置 Monitor Agent

在 Monitor Agent 的工作区 AGENTS.md

# Monitor Agent

## 监控任务(每5分钟执行)
- 检查 CPU 使用率(>85% 告警)
- 检查内存使用率(>90% 告警)
- 检查磁盘空间(>80% 告警)
- 检查关键服务状态(nginx/mysql/redis)
- 检查最近错误日志

## 告警格式
- 发现问题立即通知 Alerter Agent
- 告警包含:问题描述、当前数值、建议操作

配合定时任务:

openclaw cron add \
  --agent monitor \
  --name "system-health-check" \
  --cron "*/5 * * * *" \
  --tz "Asia/Shanghai" \
  --session isolated \
  --message "执行系统健康检查,有异常立即报告" \
  --announce

第三步:配置 Executor Agent(运维执行)

这是权限最高的 Agent,需要严格限制使用者:

{
  "agents": {
    "list": [
      {
        "id": "executor",
        "workspace": "~/.openclaw/workspaces/ops",
        "tools": { "profile": "full" }
      }
    ]
  },
  "bindings": [
    {
      "agentId": "executor",
      "match": {
        "channel": "telegram",
        "from": ["你的Telegram用户ID"]
      }
    }
  ]
}

第四步:常用运维操作示例

通过 Telegram 发送自然语言操作:

# 查看服务状态
@ops 检查 nginx 和 redis 的运行状态

# 重启服务
@ops 重启 nginx(先告诉我影响范围)

# 查看日志
@ops 显示 /var/log/nginx/error.log 最近 50 行

# 磁盘清理
@ops 找出 /var/log 下超过 7 天且大于 100MB 的日志文件

第五步:设置告警心跳

# 每分钟心跳,异常才发消息
openclaw cron add \
  --agent monitor \
  --name "heartbeat" \
  --cron "* * * * *" \
  --tz "Asia/Shanghai" \
  --session isolated \
  --message "静默检查服务状态,只在发现问题时发送告警" \
  --announce

关键配置

安全限制(防止误操作):

# Executor Agent 的 SOUL.md

## 操作原则
- 危险操作(rm/格式化/停服务)必须用户二次确认
- 生产环境操作前必须说明影响范围
- 所有执行的命令写入 memory/audit.log
- 不明确的指令宁可不执行,也不要猜测

预期结果

  • CPU/内存/磁盘异常自动推送 Telegram
  • 手机上就能重启服务、查看日志
  • 所有操作有审计记录

注意事项

  • Executor Agent 权限极高,只允许信任的用户触发
  • 生产环境建议先在测试服务器验证
  • 定期检查 audit.log 确认没有异常操作
  • 磁盘清理等操作建议人工确认后再执行
#运维#多Agent#监控#告警#DevOps#服务器