🔧 Step 0：先配置消息接收渠道

⚠️ 本案例需要发送通知到你的手机，先配置消息渠道 👉 去配置 Telegram/飞书/微信接入 →

这个场景解决什么问题

运维人员需要 24 小时盯着服务器，告警来了还要手动 SSH 查日志。通过 OpenClaw 多 Agent 架构，可以让 AI 持续监控，异常自动告警到 Telegram，常见操作通过聊天窗口完成。

直接复制这段：Monitor Agent 定时巡检

openclaw cron add \
  --agent monitor \
  --name "system-health-check" \
  --cron "*/5 * * * *" \
  --tz "Asia/Shanghai" \
  --session isolated \
  --message "执行系统健康检查，有异常立即报告：CPU>85%、内存>90%、磁盘>80%、关键服务状态" \
  --announce

核心步骤

第一步：规划运维 Agent 角色分工

Agent	职责	工具权限
Monitor	系统监控、心跳检测	只读系统信息
Alerter	告警发送、升级处理	消息发送
Executor	执行运维操作	完整 shell 权限
Auditor	操作审计、日志分析	只读日志

第二步：配置 Monitor Agent

在 Monitor Agent 的工作区 AGENTS.md：

# Monitor Agent

## 监控任务（每5分钟执行）
- 检查 CPU 使用率（>85% 告警）
- 检查内存使用率（>90% 告警）
- 检查磁盘空间（>80% 告警）
- 检查关键服务状态（nginx/mysql/redis）
- 检查最近错误日志

## 告警格式
- 发现问题立即通知 Alerter Agent
- 告警包含：问题描述、当前数值、建议操作

配合定时任务：

openclaw cron add \
  --agent monitor \
  --name "system-health-check" \
  --cron "*/5 * * * *" \
  --tz "Asia/Shanghai" \
  --session isolated \
  --message "执行系统健康检查，有异常立即报告" \
  --announce

第三步：配置 Executor Agent（运维执行）

这是权限最高的 Agent，需要严格限制使用者：

{
  "agents": {
    "list": [
      {
        "id": "executor",
        "workspace": "~/.openclaw/workspaces/ops",
        "tools": { "profile": "full" }
      }
    ]
  },
  "bindings": [
    {
      "agentId": "executor",
      "match": {
        "channel": "telegram",
        "from": ["你的Telegram用户ID"]
      }
    }
  ]
}

第四步：常用运维操作示例

通过 Telegram 发送自然语言操作：

# 查看服务状态
@ops 检查 nginx 和 redis 的运行状态

# 重启服务
@ops 重启 nginx（先告诉我影响范围）

# 查看日志
@ops 显示 /var/log/nginx/error.log 最近 50 行

# 磁盘清理
@ops 找出 /var/log 下超过 7 天且大于 100MB 的日志文件

第五步：设置告警心跳

# 每分钟心跳，异常才发消息
openclaw cron add \
  --agent monitor \
  --name "heartbeat" \
  --cron "* * * * *" \
  --tz "Asia/Shanghai" \
  --session isolated \
  --message "静默检查服务状态，只在发现问题时发送告警" \
  --announce

关键配置

安全限制（防止误操作）：

# Executor Agent 的 SOUL.md

## 操作原则
- 危险操作（rm/格式化/停服务）必须用户二次确认
- 生产环境操作前必须说明影响范围
- 所有执行的命令写入 memory/audit.log
- 不明确的指令宁可不执行，也不要猜测

预期结果

CPU/内存/磁盘异常自动推送 Telegram
手机上就能重启服务、查看日志
所有操作有审计记录

注意事项

Executor Agent 权限极高，只允许信任的用户触发
生产环境建议先在测试服务器验证
定期检查 audit.log 确认没有异常操作
磁盘清理等操作建议人工确认后再执行

多 Agent 运维矩阵：OpenClaw 管理服务器

🔧 Step 0：先配置消息接收渠道

这个场景解决什么问题

直接复制这段：Monitor Agent 定时巡检

核心步骤

第一步：规划运维 Agent 角色分工

第二步：配置 Monitor Agent

第三步：配置 Executor Agent（运维执行）

第四步：常用运维操作示例

第五步：设置告警心跳

关键配置

预期结果

注意事项

🦞 跑完这个副本了？

多 Agent 运维矩阵：OpenClaw 管理服务器

🔧 Step 0：先配置消息接收渠道

这个场景解决什么问题

直接复制这段：Monitor Agent 定时巡检

核心步骤

第一步：规划运维 Agent 角色分工

第二步：配置 Monitor Agent

第三步：配置 Executor Agent（运维执行）

第四步：常用运维操作示例

第五步：设置告警心跳

关键配置

预期结果

注意事项

🦞 跑完这个副本了？

AI Agent exec 热力图：哪类命令最频繁、最慢、最容易出错

AI API 网关：一次接入 100+ 平台，一个 AI 统一调用

AI自主配置Google Cloud OAuth

AI 自主配置 API 凭证