🎯 做完你会得到
服务器出问题 AI 自动诊断和修复常见故障,只有真正需要人工干预的才叫你起来。
🛠 需要什么
- healthcheck
👤 适合谁
- 运维工程师
- 独立开发者(自己管服务器)
- 小团队没有专职运维的
⚡ 效果预览
凌晨3点磁盘使用率到了95%,AI自动清理了日志和临时文件降到62%,早上你看到一条通知:已自动处理,无需操作
🔧 Step 0:先确认外部工具配置
⚠️ 本案例依赖外部工具(Telegram/Notion/飞书等),先确认已配置 👉 查看常用工具配置指南 →
解决什么问题
运维最痛苦的事:凌晨收到告警。
- 磁盘满了 → 服务挂了
- 进程崩了 → 用户投诉
- SSL 过期 → 网站打不开
- 内存泄漏 → 越来越慢
DataCamp:“A self-healing server setup takes a weekend to configure.”
大部分告警的处理是固定流程:AI 完全可以自动处理。
前置条件
- OpenClaw 已安装在服务器上
- root 或 sudo 权限
自愈规则配置
磁盘自动清理
监控磁盘使用率,每 10 分钟检查一次:
- 超过 80% → 通知我
- 超过 90% → 自动清理:
1. 删除 30 天前的日志文件
2. 清空 /tmp
3. 清理 Docker 无用镜像
4. 清理完后报告剩余空间
- 清理后仍超过 90% → 紧急通知我
进程自动重启
监控关键进程:
- nginx / node / postgres / redis
- 每 30 秒检查一次
- 进程挂了 → 自动重启
- 重启 3 次仍然挂 → 通知我
- 每次重启记录日志
SSL 自动续签
监控所有域名的 SSL 证书:
- 每天检查一次
- 到期前 14 天 → 自动运行 certbot 续签
- 续签成功 → reload nginx
- 续签失败 → 通知我
内存监控
监控内存使用:
- 超过 85% → 找出占用最多的进程,通知我
- 超过 95% → 自动重启占用异常的非关键进程
- OOM Killer 触发 → 立刻通知我
通知示例
自动处理的(不用管):
✅ 自动处理:磁盘清理
- 原使用率:93%
- 清理内容:日志 2.3GB + Docker 镜像 4.1GB
- 当前使用率:61%
- 无需操作
需要你看的:
⚠️ 需要关注:postgres 进程异常重启
- 今天已自动重启 2 次
- 最近一次崩溃日志:连接数超限
- 建议:增加 max_connections 或检查连接泄漏
紧急的:
🚨 紧急:主数据库磁盘写入错误
- 自动处理失败
- 需要立即人工干预
- [一键 SSH 连接命令]
预期结果
- 80% 的告警自动处理,不用人工干预
- 凌晨不再被吵醒(除非真的严重)
- 服务可用率从 99.5% 提升到 99.9%
- 运维从救火变成优化
踩坑记录
AI 误操作导致服务中断
症状:AI 清理了不该清理的文件。
解法:
- 只允许 AI 操作白名单内的目录
- 危险操作先通知你确认
- 所有自动操作记录详细日志
- 配置回滚方案
告警风暴
症状:一个问题引发连锁告警,通知刷屏。
解法:设置告警聚合——同一问题 5 分钟内只通知一次,附上所有相关信息。
不满意怎么调
- 不敢全自动 → 所有操作先通知你确认再执行
- 多台服务器 → 一个 OpenClaw 监控多台,统一面板
- 想更专业 → 接入 Prometheus + Grafana 做可视化
#运维#服务器#自愈#DevOps#监控
⚔️ 同类副本推荐 ⚔️