跳到正文
🟠 需外部服务 — 需自备相关账号/权限 实战 生活助手

VisionClaw:用 Meta 智能眼镜实时调用 OpenClaw

Meta Ray-Ban 智能眼镜连接 Gemini 视觉 AI + OpenClaw Gateway,语音描述场景并执行任务

⚔️ 难度 ★★★ 实战
⏱ 配置耗时 90 分钟
🎁 掉落 节省 90 分钟
🦞 部署 可一键部署

🎯 做完你会得到

戴上眼镜说话,AI 看到你看到的,同时通过 OpenClaw 执行发消息/搜索/添加清单等操作

👤 适合谁

  • 硬件爱好者
  • 极客
  • 无障碍辅助用户

⚡ 效果预览

智能眼镜接入OpenClaw,实时识别周围环境,AR辅助信息叠加

🔧 Step 0:先配置消息接收渠道

⚠️ 本案例需要发送通知到你的手机,先配置消息渠道 👉 去配置 Telegram/飞书/微信接入 →

这个场景解决什么问题

手机解锁再打字太慢,智能眼镜戴着随时能交互,但原生功能有限。VisionClaw 让眼镜的摄像头接入 Gemini 视觉 AI,同时通过 OpenClaw Gateway 执行实际操作,实现真正的”所见即所得”AI 助手。

工作原理

Meta Ray-Ban 眼镜(或手机摄像头)
  ↓ 视频帧(~1fps)+ 麦克风音频
iOS/Android App(VisionClaw)
  ↓ JPEG 帧 + PCM 音频(16kHz)
Gemini Live API(WebSocket 实时连接)
  ↓ 语音回复(PCM 24kHz)→ 耳机播放
  ↓ 工具调用 → OpenClaw Gateway
             ↓ 技能执行(搜索/发消息/记录/提醒)
  ↓ 工具结果返回 → Gemini 朗读给你

直接复制这段配置

第一步:克隆并配置 VisionClaw App

git clone https://github.com/sseanliu/VisionClaw.git
cd VisionClaw/samples/CameraAccess

iOS 用户:

open CameraAccess.xcodeproj

Android 用户:

# 查看 README.md 里的 Android 配置说明
cat README.md | grep -A 20 "Android"

第二步:填写密钥文件

编辑 CameraAccess/Secrets.swift

// CameraAccess/Secrets.swift
let GEMINI_API_KEY = "your-gemini-api-key"      // 必填,在 aistudio.google.com 获取
let OPENCLAW_GATEWAY_URL = "http://your-ip:18789"  // 可选,你的 Gateway 地址
let OPENCLAW_TOKEN = "your-gateway-token"          // 可选,Gateway auth token

第三步:确保 OpenClaw Gateway 外网/局域网可达

VisionClaw 需要通过网络连接到你的 OpenClaw Gateway:

# 1. 查看当前 Gateway 配置
openclaw gateway status

# 2. 允许 Gateway 监听所有网络接口(不只是 localhost)
# 编辑 ~/.openclaw/openclaw.json
{
  "gateway": {
    "host": "0.0.0.0",
    "port": 18789,
    "auth": {
      "mode": "token",
      "token": "your-secret-token"
    }
  }
}
# 3. 重启 Gateway
openclaw gateway restart

# 4. 验证外部可访问
curl http://你的IP:18789/health

第四步:安装 OpenClaw 技能扩展能力

VisionClaw 可以调用 OpenClaw 的技能。先安装常用技能:

# 天气查询(眼镜看到户外时询问天气)
clawhub install weather

# 网页搜索(基于 Brave Search)
# 注意:需要 Brave Search API Key,在 brave.com/search/api 免费申请
# 配置后告诉 OpenClaw 开启 brave-search 功能

# 任务提醒(说一句话添加提醒)
# OpenClaw 内置,无需额外安装

第五步:体验语音控制

戴上眼镜,按 AI 按钮说(或手机模式下按屏幕按钮):

"我现在看到什么?"
→ Gemini 用视觉识别并描述场景

"帮我记一下,这个产品叫什么"
→ OpenClaw 自动记录到 memory/notes.md

"查一下今天上海天气"
→ OpenClaw 调用 weather 技能,Gemini 朗读结果

"给我妈发消息说我快到了"
→ 通过 OpenClaw 发送 Telegram/WhatsApp 消息

手机模式测试(不需要眼镜)

不想花 ¥2000+ 买眼镜,可以先用手机测试全部功能:

  • 用手机后置摄像头替代眼镜视角
  • 用手机扬声器替代眼镜扬声器
  • 功能完全相同,确认好用再考虑买眼镜

预期结果

  • 语音控制,双手解放
  • 眼镜看到什么,AI 就能看到什么
  • 通过 OpenClaw 执行实际任务,不只是聊天

注意事项

  • Gemini Live API:需要在 Google AI Studio 申请访问权限(部分地区受限)
  • 网络要求:OpenClaw Gateway 必须通过网络可达(不能只绑 127.0.0.1
  • 眼镜帧率:摄像头约 1fps,适合场景识别,不适合快速移动跟踪
  • 隐私注意:眼镜摄像头会持续拍摄,注意在公共场所的使用场景
  • OpenClaw 技能:上面 clawhub install 安装的是真实存在的技能,web-search/smart-home 等需要查看 clawhub.com 确认是否有对应技能
#智能眼镜#Meta Ray-Ban#Gemini#视觉AI#语音控制#硬件