你的 Agent 每天向云端的 Claude 发送 1,440 次心跳检查。每一次都得到“无事可报”的回应。如果这些检查能运行在本地模型上——在你自己的硬件上——而且是免费的呢?
问题所在:为简单任务支付云端高价
并非每个请求都需要最顶级的前沿模型。心跳检查、简单的确认(acknowledgments)和基础状态查询对于哪怕是很小的语言模型来说都易如反掌。然而默认情况下,OpenClaw 会将所有内容都路由至你配置的云端供应商。
账单账是很残酷的:
- 1,440 心跳/天 × 400 token/次 × $3/1M token = 每月 $5.18 花在“无事可报”上
- 加上简单的查询和确认:每月轻松花掉 $10–$20 在那些 7B 参数模型就能完美处理的任务上。
解决方案:本地轻量级路由 (即将推出)
注意:此功能已列入 ClawBridge 的开发路线图,将在未来的版本中提供。本文旨在解释其核心理念及工作原理。
ClawBridge 的诊断 A08 将检测可以由本地处理的请求,并建议通过 Ollama 在运行 OpenClaw Agent 的同一台机器上部署轻量级模型。
它将如何工作
- 检测:ClawBridge 分析你的请求历史,识别出简单且重复的请求模式(心跳、确认、状态检查)。
- 硬件检查:验证你的机器是否有足够的资源运行本地模型(跑 7B 模型通常需要 8GB+ 内存)。
- 推荐:建议安装 Ollama 及一个轻量级模型(例:Llama 3.1 8B, Phi-3, 或 Gemma 2B)。
- 路由配置:将 OpenClaw 配置为把简单请求路由至
localhost:11434(Ollama 的默认端口),同时将复杂任务保留在云端模型。
预计节省额
| 请求类型 | 当前 (云端) | 修改后 (本地) | 节省比例 |
|---|---|---|---|
| 心跳检查 | $5.18/月 | $0.00 | 100% |
| 简单查询 | $3–$8/月 | $0.00 | 100% |
| 确认操作 | $2–$5/月 | $0.00 | 100% |
| 总计 | $10–$18/月 | 仅消耗电费 | 约 $15/月 |
权衡
- 硬件要求:运行本地模型需要闲置的 CPU/RAM。不适合资源受限的服务器。
- 延迟:在 CPU 上运行的本地推理速度慢于云端 GPU。对于心跳和简单响应,这种延迟(通常为 1-3 秒)通常是可以接受的。
- 能力上限:本地模型 (7B–13B) 能处理好简单任务,但在应对细微的逻辑推理时会比较吃力。路由逻辑必须能够正确分类请求的复杂度。
- macOS 用户:OpenClaw 与 Ollama 的集成在 macOS 上由于沙箱限制存在一些已知问题及 Workaround。
现在就开始准备
虽然此功能仍在开发中,但你可以:
ClawBridge 是免费且开源 (MIT 协议) —— 秒速安装,永久拥有。 免费获取 ClawBridge →