谷歌官方发布 Gemma 4 + OpenClaw 三步接入教程,通过 Ollama 本地部署,推荐 26B A4B 版本,Mac Studio M4 Pro 48GB 即可运行,不再花钱买 Token


谷歌官方发布 Gemma 4 + OpenClaw 三步接入教程,通过 Ollama 本地部署,推荐 26B A4B 版本,Mac Studio M4 Pro 48GB 即可运行,不再花钱买 Token
在 OpenClaw 里跑 Claude、GPT 这些云端模型,Token 费用是一笔持续的支出。谷歌官方最近发布了一份教程,教你分三步把 Gemma 4 本地模型接入 OpenClaw,实现零 Token 成本运行。
这篇教程把流程梳理清楚,同时说明它的适用场景和局限。
用 Gemma 4 作为 OpenClaw 的后端模型,跑在本地机器上,不花一分钱 Token 费用。适合简报生成、会议转录、定时任务等简单场景。
| Gemma 4 版本 | 最低显存 | 推荐设备 |
|---|---|---|
| 26B A4B(官方推荐) | 16GB | Mac Studio M4 Pro 48GB 或同配置 PC |
| 12B A4B | 8GB | MacBook Pro M4 或 RTX 4070 以上 |
| 4B | 4GB | 大多数现代笔记本 |
访问 https://ollama.com/download 下载对应平台的安装包。
macOS 用户也可以用 Homebrew:
brew install ollama安装完成后,启动 Ollama:
ollama serve提示: 确保 Ollama 服务在后台持续运行,后续步骤依赖它。
官方推荐 26B A4B 版本(MoE 架构,实际激活参数更少,速度快):
ollama pull gemma4:26b-a4b如果硬件不够,可以选择更小的版本:
ollama pull gemma4:12b-a4b
ollama pull gemma4:4b提示: 26B A4B 版本下载约需 15-20GB 磁盘空间,确保有足够存储。
这一条命令会自动安装 OpenClaw 并使用 Gemma 4 作为后端启动:
ollama run gemma4:26b-a4b然后在 OpenClaw 的配置文件中,将模型后端指向本地 Ollama 服务。具体配置方式取决于你的 OpenClaw 版本,通常在模型设置中选择「Ollama」作为 provider,填入 http://localhost:11434 作为 endpoint。
启动后,在 OpenClaw 中发一条简单消息测试。如果收到回复,说明本地模型已经成功接入。
你可以测试几个场景来评估效果:
注意: OpenClaw 创始人 Peter Steinberger 曾公开建议不要用廉价小模型,因为小模型更容易受到提示注入攻击。在处理敏感数据时,请自行评估风险。
| 方案 | 月费用 | 适合任务复杂度 |
|---|---|---|
| Gemma 4 本地 + OpenClaw | 电费(约几元) | 简单 |
| Claude API + OpenClaw | $20-200+ | 中到复杂 |
| Claude Max 订阅 + OpenClaw | $100-200 | 复杂 |
有用户算过账:如果日常只是跑简报、转录这类任务,一台 Mac Studio 3 个月就能在 Token 费用上回本。
Q: Mac Studio M4 Pro 48GB 能跑 26B 版本吗? A: 可以。实际显存占用约 16GB,机器还有余量。
Q: 响应速度怎么样? A: 简单问题流畅,上下文变长或开启深度思考时会变慢。M4 Pro 上日常使用体验尚可。
Q: 和 Claude 比差多少? A: 智力水平差距明显,尤其在工具调用、长上下文方面。但简单任务足够用。
Q: 安全吗? A: 小模型对抗提示注入的能力较弱。如果处理敏感数据,建议使用更强的模型。

Anthropic和OpenAI同时验证的结论:AI编程智能体失败的原因不在模型,在Harness。五步搭建你的第一个Harness配置

开源实时数字人生成方案,文本输入即可同步生成说话视频与语音,20.38 FPS吞吐、0.94秒端到端延迟

专为DeepSeek打造的终端coding harness,基于prefix-cache设计将缓存命中率达99.82%,输入token成本降至1/5。