
Google 发布 Gemma 4 系列,Apache 2.0 真开源,从 2B 到 31B 全覆盖,手机端离线运行多模态 Agent,附本地部署指南
Gemma 4 是 Google DeepMind 基于 Gemini 3 同源技术打造的开源模型系列,四款尺寸(E2B/E4B/26B MoE/31B Dense),全部采用 Apache 2.0 协议,可商用、可修改、可内嵌产品。
先看最关键的数字:
| 模型 | 有效参数 | 上下文窗口 | Arena AI 排名 | 典型部署场景 |
|---|---|---|---|---|
| E2B | 2B | 128K | - | 手机 / IoT / 树莓派 |
| E4B | 4B | 128K | - | 移动端 / Jetson Nano |
| 26B MoE | 3.8B 激活 | 256K | 开源第 6 | 低延迟 Agent / 快速推理 |
| 31B Dense | 31B | 256K | 开源第 3 | 工作站 / 单卡 H100 |

为什么这个排名重要? 31B Dense 的 Arena AI Elo 评分 1452,排在它前面的分别是 745B 的 GLM-5 和 1T 的 Kimi K2.5。Gemma 4 用 31B 的体量挤进了千亿参数级别的牌桌,参数效率极高。
与 Gemma 3 27B 相比,Gemma 4 31B 在三个核心场景的提升幅度:
![]()
E2B 和 E4B 是这次发布最值得关注的部分。
这两款模型与 Google Pixel 团队、高通、联发科深度合作优化,可在 Pixel 手机、树莓派、Jetson Orin Nano 上完全离线运行,延迟接近零。不是阉割版,是完整的多模态 Agent 能力:

一个直观的对比:E2B 在科学知识基准 GPQA Diamond 上得分 43.4%,而上一代 Gemma 3 27B 是 42.4%。手机上的 2B 模型,追上了上一代 27B 的桌面模型。
Google 还发布了 Android 应用 Google AI Edge Gallery(Google Play 可下载),内置 Skills 体验区域,可以直接在手机上体验 Agent 模式。
Gemma 4 没有堆砌花哨概念,而是把几个经过验证的技术组合到最优状态:
逐层嵌入(PLE) -- E2B/E4B 专属。给每一层解码器配备独立的低维嵌入表,不增加层数但显著提升参数利用效率。
共享 KV 缓存 -- 最后 N 层复用前面层的 KV 张量,降低推理显存和计算量,长上下文生成尤其受益。
交替注意力机制 -- 局部滑动窗口 + 全局注意力交替使用,兼顾速度和深度感知。
# 安装 Ollama 后直接拉取
ollama run gemma4:31b
# 26B MoE 版本(更快)
ollama run gemma4:26b-moe
# 端侧小模型
ollama run gemma4:e4bfrom transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "google/gemma-4-31B-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype="auto"
)模型权重已上架 Hugging Face、Kaggle、Ollama。发布当天即支持的主流框架:Transformers、vLLM、llama.cpp、MLX、Unsloth、SGLang、Keras。
| 模型 | bfloat16 显存 | 量化后(4bit)显存 |
|---|---|---|
| 31B Dense | ~62 GB(单卡 H100 80GB) | ~18 GB(消费级 GPU) |
| 26B MoE | ~52 GB | ~15 GB |
| E4B | ~8 GB | ~3 GB |
| E2B | ~4 GB | ~1.5 GB |
这次不是"开放权重",是真正的 Apache 2.0 开源:
Hugging Face CEO Clément Delangue 称其为"一个重要的里程碑"。自 2024 年 2 月首代发布至今,Gemma 系列总下载量超 4 亿次,社区衍生变体超 10 万个。
适合谁:
不适合谁:
核心优势: Apache 2.0 + 端侧多模态 + 参数效率。这三点的组合,目前市面上没有第二个。
限制: MoE 模型虽然只激活 3.8B 参数,但全部 26B 参数仍需加载到内存。端侧模型的实际多模态能力还在完善中。
相关链接:

深入解析 Coding Agent 的六大核心模块:代码仓库上下文、提示词缓存、工具调用、上下文瘦身、会话记忆和任务委派,附开源 Mini Coding Agent 实践参考。

OpenClaw 最密集功能更新:直接调用 11 家视频生成商出片,/dreaming 命令让 AI 模拟睡眠巩固记忆,支持简体中文界面。

GitHub 2万Star爆火的caveman插件,通过精简AI输出风格节省Token消耗,支持Claude Code和Codex,三档压缩强度按需切换。